什么是世界模型?¶
世界模型是一种学习到的环境动力学内部表征,使智能体能够预测未来状态、推理动作的后果,并在不直接与环境交互的情况下进行规划。
形式化定义¶
世界模型可以描述为一个学习到的函数(或函数集合):
\[
\hat{s}_{t+1}, \hat{r}_t = f_\theta(s_t, a_t)
\]
更一般地,在潜在空间的框架下:
- 编码器:\(z_t = \text{enc}_\theta(o_t)\) — 将观测映射到潜在状态
- 动力学模型:\(z_{t+1} = \text{dyn}_\theta(z_t, a_t)\) — 预测下一个潜在状态
- 解码器:\(\hat{o}_t = \text{dec}_\theta(z_t)\) — 重建观测(可选)
- 奖励预测器:\(\hat{r}_t = \text{rew}_\theta(z_t, a_t)\) — 预测奖励
认知科学视角¶
"心理模型"这一概念在认知科学中有着深厚的根基:
- Kenneth Craik(1943):提出有机体在大脑中维持着外部世界的"小型模型",用于预测和规划
- 预测性加工理论:大脑本质上是一台预测机器,不断生成和更新对感觉输入的预测
- 心理模拟:人类可以在采取行动之前"想象"其后果
AI 中的世界模型正是对这一直觉的形式化:赋予人工智能体在内部模拟动作后果的能力。
世界模型的分类¶
按预测空间分类¶
| 类型 | 预测对象 | 代表方法 |
|---|---|---|
| 观测空间 | 原始像素/观测 \(\hat{o}_{t+1}\) | SVG, SV2P, FitVid |
| 潜在空间 | 紧凑的潜在状态 \(z_{t+1}\) | Dreamer, RSSM, JEPA |
| 仅奖励/值函数 | 奖励 \(\hat{r}_t\) 和/或价值 \(\hat{v}_t\) | MuZero |
按架构分类¶
| 架构 | 描述 | 代表方法 |
|---|---|---|
| 基于 RNN | 在潜在空间中使用循环动力学 | World Models (Ha & Schmidhuber), RSSM |
| 基于 Transformer | 对状态-动作 token 进行序列建模 | IRIS, TransDreamer, Genie |
| 基于扩散模型 | 用去噪扩散过程预测未来 | UniSim, DIAMOND |
| 状态空间模型 | 结构化状态空间层 | S4WM |
按适用范围分类¶
| 范围 | 描述 | 代表方法 |
|---|---|---|
| 任务特定 | 在单一环境中训练 | Dreamer 在 DMControl 上 |
| 领域特定 | 在单一领域中训练(如自动驾驶) | MILE, GAIA-1 |
| 基础模型 | 在多样化数据上训练,具备广泛泛化能力 | Genie, UniSim |
核心挑战¶
1. 累积误差¶
小的预测误差在长时域展开中不断累积:
\[
\text{第 } H \text{ 步的误差} \propto \sum_{t=1}^{H} \epsilon_t \approx H \cdot \bar{\epsilon}
\]
这限制了有用的预测时域,通常通过以下方法缓解:
- 短时域展开(MBPO)
- 潜在空间预测(降低误差的维度)
- 集成模型分歧(量化和管理不确定性)
2. 部分可观测性¶
真实环境是部分可观测的——智能体无法看到完整状态。世界模型必须从观测历史中推断潜在状态:
\[
z_t = f(o_1, a_1, o_2, a_2, \ldots, o_t)
\]
这通常通过循环架构(GRU、LSTM、RSSM)来处理。
3. 多模态未来¶
未来往往是随机的——从同一状态和动作可能产生多种结果。确定性模型会退化为对均值的预测。随机性模型必须捕捉可能未来的分布。
常见方法:
- 基于 VAE:潜在随机变量 \(z \sim q(z|o)\)
- 离散 token:类别分布(DreamerV2)
- 扩散模型:生成多样化的样本
- 混合模型:显式建模多个模态
4. 长时域推理¶
许多任务需要在长时间尺度上进行推理(几百到几千步)。主要挑战:
- 长时域展开中的累积误差
- 内存需求
- 捕捉长距离依赖关系
发展简史¶
| 年份 | 里程碑 |
|---|---|
| 1991 | Dyna(Sutton)— 基于模型的 RL 框架 |
| 2015 | PILCO — 用高斯过程进行基于模型的 RL |
| 2018 | World Models(Ha & Schmidhuber)— VAE + RNN,在梦境中学习 |
| 2019 | PlaNet / RSSM(Hafner et al.)— 循环状态空间模型 |
| 2020 | Dreamer(Hafner et al.)— 潜在想象中的 Actor-Critic |
| 2020 | MuZero(Schrittwieser et al.)— 学习模型 + MCTS |
| 2021 | DreamerV2 — 离散潜在表征 |
| 2023 | DreamerV3 — 横跨多领域的通用世界模型 |
| 2023-24 | 基础世界模型 — Genie, UniSim, DIAMOND, Cosmos |