跳转至

什么是世界模型?

世界模型是一种学习到的环境动力学内部表征,使智能体能够预测未来状态、推理动作的后果,并在不直接与环境交互的情况下进行规划。

形式化定义

世界模型可以描述为一个学习到的函数(或函数集合):

\[ \hat{s}_{t+1}, \hat{r}_t = f_\theta(s_t, a_t) \]

更一般地,在潜在空间的框架下:

  • 编码器\(z_t = \text{enc}_\theta(o_t)\) — 将观测映射到潜在状态
  • 动力学模型\(z_{t+1} = \text{dyn}_\theta(z_t, a_t)\) — 预测下一个潜在状态
  • 解码器\(\hat{o}_t = \text{dec}_\theta(z_t)\) — 重建观测(可选)
  • 奖励预测器\(\hat{r}_t = \text{rew}_\theta(z_t, a_t)\) — 预测奖励

认知科学视角

"心理模型"这一概念在认知科学中有着深厚的根基:

  • Kenneth Craik(1943):提出有机体在大脑中维持着外部世界的"小型模型",用于预测和规划
  • 预测性加工理论:大脑本质上是一台预测机器,不断生成和更新对感觉输入的预测
  • 心理模拟:人类可以在采取行动之前"想象"其后果

AI 中的世界模型正是对这一直觉的形式化:赋予人工智能体在内部模拟动作后果的能力。

世界模型的分类

按预测空间分类

类型 预测对象 代表方法
观测空间 原始像素/观测 \(\hat{o}_{t+1}\) SVG, SV2P, FitVid
潜在空间 紧凑的潜在状态 \(z_{t+1}\) Dreamer, RSSM, JEPA
仅奖励/值函数 奖励 \(\hat{r}_t\) 和/或价值 \(\hat{v}_t\) MuZero

按架构分类

架构 描述 代表方法
基于 RNN 在潜在空间中使用循环动力学 World Models (Ha & Schmidhuber), RSSM
基于 Transformer 对状态-动作 token 进行序列建模 IRIS, TransDreamer, Genie
基于扩散模型 用去噪扩散过程预测未来 UniSim, DIAMOND
状态空间模型 结构化状态空间层 S4WM

按适用范围分类

范围 描述 代表方法
任务特定 在单一环境中训练 Dreamer 在 DMControl 上
领域特定 在单一领域中训练(如自动驾驶) MILE, GAIA-1
基础模型 在多样化数据上训练,具备广泛泛化能力 Genie, UniSim

核心挑战

1. 累积误差

小的预测误差在长时域展开中不断累积:

\[ \text{第 } H \text{ 步的误差} \propto \sum_{t=1}^{H} \epsilon_t \approx H \cdot \bar{\epsilon} \]

这限制了有用的预测时域,通常通过以下方法缓解:

  • 短时域展开(MBPO)
  • 潜在空间预测(降低误差的维度)
  • 集成模型分歧(量化和管理不确定性)

2. 部分可观测性

真实环境是部分可观测的——智能体无法看到完整状态。世界模型必须从观测历史中推断潜在状态:

\[ z_t = f(o_1, a_1, o_2, a_2, \ldots, o_t) \]

这通常通过循环架构(GRU、LSTM、RSSM)来处理。

3. 多模态未来

未来往往是随机的——从同一状态和动作可能产生多种结果。确定性模型会退化为对均值的预测。随机性模型必须捕捉可能未来的分布。

常见方法:

  • 基于 VAE:潜在随机变量 \(z \sim q(z|o)\)
  • 离散 token:类别分布(DreamerV2)
  • 扩散模型:生成多样化的样本
  • 混合模型:显式建模多个模态

4. 长时域推理

许多任务需要在长时间尺度上进行推理(几百到几千步)。主要挑战:

  • 长时域展开中的累积误差
  • 内存需求
  • 捕捉长距离依赖关系

发展简史

年份 里程碑
1991 Dyna(Sutton)— 基于模型的 RL 框架
2015 PILCO — 用高斯过程进行基于模型的 RL
2018 World Models(Ha & Schmidhuber)— VAE + RNN,在梦境中学习
2019 PlaNet / RSSM(Hafner et al.)— 循环状态空间模型
2020 Dreamer(Hafner et al.)— 潜在想象中的 Actor-Critic
2020 MuZero(Schrittwieser et al.)— 学习模型 + MCTS
2021 DreamerV2 — 离散潜在表征
2023 DreamerV3 — 横跨多领域的通用世界模型
2023-24 基础世界模型 — Genie, UniSim, DIAMOND, Cosmos

后续阅读