什么是世界模型？¶

世界模型是一种学习到的环境动力学内部表征，使智能体能够预测未来状态、推理动作的后果，并在不直接与环境交互的情况下进行规划。

形式化定义¶

世界模型可以描述为一个学习到的函数（或函数集合）：

\[ \hat{s}_{t+1}, \hat{r}_t = f_\theta(s_t, a_t) \]

更一般地，在潜在空间的框架下：

"心理模型"这一概念在认知科学中有着深厚的根基：

AI 中的世界模型正是对这一直觉的形式化：赋予人工智能体在内部模拟动作后果的能力。

架构	描述	代表方法
基于 RNN	在潜在空间中使用循环动力学	World Models (Ha & Schmidhuber), RSSM
基于 Transformer	对状态-动作 token 进行序列建模	IRIS, TransDreamer, Genie
基于扩散模型	用去噪扩散过程预测未来	UniSim, DIAMOND
状态空间模型	结构化状态空间层	S4WM

小的预测误差在长时域展开中不断累积：

\[ \text{第 } H \text{ 步的误差} \propto \sum_{t=1}^{H} \epsilon_t \approx H \cdot \bar{\epsilon} \]

这限制了有用的预测时域，通常通过以下方法缓解：

真实环境是部分可观测的——智能体无法看到完整状态。世界模型必须从观测历史中推断潜在状态：

\[ z_t = f(o_1, a_1, o_2, a_2, \ldots, o_t) \]

这通常通过循环架构（GRU、LSTM、RSSM）来处理。

未来往往是随机的——从同一状态和动作可能产生多种结果。确定性模型会退化为对均值的预测。随机性模型必须捕捉可能未来的分布。

常见方法：

许多任务需要在长时间尺度上进行推理（几百到几千步）。主要挑战：

年份	里程碑
1991	Dyna（Sutton）— 基于模型的 RL 框架
2015	PILCO — 用高斯过程进行基于模型的 RL
2018	World Models（Ha & Schmidhuber）— VAE + RNN，在梦境中学习
2019	PlaNet / RSSM（Hafner et al.）— 循环状态空间模型
2020	Dreamer（Hafner et al.）— 潜在想象中的 Actor-Critic
2020	MuZero（Schrittwieser et al.）— 学习模型 + MCTS
2021	DreamerV2 — 离散潜在表征
2023	DreamerV3 — 横跨多领域的通用世界模型
2023-24	基础世界模型 — Genie, UniSim, DIAMOND, Cosmos