基础世界模型¶
基础世界模型是在多样化数据上大规模训练的模型,旨在学习关于物理动力学和世界结构的通用表征。它们代表了世界模型、视频生成和基础模型扩展三个方向的交汇。
从任务特定到基础模型¶
传统世界模型在单一环境的数据上训练。基础世界模型追求的则是广泛的泛化能力:
| 方面 | 任务特定 | 基础模型 |
|---|---|---|
| 训练数据 | 单一环境 | 多样化视频、游戏、仿真 |
| 泛化能力 | 单一任务 | 新环境、新任务、新形态 |
| 模型规模 | 小型(百万参数) | 大型(数十亿参数) |
| 交互方式 | 动作条件 | 动作、文本、布局等多种条件 |
代表性模型¶
Genie(Google DeepMind, 2024)¶
Genie(Generative Interactive Environment,生成式交互环境)从无标签的互联网视频中学习可控的世界模型。
架构:
- 视频标记器:时空 VQ-VAE 将视频编码为离散 token
- 潜在动作模型:从连续帧之间推断潜在动作(无需动作标签!)
- 动力学模型:Transformer 根据当前 token 和潜在动作预测下一帧 token
核心洞察:仅从视频中学习潜在动作(无需动作标签),Genie 可以从单张图片提示生成可交互的环境。
能力:
- 从单张图片生成交互式 2D 环境
- 一致的世界动力学(重力、碰撞等)
- 在 20 万小时以上的 2D 平台游戏视频上训练
UniSim(UC Berkeley, 2023)¶
UniSim 是在多种真实世界数据源上训练的通用模拟器。
训练数据:结合互联网视频、机器人数据、合成 3D 数据等。
条件输入:支持多种输入类型:
- 文本描述("一个球从山坡上滚下来")
- 动作(机器人关节指令)
- 相机位姿(3D 导航)
架构:基于扩散的视频生成模型。
应用:
- 模拟机器人动作的结果
- 为 RL 策略生成训练数据
- 回答关于物理世界的"假如"问题
DIAMOND(2024)¶
DIAMOND(Diffusion for World Modeling)使用扩散模型作为 RL 的核心动力学模型:
- 世界模型:给定当前观测和动作,用扩散模型生成下一个观测
- RL 智能体完全在扩散世界模型内部训练
- 在 Atari 上取得强劲性能——可与 DreamerV3 媲美
意义:证明了扩散模型不仅能生成高质量视觉内容,还能作为有效的 RL 世界模型。
NVIDIA Cosmos(2025)¶
Cosmos 是 NVIDIA 推出的基础世界模型平台:
- 在海量视频数据上训练
- 专为物理 AI 应用设计(机器人、自动驾驶、工业仿真)
- 提供预训练模型和微调工具
- 多种模型尺寸适配不同使用场景
其他重要模型¶
- GAIA-1(Wayve, 2023):面向自动驾驶的世界模型,根据文本、动作和地图输入生成驾驶场景
- Pandora(2024):GPT 风格的世界模型,支持跨多个领域的交互式生成
- GameNGen(Google, 2024):使用扩散模型实时生成可玩的 Doom 游戏
- Oasis(Decart, 2024):实时可玩的 Minecraft 生成
技术基础¶
世界模型的扩展定律¶
与语言模型类似,世界模型也表现出扩展行为:
- 更多训练数据 → 更好的泛化能力
- 更大的模型 → 更精确的预测
- 更长的上下文 → 更好的时间一致性
最优的扩展策略需要在模型大小、数据量和计算预算之间进行权衡。
世界模型的标记化¶
将连续观测转换为离散 token 使得基于 Transformer 的架构成为可能:
| 方法 | 原理 | 应用 |
|---|---|---|
| VQ-VAE | 码本量化 | Genie, IRIS |
| FSQ | 有限标量量化 | Cosmos |
| Patch 嵌入 | ViT 风格的图块 | DiT, Sora |
| 时空标记 | 3D 标记化 | VideoGPT |
条件机制¶
基础世界模型支持丰富的条件输入:
- 动作条件:机器人指令、游戏控制、潜在动作
- 文本条件:期望结果的自然语言描述
- 图像条件:从单张起始帧生成动力学
- 布局条件:物体的空间排列
- 相机条件:视角和相机轨迹
挑战与开放问题¶
1. 物理一致性¶
当前模型经常违反物理定律:
- 物体消失或瞬移
- 重力不一致
- 碰撞不守恒
- 长时域动力学发散
2. 可控性¶
对生成动力学的精确控制仍然困难:
- 如何在通用模型中指定动作?
- 潜在动作发现前景光明但尚不可靠
- 文本条件对物理推理而言不够精确
3. 评估标准¶
对于如何评估基础世界模型尚无共识:
- 视觉质量指标(FVD、FID)无法捕捉物理准确性
- 任务性能(RL 回报)是环境特定的
- 人工评估成本高且带有主观性
4. 计算成本¶
基础世界模型的计算开销巨大:
- 训练:需要数千 GPU 小时
- 推理:实时生成仍具挑战
- 内存:长视频上下文需要大量显存
全局视角¶
基础世界模型代表了通向通用物理智能的潜在路径:
graph TD
V[互联网视频数据] --> FWM[基础世界模型]
R[机器人数据] --> FWM
S[仿真数据] --> FWM
FWM --> RL[RL 策略训练]
FWM --> SIM[虚拟仿真]
FWM --> PLAN[规划与预测]
FWM --> DATA[合成数据生成]
愿景:训练一个理解物理世界运行规律的统一模型,然后将其应用于任何下游任务——机器人、自动驾驶、游戏设计、科学模拟。
核心参考文献¶
- Bruce, J., et al. (2024). "Genie: Generative Interactive Environments." ICML.
- Yang, M., et al. (2023). "Learning Interactive Real-World Simulators." arXiv:2310.06114.
- Alonso, E., et al. (2024). "Diffusion for World Modeling: Visual Details Matter in Atari." NeurIPS.
- Hu, A., et al. (2023). "GAIA-1: A Generative World Model for Autonomous Driving." arXiv:2309.17080.
- Agarwal, A., et al. (2025). "Cosmos World Foundation Model Platform for Physical AI." arXiv.
快速发展的领域
基础世界模型是一个快速演进的研究方向。本节内容会随着新模型和新成果的涌现而持续更新。