视频预测¶

视频预测——根据过去的观测预测未来的视觉帧——是世界模型的核心能力之一。准确的视频预测能够支撑规划、异常检测以及对物理动力学的理解。

问题定义¶

给定过去的帧序列（以及可选的动作），预测未来的帧：

\[ \hat{o}_{t+1:t+H} = f_\theta(o_{1:t}, a_{1:t+H-1}) \]

有动作条件：预测特定动作的结果（用于控制）

无动作条件：预测一般性的未来演化（用于理解）

确定性模型¶

卷积序列模型¶

早期方法使用卷积编码器-解码器网络结合循环动力学：

ConvLSTM（Shi et al., 2015）：用于时空预测的卷积 LSTM
PredNet（Lotter et al., 2017）：受神经科学启发的预测编码架构
SVG（Denton & Biber, 2018）：带学习先验的随机视频生成

局限性¶

模糊预测：MSE 损失 + 确定性模型 → 对所有可能未来的平均
短预测时域：质量在超过几帧后迅速退化
模式坍塌：无法表示多种可能的未来

随机性模型¶

基于 VAE 的模型¶

SV2P（Babaeizadeh et al., 2018）：随机变分视频预测——在每个时间步添加潜在随机变量以捕捉不确定性：

\[ z_t \sim q(z_t | o_{1:t+1}), \quad \hat{o}_{t+1} = \text{dec}(h_t, z_t) \]

FitVid（Babaeizadeh et al., 2021）：通过架构改进扩展随机视频预测的规模，实现更长时域、更高质量的预测。

基于 GAN 的模型¶

DVD-GAN（Clark et al., 2019）：使用对抗训练生成更清晰的视频。判别器分别在空间和时间维度上进行操作。

优点：比 VAE 模型预测更清晰

缺点：训练不稳定，可能出现模式丢失

基于 Transformer 的模型¶

Transformer 凭借其建模长距离依赖的能力，已成为视频预测领域的主导架构。

VideoGPT 与标记化¶

VideoGPT（Yan et al., 2021）：先用 VQ-VAE 将视频帧转化为离散 token，然后用类 GPT 的 Transformer 对 token 序列进行自回归建模。

处理流程：

通过 VQ-VAE 将帧编码为离散 token
用因果 Transformer 对 token 序列建模
自回归地采样未来 token
将 token 解码回视频帧

IRIS¶

IRIS（Micheli et al., 2023）：一个使用基于 Transformer 的世界模型和离散 token 的 RL 智能体。

观测 → 通过 VQ-VAE 转化为离散 token
动力学建模为对（观测 token、动作 token、奖励 token）序列的自回归下一 token 预测
基于想象力的策略训练

这直接架起了视频预测与 RL 之间的桥梁。

基于扩散模型的方法¶

扩散模型近年来在视频预测领域取得了最先进的成果，能够生成高质量、多样化的样本。

扩散模型如何应用于视频¶

标准扩散过程：学习将 \(x_t = \sqrt{\alpha_t} x_0 + \sqrt{1-\alpha_t} \epsilon\) 去噪回 \(x_0\)。

对于视频预测，\(x_0\) 是未来帧（或帧序列），以过去的帧为条件：

\[ p_\theta(o_{t+1:t+H} | o_{1:t}) = \int p_\theta(o_{t+1:t+H}^{(0)} | o_{t+1:t+H}^{(T)}) \, p(o_{t+1:t+H}^{(T)}) \, d o^{(T)} \]

代表性模型¶

MCVD（Voleti et al., 2022）：遮蔽条件视频扩散
RVD（Yang et al., 2023）：基于循环条件的可扩展视频扩散
Sora：OpenAI 基于扩散 Transformer（DiT）的视频生成模型

扩散模型用于视频的优势¶

高质量：清晰、细节丰富的预测
多样性：天然生成多样化的未来
可控性：可以文本、动作、布局等为条件
可扩展性：DiT 架构随计算资源的增加而有效扩展

动作条件视频预测¶

在控制和机器人领域，我们需要以动作为条件的视频预测：

\[ \hat{o}_{t+1} = f_\theta(o_{1:t}, a_t) \]

代表性工作：

Action-Conditioned Video Prediction（Oh et al., 2015）：以动作为条件预测 Atari 帧的早期工作
UniPi（Du et al., 2023）：将视频扩散模型作为通用策略接口——通过生成未来视频进行规划，然后提取动作
SuSIE（Black et al., 2023）：利用视频预测进行机器人操作中的子目标生成

评估指标¶

指标	衡量内容	备注
MSE / PSNR	像素级精度	对模糊的惩罚不如感知方法严格
SSIM	结构相似性	优于 MSE 但仍在像素级别
LPIPS	感知相似性	使用深度特征，与人类判断相关性更高
FVD	Frechet 视频距离	分布级别的指标，视频版的 FID
FID（逐帧）	逐帧的分布质量	适用于长时域评估

指标的局限性

在随机环境下，像素级指标（MSE、SSIM）可能具有误导性——对所有可能未来的模糊平均在 MSE 上可能得分不错，但对规划毫无用处。FVD 和 LPIPS 通常更具参考价值。

与世界模型的联系¶

视频预测模型在结合以下要素后即成为世界模型：

动作条件：预测动作的后果
奖励预测：从预测的未来中估计奖励
规划算法：利用预测进行决策

当前的趋势是从纯粹的视频预测走向集成式世界模型——统一处理感知、预测和控制。

核心参考文献¶

Shi, X., et al. (2015). "Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting." NeurIPS.
Babaeizadeh, M., et al. (2018). "Stochastic Variational Video Prediction." ICLR.
Yan, W., et al. (2021). "VideoGPT: Video Generation using VQ-VAE and Transformers." arXiv.
Micheli, V., Alonso, E., Fleuret, F. (2023). "Transformers are Sample-Efficient World Learners." ICLR.
Du, Y., et al. (2023). "Learning Universal Policies via Text-Guided Video Generation." NeurIPS.