离线强化学习¶
离线强化学习(Offline RL,也称为批量强化学习 Batch RL)是指智能体完全从一个固定的数据集中学习策略,在训练过程中不再与环境进行任何交互。这一范式在在线探索成本高、风险大或不可行的场景下至关重要——例如医疗决策、自动驾驶和机器人操控等领域。
离线强化学习的问题定义¶
给定一个由一个或多个行为策略 \(\pi_\beta\) 收集的静态数据集 \(\mathcal{D} = \{(s_i, a_i, r_i, s_i')\}_{i=1}^{N}\),目标是学习一个最大化期望回报的策略 \(\pi\)。
为什么离线强化学习如此困难?¶
核心挑战在于学习策略 \(\pi\) 与行为策略 \(\pi_\beta\) 之间的分布偏移(distribution shift):
- Q 函数是在 \(\pi_\beta\) 产生的状态-动作对上训练的
- 在评估(或 Bellman 回溯)时,我们查询 \(Q(s', a')\),其中 \(a' \sim \pi(s')\)
- 如果 \(\pi\) 选择了数据集 \(\mathcal{D}\) 中很少出现的动作,Q 值就变得不可靠(外推误差)
- Bellman 回溯中的 \(\max\) 算子会放大对分布外动作的过高估计
这就是所谓的分布偏移问题或动作外推误差。
graph LR
A[行为策略 π_β] -->|收集| D[数据集 D]
D -->|训练| Q[Q 函数]
Q -->|高估分布外动作| P[学习策略 π]
P -->|选择分布外动作| Q
style Q fill:#ff6b6b,color:white
核心方法¶
1. 策略约束方法¶
约束学习策略 \(\pi\) 使其接近行为策略 \(\pi_\beta\):
BCQ(Fujimoto et al., 2019):使用行为策略 \(\pi_\beta\) 的生成模型,仅考虑其支撑集内的动作:
其中 \(\{a_i\}\) 从学习到的 \(\pi_\beta\) 的 VAE 中采样,\(\xi_\phi\) 为一个小扰动。
BEAR(Kumar et al., 2019):利用 MMD(最大均值差异)约束学习策略的支撑集在数据分布之内:
2. 保守值估计¶
学习悲观的 Q 值,使分布外动作的价值被低估:
CQL(Kumar et al., 2020):添加正则项,压低数据集中不存在的动作的 Q 值:
第一项惩罚分布外动作(从 \(\mu\) 采样,如当前策略)的高 Q 值,同时提升分布内动作的 Q 值。
核心性质:CQL 学到的 Q 函数是真实 Q 值的下界,从而保证策略选择的保守性。
3. 隐式方法¶
IQL(Kostrikov et al., 2022):通过期望分位回归(expectile regression)完全避免查询分布外动作的 Q 值:
其中 \(L_2^\tau(u) = |\tau - \mathbb{1}(u < 0)| \cdot u^2\) 为期望分位损失。
当 \(\tau \to 1\) 时,\(V_\psi(s) \approx \max_a Q(s,a)\),但仅在数据分布上取最大值——无需显式地对动作空间求最大值,就能近似最优值函数。
IQL 的优势:
- 永远不会查询分布外动作的 Q 值
- 实现简单(仅需回归)
- 同时适用于连续和离散动作空间
- 可与优势加权提取结合以输出策略
4. 将 RL 重新定义为序列建模¶
Decision Transformer(Chen et al., 2021):将离线 RL 重新定义为序列预测问题。Transformer 模型根据期望回报预测动作:
其中 \(\hat{R}_t\) 为回报残差(return-to-go,即期望的未来总回报)。
在测试时,设定较高的回报残差即可引导出高回报行为。
核心洞察:无需 Bellman 方程,无需时序差分学习,无需值函数——仅是对序列的监督学习。Transformer 隐式地学会了哪些动作能带来高回报。
方法对比¶
| 方法 | 核心思路 | 优势 | 劣势 |
|---|---|---|---|
| BCQ | 策略约束 | 保守稳定 | 需要训练生成模型 |
| CQL | 保守 Q 值 | 理论性强、适用面广 | 对超参数 \(\alpha\) 敏感 |
| IQL | 隐式 Q 学习 | 实现简单、无分布外查询 | 近似最大化 |
| DT | 序列建模 | 极其简单(纯监督学习) | 轨迹拼接能力弱 |
轨迹拼接(Trajectory Stitching)
轨迹拼接是离线 RL 区别于模仿学习的关键能力:它能将数据集中不同轨迹的片段组合起来,生成优于任何单条轨迹的策略。CQL 和 IQL 具备此能力;而 Decision Transformer 在这方面表现较弱,因为它主要复现轨迹级别的模式。
实践考量¶
数据质量至关重要¶
离线 RL 的性能高度依赖数据集的组成:
- 专家数据:质量高,但离线 RL 相比模仿学习优势有限
- 混合数据(专家 + 次优):离线 RL 的最佳场景——可以拼接各轨迹中的优质片段
- 随机数据:非常具有挑战性——对优质行为的覆盖有限
评估方法¶
标准评估流程:
- 在固定数据集上训练(如 D4RL 基准测试)
- 在环境中在线评估学到的策略
- 报告相对于专家和随机基线的标准化得分
D4RL 基准测试¶
D4RL(Fu et al., 2020)是离线 RL 的标准基准测试,提供了多种环境下不同质量的数据集:
- MuJoCo:HalfCheetah、Hopper、Walker2d,包含随机/中等/专家/中等-专家数据集
- Antmaze:稀疏奖励下的导航任务
- Kitchen:多任务操作环境
与其他主题的联系¶
- 具身智能:离线 RL 使得从通过遥操作和数据采集收集的演示数据集中学习成为可能,无需在线与真实机器人交互。
- 世界模型:离线的基于模型的方法(如 COMBO、MOPO)可以从离线数据中学习世界模型,并用于策略优化。
核心参考文献¶
- Fujimoto, S., Meger, D., Precup, D. (2019). "Off-Policy Deep Reinforcement Learning without Exploration." ICML.
- Kumar, A., et al. (2019). "Stabilizing Off-Policy Q-Learning via Bootstrapping Error Reduction." NeurIPS.
- Kumar, A., Zhou, A., Tucker, G., Levine, S. (2020). "Conservative Q-Learning for Offline Reinforcement Learning." NeurIPS.
- Kostrikov, I., Nair, A., Levine, S. (2022). "Offline Reinforcement Learning with Implicit Q-Learning." ICLR.
- Chen, L., et al. (2021). "Decision Transformer: Reinforcement Learning via Sequence Modeling." NeurIPS.
- Fu, J., Kumar, A., Nachum, O., Tucker, G., Levine, S. (2020). "D4RL: Datasets for Deep Data-Driven Reinforcement Learning." arXiv:2004.06729.
- Levine, S., et al. (2020). "Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems." arXiv:2005.01643.