第一部分:强化学习¶
强化学习 (Reinforcement Learning, RL) 是研究"通过交互进行学习"的计算框架。智能体在环境中执行动作,接收奖励信号作为反馈,并学习一个使累积奖励最大化的策略。RL 为具身智能研究提供了核心的算法基础。
本部分内容¶
- 核心概念 — MDP、策略、值函数、贝尔曼方程及探索与利用的权衡
- 算法分类 — RL 算法全景图:无模型 vs. 有模型、同策略 vs. 异策略、值函数方法 vs. 策略方法
- 策略优化入门 — 策略梯度定理及其重要意义
- 算法详解:
- 关键论文 — 精选的经典与前沿 RL 论文列表
建议阅读顺序¶
如果你是 RL 初学者,推荐按以下路径阅读:
graph TD
A[核心概念] --> B[算法分类]
B --> C[策略优化入门]
C --> D[策略梯度]
C --> E[值函数方法]
D --> F[信赖域 - TRPO/PPO]
E --> G[Actor-Critic - SAC/TD3]
F --> G
G --> H[基于模型的 RL]
H --> I[离线 RL]
I --> J[关键论文]
如果你已有一定基础,可以直接跳转到任何算法页面。
与其他部分的关联¶
- 世界模型(第二部分)是本节基于模型 RL 概念的自然延伸
- 具身智能(第三部分)将 RL 算法应用于物理机器人系统(Sim-to-Real、运动控制策略等)
- 分布式 RL(第四部分)讲解如何大规模并行训练本节介绍的算法