强化学习核心概念¶
本页介绍强化学习的基础概念,包括数学框架(MDP)、核心对象(策略、值函数)、关键方程(贝尔曼方程)以及根本性挑战(探索与利用的权衡)。
智能体-环境交互界面¶
强化学习的本质是智能体 (Agent) 与环境 (Environment) 在离散时间步上的持续交互。在每一步 \(t\):
- 智能体观测到状态 \(s_t \in \mathcal{S}\)
- 智能体根据自身策略选择动作 \(a_t \in \mathcal{A}\)
- 环境转移到新状态 \(s_{t+1}\) 并给出奖励 \(r_t \in \mathbb{R}\)
智能体的目标是学习一种行为(策略),使其获得的累积奖励最大化。
马尔可夫决策过程 (MDP)¶
RL 问题的标准数学表述是马尔可夫决策过程,由五元组 \((\mathcal{S}, \mathcal{A}, P, R, \gamma)\) 定义:
| 符号 | 含义 |
|---|---|
| \(\mathcal{S}\) | 状态空间 |
| \(\mathcal{A}\) | 动作空间 |
| \(P(s' \mid s, a)\) | 状态转移函数——在状态 \(s\) 执行动作 \(a\) 后转移到 \(s'\) 的概率 |
| \(R(s, a, s')\) | 奖励函数 |
| \(\gamma \in [0, 1)\) | 折扣因子 |
马尔可夫性是指未来状态仅依赖于当前状态而与历史无关:
当马尔可夫性不成立时
在实际系统中,智能体往往只能获得部分状态信息(例如机器人的摄像头无法感知所有隐藏物体的位置)。这就引出了部分可观测马尔可夫决策过程 (POMDP),其中智能体接收到的是观测 \(o_t\) 而非真实状态 \(s_t\)。实践中常用观测历史或循环神经网络策略来应对部分可观测性。
回报与折扣因子¶
回报 (Return) \(G_t\) 是从时间步 \(t\) 起的折扣累积奖励:
折扣因子 \(\gamma\) 控制着智能体对即时奖励和未来奖励的偏好:
- \(\gamma \to 0\):短视智能体,只关注即时奖励
- \(\gamma \to 1\):远视智能体,几乎同等重视未来奖励
为什么需要折扣?
折扣因子有多重作用:(1) 确保无限时域问题中回报值有限;(2) 体现"早获得的奖励更有价值"的偏好;(3) 降低回报估计的方差。
策略¶
策略 (Policy) \(\pi\) 定义了智能体的行为方式——给定状态时如何选择动作。
随机策略:\(\pi(a \mid s) = P(a_t = a \mid s_t = s)\)
确定性策略:\(a = \mu(s)\)
RL 的目标是找到使期望回报最大化的最优策略 \(\pi^*\):
其中 \(\tau = (s_0, a_0, r_0, s_1, a_1, r_1, \ldots)\) 表示在策略 \(\pi\) 下采样得到的轨迹。
值函数¶
值函数衡量在策略 \(\pi\) 下,智能体处于某个状态(或在某个状态执行某个动作)的"好坏程度"。
状态值函数¶
动作值函数 (Q 函数)¶
\(V\) 与 \(Q\) 的关系:
优势函数¶
优势函数 (Advantage Function) 衡量某个动作相对于平均水平的优劣:
优势函数在许多策略梯度算法(PPO、TRPO、GAE)中起着核心作用。
贝尔曼方程¶
贝尔曼方程揭示了值函数的递归结构。
贝尔曼期望方程¶
对 \(V^\pi\):
对 \(Q^\pi\):
贝尔曼最优方程¶
对最优值函数 \(V^*\) 和 \(Q^*\):
贝尔曼方程为何重要
几乎所有 RL 算法的本质都是近似求解贝尔曼方程的方法。值函数方法直接逼近 \(V^*\) 或 \(Q^*\);策略方法通过优化 \(\pi\) 来隐式地满足最优性条件。深刻理解贝尔曼方程是理解 RL 的基石。
探索与利用¶
RL 中的一个根本性挑战是探索-利用权衡 (Exploration-Exploitation Trade-off):
- 利用 (Exploitation):根据当前知识选择期望奖励最高的动作
- 探索 (Exploration):尝试新动作以发现潜在的更优策略
常见的探索策略:
| 策略 | 描述 |
|---|---|
| \(\varepsilon\)-贪心 | 以概率 \(\varepsilon\) 随机选择动作,否则选择贪心动作 |
| 玻尔兹曼 (softmax) | 按 \(\exp(Q(s,a)/\tau)\) 的比例采样动作,\(\tau\) 为温度参数 |
| UCB | 选择使 \(Q(s,a) + c\sqrt{\ln(t)/N(s,a)}\) 最大化的动作 |
| 熵正则化 | 在目标中加入策略熵:$\mathcal{H}(\pi(\cdot |
| 内在动机 | 以好奇心驱动的奖励鼓励探索新状态(如 ICM、RND 等) |
时序差分学习¶
时序差分 (Temporal Difference, TD) 学习是 RL 中的核心思想,它将蒙特卡洛采样与基于值估计的自举 (Bootstrapping) 相结合。
最简单的 TD 更新(TD(0))用于估计 \(V^\pi\):
其中 \(\delta_t = r_t + \gamma V(s_{t+1}) - V(s_t)\) 称为 TD 误差。
TD 学习相较于蒙特卡洛方法有以下优势:
- 低方差(从值估计进行自举,而非使用完整回报)
- 在线学习(每一步即可更新,无需等到回合结束)
- 适用于持续任务(不要求回合有终止)
TD vs. 蒙特卡洛 vs. 动态规划
- 动态规划:需要完整的环境模型 \(P(s'|s,a)\),使用自举,无需采样
- 蒙特卡洛:无需模型,不使用自举,但需要完整回合
- TD 学习:无需模型,使用自举,在线更新——兼具前两者的优势
接下来¶
掌握了这些核心概念后,请继续阅读: