强化学习核心概念¶

本页介绍强化学习的基础概念，包括数学框架（MDP）、核心对象（策略、值函数）、关键方程（贝尔曼方程）以及根本性挑战（探索与利用的权衡）。

智能体-环境交互界面¶

强化学习的本质是智能体 (Agent) 与环境 (Environment) 在离散时间步上的持续交互。在每一步 $t$：

智能体观测到状态 $s_t \in \mathcal{S}$
智能体根据自身策略选择动作 $a_t \in \mathcal{A}$
环境转移到新状态 $s_{t+1}$ 并给出奖励 $r_t \in \mathbb{R}$

智能体的目标是学习一种行为（策略），使其获得的累积奖励最大化。

马尔可夫决策过程 (MDP)¶

RL 问题的标准数学表述是马尔可夫决策过程，由五元组 $(\mathcal{S}, \mathcal{A}, P, R, \gamma)$ 定义：

符号	含义
$\mathcal{S}$	状态空间
$\mathcal{A}$	动作空间
$P(s' \mid s, a)$	状态转移函数——在状态 $s$ 执行动作 $a$ 后转移到 $s'$ 的概率
$R(s, a, s')$	奖励函数
$\gamma \in [0, 1)$	折扣因子

马尔可夫性是指未来状态仅依赖于当前状态而与历史无关：

\[ P(s_{t+1} \mid s_t, a_t, s_{t-1}, a_{t-1}, \ldots) = P(s_{t+1} \mid s_t, a_t) \]

当马尔可夫性不成立时

在实际系统中，智能体往往只能获得部分状态信息（例如机器人的摄像头无法感知所有隐藏物体的位置）。这就引出了部分可观测马尔可夫决策过程 (POMDP)，其中智能体接收到的是观测 $o_t$ 而非真实状态 $s_t$。实践中常用观测历史或循环神经网络策略来应对部分可观测性。

回报与折扣因子¶

回报 (Return) $G_t$ 是从时间步 $t$ 起的折扣累积奖励：

\[ G_t = \sum_{k=0}^{\infty} \gamma^k r_{t+k} \]

折扣因子 $\gamma$ 控制着智能体对即时奖励和未来奖励的偏好：

$\gamma \to 0$：短视智能体，只关注即时奖励
$\gamma \to 1$：远视智能体，几乎同等重视未来奖励

为什么需要折扣？

折扣因子有多重作用：(1) 确保无限时域问题中回报值有限；(2) 体现"早获得的奖励更有价值"的偏好；(3) 降低回报估计的方差。

策略¶

策略 (Policy) $\pi$ 定义了智能体的行为方式——给定状态时如何选择动作。

随机策略：$\pi(a \mid s) = P(a_t = a \mid s_t = s)$

确定性策略：$a = \mu(s)$

RL 的目标是找到使期望回报最大化的最优策略 $\pi^*$：

\[ \pi^* = \arg\max_\pi \mathbb{E}_{\tau \sim \pi} \left[ \sum_{t=0}^{\infty} \gamma^t r_t \right] \]

其中 $\tau = (s_0, a_0, r_0, s_1, a_1, r_1, \ldots)$ 表示在策略 $\pi$ 下采样得到的轨迹。

值函数¶

值函数衡量在策略 $\pi$ 下，智能体处于某个状态（或在某个状态执行某个动作）的"好坏程度"。

状态值函数¶

\[ V^\pi(s) = \mathbb{E}_{\pi} \left[ G_t \mid s_t = s \right] = \mathbb{E}_{\pi} \left[ \sum_{k=0}^{\infty} \gamma^k r_{t+k} \mid s_t = s \right] \]

动作值函数 (Q 函数)¶

\[ Q^\pi(s, a) = \mathbb{E}_{\pi} \left[ G_t \mid s_t = s, a_t = a \right] \]

$V$ 与 $Q$ 的关系：

\[ V^\pi(s) = \mathbb{E}_{a \sim \pi(\cdot|s)} \left[ Q^\pi(s, a) \right] \]

优势函数¶

优势函数 (Advantage Function) 衡量某个动作相对于平均水平的优劣：

\[ A^\pi(s, a) = Q^\pi(s, a) - V^\pi(s) \]

优势函数在许多策略梯度算法（PPO、TRPO、GAE）中起着核心作用。

贝尔曼方程¶

贝尔曼方程揭示了值函数的递归结构。

贝尔曼期望方程¶

对 $V^\pi$：

\[ V^\pi(s) = \sum_{a} \pi(a|s) \left[ R(s,a) + \gamma \sum_{s'} P(s'|s,a) V^\pi(s') \right] \]

对 $Q^\pi$：

\[ Q^\pi(s,a) = R(s,a) + \gamma \sum_{s'} P(s'|s,a) \sum_{a'} \pi(a'|s') Q^\pi(s',a') \]

贝尔曼最优方程¶

对最优值函数 $V^*$ 和 $Q^*$：

\[ V^*(s) = \max_a \left[ R(s,a) + \gamma \sum_{s'} P(s'|s,a) V^*(s') \right] \]

\[ Q^*(s,a) = R(s,a) + \gamma \sum_{s'} P(s'|s,a) \max_{a'} Q^*(s',a') \]

贝尔曼方程为何重要

几乎所有 RL 算法的本质都是近似求解贝尔曼方程的方法。值函数方法直接逼近 $V^*$ 或 $Q^*$；策略方法通过优化 $\pi$ 来隐式地满足最优性条件。深刻理解贝尔曼方程是理解 RL 的基石。

探索与利用¶

RL 中的一个根本性挑战是探索-利用权衡 (Exploration-Exploitation Trade-off)：

利用 (Exploitation)：根据当前知识选择期望奖励最高的动作
探索 (Exploration)：尝试新动作以发现潜在的更优策略

常见的探索策略：

策略	描述
$\varepsilon$-贪心	以概率 $\varepsilon$ 随机选择动作，否则选择贪心动作
玻尔兹曼 (softmax)	按 $\exp(Q(s,a)/\tau)$ 的比例采样动作，$\tau$ 为温度参数
UCB	选择使 $Q(s,a) + c\sqrt{\ln(t)/N(s,a)}$ 最大化的动作
熵正则化	在目标中加入策略熵：$\mathcal{H}(\pi(\cdot
内在动机	以好奇心驱动的奖励鼓励探索新状态（如 ICM、RND 等）

时序差分学习¶

时序差分 (Temporal Difference, TD) 学习是 RL 中的核心思想，它将蒙特卡洛采样与基于值估计的自举 (Bootstrapping) 相结合。

最简单的 TD 更新（TD(0)）用于估计 $V^\pi$：

\[ V(s_t) \leftarrow V(s_t) + \alpha \left[ r_t + \gamma V(s_{t+1}) - V(s_t) \right] \]

其中 $\delta_t = r_t + \gamma V(s_{t+1}) - V(s_t)$ 称为 TD 误差。

TD 学习相较于蒙特卡洛方法有以下优势：

低方差（从值估计进行自举，而非使用完整回报）
在线学习（每一步即可更新，无需等到回合结束）
适用于持续任务（不要求回合有终止）

TD vs. 蒙特卡洛 vs. 动态规划

动态规划：需要完整的环境模型 $P(s'|s,a)$，使用自举，无需采样
蒙特卡洛：无需模型，不使用自举，但需要完整回合
TD 学习：无需模型，使用自举，在线更新——兼具前两者的优势

接下来¶

掌握了这些核心概念后，请继续阅读：

算法分类 — RL 算法是如何组织的
策略优化入门 — 策略梯度定理

符号	含义
\(\mathcal{S}\)	状态空间
\(\mathcal{A}\)	动作空间
\(P(s' \mid s, a)\)	状态转移函数——在状态 \(s\) 执行动作 \(a\) 后转移到 \(s'\) 的概率
\(R(s, a, s')\)	奖励函数
\(\gamma \in [0, 1)\)	折扣因子

策略	描述
\(\varepsilon\)-贪心	以概率 \(\varepsilon\) 随机选择动作，否则选择贪心动作
玻尔兹曼 (softmax)	按 \(\exp(Q(s,a)/\tau)\) 的比例采样动作，\(\tau\) 为温度参数
UCB	选择使 \(Q(s,a) + c\sqrt{\ln(t)/N(s,a)}\) 最大化的动作
熵正则化	在目标中加入策略熵：$\mathcal{H}(\pi(\cdot
内在动机	以好奇心驱动的奖励鼓励探索新状态（如 ICM、RND 等）