跳转至

强化学习核心概念

本页介绍强化学习的基础概念,包括数学框架(MDP)、核心对象(策略、值函数)、关键方程(贝尔曼方程)以及根本性挑战(探索与利用的权衡)。

智能体-环境交互界面

强化学习的本质是智能体 (Agent) 与环境 (Environment) 在离散时间步上的持续交互。在每一步 \(t\)

  1. 智能体观测到状态 \(s_t \in \mathcal{S}\)
  2. 智能体根据自身策略选择动作 \(a_t \in \mathcal{A}\)
  3. 环境转移到新状态 \(s_{t+1}\) 并给出奖励 \(r_t \in \mathbb{R}\)

智能体的目标是学习一种行为(策略),使其获得的累积奖励最大化。

马尔可夫决策过程 (MDP)

RL 问题的标准数学表述是马尔可夫决策过程,由五元组 \((\mathcal{S}, \mathcal{A}, P, R, \gamma)\) 定义:

符号 含义
\(\mathcal{S}\) 状态空间
\(\mathcal{A}\) 动作空间
\(P(s' \mid s, a)\) 状态转移函数——在状态 \(s\) 执行动作 \(a\) 后转移到 \(s'\) 的概率
\(R(s, a, s')\) 奖励函数
\(\gamma \in [0, 1)\) 折扣因子

马尔可夫性是指未来状态仅依赖于当前状态而与历史无关:

\[ P(s_{t+1} \mid s_t, a_t, s_{t-1}, a_{t-1}, \ldots) = P(s_{t+1} \mid s_t, a_t) \]

当马尔可夫性不成立时

在实际系统中,智能体往往只能获得部分状态信息(例如机器人的摄像头无法感知所有隐藏物体的位置)。这就引出了部分可观测马尔可夫决策过程 (POMDP),其中智能体接收到的是观测 \(o_t\) 而非真实状态 \(s_t\)。实践中常用观测历史或循环神经网络策略来应对部分可观测性。

回报与折扣因子

回报 (Return) \(G_t\) 是从时间步 \(t\) 起的折扣累积奖励:

\[ G_t = \sum_{k=0}^{\infty} \gamma^k r_{t+k} \]

折扣因子 \(\gamma\) 控制着智能体对即时奖励和未来奖励的偏好:

  • \(\gamma \to 0\):短视智能体,只关注即时奖励
  • \(\gamma \to 1\):远视智能体,几乎同等重视未来奖励

为什么需要折扣?

折扣因子有多重作用:(1) 确保无限时域问题中回报值有限;(2) 体现"早获得的奖励更有价值"的偏好;(3) 降低回报估计的方差。

策略

策略 (Policy) \(\pi\) 定义了智能体的行为方式——给定状态时如何选择动作。

随机策略\(\pi(a \mid s) = P(a_t = a \mid s_t = s)\)

确定性策略\(a = \mu(s)\)

RL 的目标是找到使期望回报最大化的最优策略 \(\pi^*\)

\[ \pi^* = \arg\max_\pi \mathbb{E}_{\tau \sim \pi} \left[ \sum_{t=0}^{\infty} \gamma^t r_t \right] \]

其中 \(\tau = (s_0, a_0, r_0, s_1, a_1, r_1, \ldots)\) 表示在策略 \(\pi\) 下采样得到的轨迹。

值函数

值函数衡量在策略 \(\pi\) 下,智能体处于某个状态(或在某个状态执行某个动作)的"好坏程度"。

状态值函数

\[ V^\pi(s) = \mathbb{E}_{\pi} \left[ G_t \mid s_t = s \right] = \mathbb{E}_{\pi} \left[ \sum_{k=0}^{\infty} \gamma^k r_{t+k} \mid s_t = s \right] \]

动作值函数 (Q 函数)

\[ Q^\pi(s, a) = \mathbb{E}_{\pi} \left[ G_t \mid s_t = s, a_t = a \right] \]

\(V\)\(Q\) 的关系:

\[ V^\pi(s) = \mathbb{E}_{a \sim \pi(\cdot|s)} \left[ Q^\pi(s, a) \right] \]

优势函数

优势函数 (Advantage Function) 衡量某个动作相对于平均水平的优劣:

\[ A^\pi(s, a) = Q^\pi(s, a) - V^\pi(s) \]

优势函数在许多策略梯度算法(PPO、TRPO、GAE)中起着核心作用。

贝尔曼方程

贝尔曼方程揭示了值函数的递归结构。

贝尔曼期望方程

\(V^\pi\)

\[ V^\pi(s) = \sum_{a} \pi(a|s) \left[ R(s,a) + \gamma \sum_{s'} P(s'|s,a) V^\pi(s') \right] \]

\(Q^\pi\)

\[ Q^\pi(s,a) = R(s,a) + \gamma \sum_{s'} P(s'|s,a) \sum_{a'} \pi(a'|s') Q^\pi(s',a') \]

贝尔曼最优方程

对最优值函数 \(V^*\)\(Q^*\)

\[ V^*(s) = \max_a \left[ R(s,a) + \gamma \sum_{s'} P(s'|s,a) V^*(s') \right] \]
\[ Q^*(s,a) = R(s,a) + \gamma \sum_{s'} P(s'|s,a) \max_{a'} Q^*(s',a') \]

贝尔曼方程为何重要

几乎所有 RL 算法的本质都是近似求解贝尔曼方程的方法。值函数方法直接逼近 \(V^*\)\(Q^*\);策略方法通过优化 \(\pi\) 来隐式地满足最优性条件。深刻理解贝尔曼方程是理解 RL 的基石。

探索与利用

RL 中的一个根本性挑战是探索-利用权衡 (Exploration-Exploitation Trade-off):

  • 利用 (Exploitation):根据当前知识选择期望奖励最高的动作
  • 探索 (Exploration):尝试新动作以发现潜在的更优策略

常见的探索策略:

策略 描述
\(\varepsilon\)-贪心 以概率 \(\varepsilon\) 随机选择动作,否则选择贪心动作
玻尔兹曼 (softmax) \(\exp(Q(s,a)/\tau)\) 的比例采样动作,\(\tau\) 为温度参数
UCB 选择使 \(Q(s,a) + c\sqrt{\ln(t)/N(s,a)}\) 最大化的动作
熵正则化 在目标中加入策略熵:$\mathcal{H}(\pi(\cdot
内在动机 以好奇心驱动的奖励鼓励探索新状态(如 ICM、RND 等)

时序差分学习

时序差分 (Temporal Difference, TD) 学习是 RL 中的核心思想,它将蒙特卡洛采样与基于值估计的自举 (Bootstrapping) 相结合。

最简单的 TD 更新(TD(0))用于估计 \(V^\pi\)

\[ V(s_t) \leftarrow V(s_t) + \alpha \left[ r_t + \gamma V(s_{t+1}) - V(s_t) \right] \]

其中 \(\delta_t = r_t + \gamma V(s_{t+1}) - V(s_t)\) 称为 TD 误差

TD 学习相较于蒙特卡洛方法有以下优势:

  • 低方差(从值估计进行自举,而非使用完整回报)
  • 在线学习(每一步即可更新,无需等到回合结束)
  • 适用于持续任务(不要求回合有终止)

TD vs. 蒙特卡洛 vs. 动态规划

  • 动态规划:需要完整的环境模型 \(P(s'|s,a)\),使用自举,无需采样
  • 蒙特卡洛:无需模型,不使用自举,但需要完整回合
  • TD 学习:无需模型,使用自举,在线更新——兼具前两者的优势

接下来

掌握了这些核心概念后,请继续阅读: