跳转至

关于本资料

编写动机

具身人工智能 (Embodied AI) 地处多个深层研究领域的交叉地带:强化学习、世界建模、机器人学和大规模系统工程。对于刚刚踏入这一领域的博士生而言,问题并非缺少学习材料,而是知识的碎片化——散落在不同领域的文献中,难以看清各部分之间的内在联系。

本资料旨在提供一条统一而有结构的学习路径,贯穿上述各相关主题。它受 Spinning Up in Deep RL 启发,但在范围上有显著拓展——不仅覆盖 RL 算法,还涵盖世界模型、具身系统以及现代 EAI 研究所依赖的分布式基础设施。

设计理念

重要概念深入讲解

在基础性概念上,我们追求深度——给出数学推导、公式与直觉解释,因为仅停留在表面理解不足以支撑研究工作。同时,我们也保持必要的广度,让读者了解领域全貌以及在哪里可以找到更多信息。

理论与实践并重

每个算法章节都联系实际考量:实现细节、常见陷阱、超参数敏感度以及计算资源需求。

持续迭代

这是一份活文档。标注为"编写中"的章节将逐步完善。整体结构已预留扩展空间,以便纳入新算法、新仿真平台和新的基础模型。

双语支持

全部内容提供英文和中文两个版本。可通过导航栏上的语言切换器选择。

前置知识

为充分利用本资料,读者应熟悉以下内容:

领域 具体要求
数学基础 线性代数(矩阵运算、特征分解)、概率论(贝叶斯公式、期望、常见分布)、多元微积分(梯度、链式法则)
机器学习 监督/无监督学习、梯度下降、过拟合与正则化、神经网络架构(MLP、CNN、RNN、Transformer)
编程能力 Python、NumPy、PyTorch 或 JAX、基本软件工程技能(git、调试、性能分析)
可选加分 凸优化、控制理论基础、ROS/机器人经验

内容组织

graph LR
    A[RL 基础] --> B[RL 算法]
    B --> C[基于模型的 RL]
    C --> D[世界模型]
    D --> E[具身智能]
    B --> F[分布式 RL]
    A --> E
    F --> E
  • 第一部分:强化学习——从第一性原理出发(MDP、贝尔曼方程),逐步覆盖完整的算法体系(策略梯度、值函数方法、Actor-Critic、基于模型的方法、离线 RL)。

  • 第二部分:世界模型——从基于模型的 RL 自然延伸至学习型世界模型——表示学习、视频预测、规划,以及新兴的基础世界模型。

  • 第三部分:具身智能——将上述思想应用于物理系统——运动控制、操作、遥操作以及面向机器人学习的数据采集。

  • 第四部分:分布式 RL——系统工程视角——如何在多台机器、多个环境上扩展 RL 训练。

  • 附加资源——包括科研方法论指导、练习题和精选论文列表。

致谢

本项目受到以下优秀资源的启发: