跳转至

Essentials of Embodied AI Research

什么是具身智能？

essentials-of-eai-research

具身智能概述¶

具身智能（Embodied AI）研究的是通过具身交互在物理世界中学习感知、推理和行动的智能体。与非具身 AI（语言模型、推荐系统等）不同，具身智能体必须处理连续的物理过程、实时性约束以及物理动作的后果。

具身智能有何不同？¶

挑战	非具身 AI	具身智能
状态空间	结构化（文本、表格）	原始传感器数据（视觉、本体感觉、触觉）
动作空间	离散 token	连续力矩、速度
反馈	即时（损失函数）	延迟、稀疏、有噪声的奖励
安全性	输出过滤	物理损坏风险
数据	互联网规模	有限、采集成本高
延迟	灵活	实时约束（<50ms）

Sim-to-Real 范式¶

当代具身智能研究大多遵循 sim-to-real 流程：

仿真训练：在物理仿真器中训练策略（Isaac Gym、MuJoCo、PyBullet）
域随机化：应用域随机化以弥合 sim-to-real 差距
迁移部署：将训练好的策略部署到真实硬件上
微调（可选）：用少量真实世界数据进行适配

graph LR
    SIM[仿真环境] -->|域随机化| POL[RL 策略训练]
    POL -->|零样本迁移| REAL[真实机器人]
    REAL -->|微调数据| POL

为什么使用仿真？¶

速度：数千个并行环境，每小时数百万步交互
安全：探索过程中无硬件损坏风险
成本：远比真实实验便宜
可复现性：确定性环境，易于共享

域随机化¶

为使仿真训练的策略对真实世界的变化具有鲁棒性，需要随机化仿真参数：

类别	示例
物理	摩擦系数、质量、阻尼、电机力矩、关节限制
视觉	光照、纹理、相机位置、背景
动力学	动作延迟、观测噪声、致动器模型
形态	连杆长度、身体质量分布

策略学习到对这些变化的鲁棒性，从而能够覆盖真实世界的分布。

主要仿真平台¶

平台	开发者	优势
Isaac Gym / Isaac Lab	NVIDIA	GPU 加速、大规模并行、机器人专用
MuJoCo	Google DeepMind	接触物理精确、学术研究广泛使用
PyBullet	Erwin Coumans	开源、适合操作任务
Gazebo / ROS	Open Robotics	完整 ROS 集成、多样化传感器仿真
SAPIEN	加州大学圣地亚哥分校	铰接物体操作
Habitat	Meta	室内导航、逼真渲染

Isaac Gym / Isaac Lab

对于运动控制和大规模 RL 训练，Isaac Gym（及其后续版本 Isaac Lab）是目前最流行的选择，因为它支持 GPU 加速的物理仿真，单块 GPU 即可运行数千个并行环境。

具身智能系统的分类¶

按机器人形态¶

足式机器人：四足（ANYmal、Unitree Go/B 系列）、双足（人形机器人）、六足
轮式机器人：移动底座、轮式操作平台
机械臂：固定基座操作臂（Franka、UR5、xArm）
灵巧手：多指灵巧手（Allegro、Shadow、LEAP）
移动操作系统：机械臂装载于移动底座上（Spot + 机械臂、Mobile ALOHA）
人形机器人：全身系统（Atlas、Figure、Unitree H1）

按能力¶

能力	描述	核心挑战
运动控制	行走、奔跑、攀爬多样化地形	平衡、地形适应、能量效率
操作	抓取、放置、工具使用	接触丰富的物理、灵巧性
移动操作	同时移动和操作物体	全身协调
导航	在环境中移动以到达目标	建图、避障

学习流程¶

典型的具身智能训练流程：

任务设计：定义奖励函数、成功标准、初始状态分布
环境搭建：创建包含机器人 URDF/MJCF、地形和物体的仿真环境
策略架构：选择观测空间、动作空间和网络结构
训练：在并行环境中运行 RL 算法（通常为 PPO）
评估：在仿真中测试，分析失败模式
Sim-to-real 迁移：部署到真实硬件，评估迁移质量
迭代：根据真实世界表现进行改进

观测空间¶

具身智能体常用的观测输入：

本体感觉：关节位置、速度、力矩、基座姿态（IMU）
外感觉：相机图像、深度图、激光雷达、触觉传感器
指令：期望速度、目标位置、语言指令
历史信息：堆叠的历史观测，用于处理延迟和部分可观测性

动作空间¶

关节位置目标：指定期望关节角度（PD 控制器跟踪）
关节速度目标：指定期望关节速度
关节力矩：直接力矩指令（最灵活但最难学习）
末端执行器位姿：笛卡尔空间目标（需要逆运动学）

核心参考文献¶

Tan, J., et al. (2018). "Sim-to-Real: Learning Agile Locomotion For Quadruped Robots." RSS.
Tobin, J., et al. (2017). "Domain Randomization for Transferring Deep Neural Networks from Simulation to the Real World." IROS.
Makoviychuk, V., et al. (2021). "Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning." NeurIPS.