具身智能概述¶
具身智能(Embodied AI)研究的是通过具身交互在物理世界中学习感知、推理和行动的智能体。与非具身 AI(语言模型、推荐系统等)不同,具身智能体必须处理连续的物理过程、实时性约束以及物理动作的后果。
具身智能有何不同?¶
| 挑战 | 非具身 AI | 具身智能 |
|---|---|---|
| 状态空间 | 结构化(文本、表格) | 原始传感器数据(视觉、本体感觉、触觉) |
| 动作空间 | 离散 token | 连续力矩、速度 |
| 反馈 | 即时(损失函数) | 延迟、稀疏、有噪声的奖励 |
| 安全性 | 输出过滤 | 物理损坏风险 |
| 数据 | 互联网规模 | 有限、采集成本高 |
| 延迟 | 灵活 | 实时约束(<50ms) |
Sim-to-Real 范式¶
当代具身智能研究大多遵循 sim-to-real 流程:
- 仿真训练:在物理仿真器中训练策略(Isaac Gym、MuJoCo、PyBullet)
- 域随机化:应用域随机化以弥合 sim-to-real 差距
- 迁移部署:将训练好的策略部署到真实硬件上
- 微调(可选):用少量真实世界数据进行适配
graph LR
SIM[仿真环境] -->|域随机化| POL[RL 策略训练]
POL -->|零样本迁移| REAL[真实机器人]
REAL -->|微调数据| POL
为什么使用仿真?¶
- 速度:数千个并行环境,每小时数百万步交互
- 安全:探索过程中无硬件损坏风险
- 成本:远比真实实验便宜
- 可复现性:确定性环境,易于共享
域随机化¶
为使仿真训练的策略对真实世界的变化具有鲁棒性,需要随机化仿真参数:
| 类别 | 示例 |
|---|---|
| 物理 | 摩擦系数、质量、阻尼、电机力矩、关节限制 |
| 视觉 | 光照、纹理、相机位置、背景 |
| 动力学 | 动作延迟、观测噪声、致动器模型 |
| 形态 | 连杆长度、身体质量分布 |
策略学习到对这些变化的鲁棒性,从而能够覆盖真实世界的分布。
主要仿真平台¶
| 平台 | 开发者 | 优势 |
|---|---|---|
| Isaac Gym / Isaac Lab | NVIDIA | GPU 加速、大规模并行、机器人专用 |
| MuJoCo | Google DeepMind | 接触物理精确、学术研究广泛使用 |
| PyBullet | Erwin Coumans | 开源、适合操作任务 |
| Gazebo / ROS | Open Robotics | 完整 ROS 集成、多样化传感器仿真 |
| SAPIEN | 加州大学圣地亚哥分校 | 铰接物体操作 |
| Habitat | Meta | 室内导航、逼真渲染 |
Isaac Gym / Isaac Lab
对于运动控制和大规模 RL 训练,Isaac Gym(及其后续版本 Isaac Lab)是目前最流行的选择,因为它支持 GPU 加速的物理仿真,单块 GPU 即可运行数千个并行环境。
具身智能系统的分类¶
按机器人形态¶
- 足式机器人:四足(ANYmal、Unitree Go/B 系列)、双足(人形机器人)、六足
- 轮式机器人:移动底座、轮式操作平台
- 机械臂:固定基座操作臂(Franka、UR5、xArm)
- 灵巧手:多指灵巧手(Allegro、Shadow、LEAP)
- 移动操作系统:机械臂装载于移动底座上(Spot + 机械臂、Mobile ALOHA)
- 人形机器人:全身系统(Atlas、Figure、Unitree H1)
按能力¶
| 能力 | 描述 | 核心挑战 |
|---|---|---|
| 运动控制 | 行走、奔跑、攀爬多样化地形 | 平衡、地形适应、能量效率 |
| 操作 | 抓取、放置、工具使用 | 接触丰富的物理、灵巧性 |
| 移动操作 | 同时移动和操作物体 | 全身协调 |
| 导航 | 在环境中移动以到达目标 | 建图、避障 |
学习流程¶
典型的具身智能训练流程:
- 任务设计:定义奖励函数、成功标准、初始状态分布
- 环境搭建:创建包含机器人 URDF/MJCF、地形和物体的仿真环境
- 策略架构:选择观测空间、动作空间和网络结构
- 训练:在并行环境中运行 RL 算法(通常为 PPO)
- 评估:在仿真中测试,分析失败模式
- Sim-to-real 迁移:部署到真实硬件,评估迁移质量
- 迭代:根据真实世界表现进行改进
观测空间¶
具身智能体常用的观测输入:
- 本体感觉:关节位置、速度、力矩、基座姿态(IMU)
- 外感觉:相机图像、深度图、激光雷达、触觉传感器
- 指令:期望速度、目标位置、语言指令
- 历史信息:堆叠的历史观测,用于处理延迟和部分可观测性
动作空间¶
- 关节位置目标:指定期望关节角度(PD 控制器跟踪)
- 关节速度目标:指定期望关节速度
- 关节力矩:直接力矩指令(最灵活但最难学习)
- 末端执行器位姿:笛卡尔空间目标(需要逆运动学)
核心参考文献¶
- Tan, J., et al. (2018). "Sim-to-Real: Learning Agile Locomotion For Quadruped Robots." RSS.
- Tobin, J., et al. (2017). "Domain Randomization for Transferring Deep Neural Networks from Simulation to the Real World." IROS.
- Makoviychuk, V., et al. (2021). "Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning." NeurIPS.