跳转至

具身智能概述

具身智能(Embodied AI)研究的是通过具身交互在物理世界中学习感知、推理和行动的智能体。与非具身 AI(语言模型、推荐系统等)不同,具身智能体必须处理连续的物理过程、实时性约束以及物理动作的后果。

具身智能有何不同?

挑战 非具身 AI 具身智能
状态空间 结构化(文本、表格) 原始传感器数据(视觉、本体感觉、触觉)
动作空间 离散 token 连续力矩、速度
反馈 即时(损失函数) 延迟、稀疏、有噪声的奖励
安全性 输出过滤 物理损坏风险
数据 互联网规模 有限、采集成本高
延迟 灵活 实时约束(<50ms)

Sim-to-Real 范式

当代具身智能研究大多遵循 sim-to-real 流程:

  1. 仿真训练:在物理仿真器中训练策略(Isaac Gym、MuJoCo、PyBullet)
  2. 域随机化:应用域随机化以弥合 sim-to-real 差距
  3. 迁移部署:将训练好的策略部署到真实硬件上
  4. 微调(可选):用少量真实世界数据进行适配
graph LR
    SIM[仿真环境] -->|域随机化| POL[RL 策略训练]
    POL -->|零样本迁移| REAL[真实机器人]
    REAL -->|微调数据| POL

为什么使用仿真?

  • 速度:数千个并行环境,每小时数百万步交互
  • 安全:探索过程中无硬件损坏风险
  • 成本:远比真实实验便宜
  • 可复现性:确定性环境,易于共享

域随机化

为使仿真训练的策略对真实世界的变化具有鲁棒性,需要随机化仿真参数:

类别 示例
物理 摩擦系数、质量、阻尼、电机力矩、关节限制
视觉 光照、纹理、相机位置、背景
动力学 动作延迟、观测噪声、致动器模型
形态 连杆长度、身体质量分布

策略学习到对这些变化的鲁棒性,从而能够覆盖真实世界的分布。

主要仿真平台

平台 开发者 优势
Isaac Gym / Isaac Lab NVIDIA GPU 加速、大规模并行、机器人专用
MuJoCo Google DeepMind 接触物理精确、学术研究广泛使用
PyBullet Erwin Coumans 开源、适合操作任务
Gazebo / ROS Open Robotics 完整 ROS 集成、多样化传感器仿真
SAPIEN 加州大学圣地亚哥分校 铰接物体操作
Habitat Meta 室内导航、逼真渲染

Isaac Gym / Isaac Lab

对于运动控制和大规模 RL 训练,Isaac Gym(及其后续版本 Isaac Lab)是目前最流行的选择,因为它支持 GPU 加速的物理仿真,单块 GPU 即可运行数千个并行环境。

具身智能系统的分类

按机器人形态

  • 足式机器人:四足(ANYmal、Unitree Go/B 系列)、双足(人形机器人)、六足
  • 轮式机器人:移动底座、轮式操作平台
  • 机械臂:固定基座操作臂(Franka、UR5、xArm)
  • 灵巧手:多指灵巧手(Allegro、Shadow、LEAP)
  • 移动操作系统:机械臂装载于移动底座上(Spot + 机械臂、Mobile ALOHA)
  • 人形机器人:全身系统(Atlas、Figure、Unitree H1)

按能力

能力 描述 核心挑战
运动控制 行走、奔跑、攀爬多样化地形 平衡、地形适应、能量效率
操作 抓取、放置、工具使用 接触丰富的物理、灵巧性
移动操作 同时移动和操作物体 全身协调
导航 在环境中移动以到达目标 建图、避障

学习流程

典型的具身智能训练流程:

  1. 任务设计:定义奖励函数、成功标准、初始状态分布
  2. 环境搭建:创建包含机器人 URDF/MJCF、地形和物体的仿真环境
  3. 策略架构:选择观测空间、动作空间和网络结构
  4. 训练:在并行环境中运行 RL 算法(通常为 PPO)
  5. 评估:在仿真中测试,分析失败模式
  6. Sim-to-real 迁移:部署到真实硬件,评估迁移质量
  7. 迭代:根据真实世界表现进行改进

观测空间

具身智能体常用的观测输入:

  • 本体感觉:关节位置、速度、力矩、基座姿态(IMU)
  • 外感觉:相机图像、深度图、激光雷达、触觉传感器
  • 指令:期望速度、目标位置、语言指令
  • 历史信息:堆叠的历史观测,用于处理延迟和部分可观测性

动作空间

  • 关节位置目标:指定期望关节角度(PD 控制器跟踪)
  • 关节速度目标:指定期望关节速度
  • 关节力矩:直接力矩指令(最灵活但最难学习)
  • 末端执行器位姿:笛卡尔空间目标(需要逆运动学)

核心参考文献

  • Tan, J., et al. (2018). "Sim-to-Real: Learning Agile Locomotion For Quadruped Robots." RSS.
  • Tobin, J., et al. (2017). "Domain Randomization for Transferring Deep Neural Networks from Simulation to the Real World." IROS.
  • Makoviychuk, V., et al. (2021). "Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning." NeurIPS.