遥操作¶
遥操作使人类操作者能够远程实时控制机器人。在具身智能的语境中,遥操作是收集专家演示数据、验证机器人能力和实现人机协同自主的关键工具。
遥操作对 AI 研究的重要性¶
遥操作是人类智能与机器人学习之间的桥梁:
- 数据采集:为模仿学习生成专家演示
- 任务验证:在训练策略之前验证任务在物理上是否可行
- 共享自主:人类处理困难部分,自主系统处理常规部分
- 安全性:在部署学习策略时提供人类监督
遥操作的类型¶
按输入设备分类¶
| 设备 | 自由度 | 延迟 | 易用性 | 适用场景 |
|---|---|---|---|---|
| 键盘/手柄 | 低(6-8) | 低 | 容易 | 移动底座、简单任务 |
| 3D SpaceMouse | 6 自由度 | 低 | 中等 | 机械臂操作 |
| VR 手柄 | 每只手 6 自由度 + 手指 | 中等 | 高 | 双臂操作 |
| 外骨骼 | 全身 | 低 | 难 | 人形全身控制 |
| 手部追踪 | 逐指控制 | 中等 | 容易 | 灵巧操作 |
| 动作捕捉 | 全身 | 低 | 难(搭建复杂) | 运动 + 操作 |
按控制模式分类¶
关节空间遥操作:操作者的指令直接映射到机器人关节角度。简单但对复杂机器人而言不够直观。
任务空间遥操作:操作者的指令映射到末端执行器的位置/姿态(笛卡尔空间)。更直观但需要逆运动学求解。
基于重定向的遥操作:将人体运动映射到机器人运动,同时处理形态差异。
代表性系统¶
ALOHA(低成本开源双臂遥操作硬件系统)¶
ALOHA(Zhao et al., 2023)是一个具有重要影响力的低成本遥操作系统:
- 硬件:主从式机械臂对(操作者移动主臂,从臂复制动作)
- 成本:总计约 2 万美元(工业系统需 10 万美元以上)
- 能力:精细的双臂操作
- 数据质量:为模仿学习(ACT 策略)提供高质量演示
Mobile ALOHA:在 ALOHA 基础上增加移动底座,支持全房间范围的任务。
GELLO¶
GELLO(Wu et al., 2024):通用低成本遥操作设备:
- 3D 打印,与目标机械臂运动学匹配
- 低延迟关节空间控制
- 制造成本约 200 美元
UMI(通用操作接口)¶
UMI(Chi et al., 2024):手持式夹爪配合追踪系统:
- 操作者直接手持并移动一个夹爪
- 通过 GoPro + SLAM 提供 6 自由度位姿追踪
- 采集演示时无需机器人——可在任何环境中收集数据
- 在仿真中训练策略,部署到多种机械臂上
基于 VR 的系统¶
VR 头显(Meta Quest、Apple Vision Pro)提供:
- 来自机器人头部摄像头的立体视觉
- 每只手 6 自由度追踪
- 手指追踪用于灵巧操作
- 为操作者提供沉浸式体验
基于外骨骼的系统¶
用于人形机器人:
- 全身动作捕捉(穿戴式或标记点方案)
- 从人体骨架到机器人骨架的实时重定向
- 处理形态差异(不同的肢体长度、自由度数)
重定向:从人到机器人¶
当人类与机器人的形态不同时,重定向(retargeting)将人体运动映射为机器人运动:
基于位置的重定向¶
将人体关键点位置映射到机器人末端执行器位置:
然后使用逆运动学(IK)求解机器人关节角度。
基于关节角度的重定向¶
将人体关节角度直接映射到机器人关节角度,并进行适当缩放:
其中 \(A\) 和 \(b\) 用于处理关节范围差异和运动学映射。
基于优化的重定向¶
在每一帧求解一个优化问题:
其中 \(\text{FK}_i\) 是关键点 \(i\) 的正运动学,\(p_i^{\text{target}}\) 为期望位置,第二项确保时间平滑性。
重定向的核心难点
人体有约 200 个自由度,而典型的人形机器人仅有 20-50 个自由度。如何在这种巨大的自由度差异下保留运动的本质特征,是重定向技术的核心挑战。优化方法允许研究者通过调整权重 \(w_i\) 来优先保持关键的运动学约束(如手部位置、视线方向)。
数据质量与下游学习¶
遥操作数据的质量对下游策略学习有着决定性的影响:
影响数据质量的因素¶
| 因素 | 影响 | 缓解方法 |
|---|---|---|
| 操作者技能 | 影响大——专家演示远比新手有用 | 培训、练习 |
| 控制延迟 | 延迟导致动作生硬、次优 | 低延迟硬件、预测显示 |
| 工作空间不匹配 | 人和机器人的工作空间不同 | 仔细标定、缩放 |
| 记录伪影 | 噪声、丢帧、标定误差 | 后处理、滤波 |
最佳实践¶
- 一致的环境设置:保持相同的相机角度、光照、物体摆放
- 多名操作者:多样化的演示风格有助于提升泛化能力
- 任务分解:当完整任务过长时,分别收集子任务的演示
- 质量筛选:审查并丢弃失败或低质量的演示
- 标注:记录任务成功/失败标签、阶段边界、语言描述
核心参考文献¶
- Zhao, T.Z., et al. (2023). "Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware." RSS.
- Wu, H., et al. (2024). "GELLO: A General, Low-Cost, and Intuitive Teleoperation Framework for Robot Manipulators." RSS.
- Chi, C., et al. (2024). "Universal Manipulation Interface: In-The-Wild Robot Teaching Without In-The-Wild Robots." RSS.
- Cheng, X., et al. (2024). "Open-TeleVision: Teleoperation with Immersive Active Visual Feedback." arXiv.
- He, L., et al. (2024). "OmniH2O: Universal and Dexterous Human-to-Humanoid Whole-Body Teleoperation and Learning." arXiv.