跳转至

遥操作

遥操作使人类操作者能够远程实时控制机器人。在具身智能的语境中,遥操作是收集专家演示数据验证机器人能力和实现人机协同自主的关键工具。

遥操作对 AI 研究的重要性

遥操作是人类智能与机器人学习之间的桥梁:

  1. 数据采集:为模仿学习生成专家演示
  2. 任务验证:在训练策略之前验证任务在物理上是否可行
  3. 共享自主:人类处理困难部分,自主系统处理常规部分
  4. 安全性:在部署学习策略时提供人类监督

遥操作的类型

按输入设备分类

设备 自由度 延迟 易用性 适用场景
键盘/手柄 低(6-8) 容易 移动底座、简单任务
3D SpaceMouse 6 自由度 中等 机械臂操作
VR 手柄 每只手 6 自由度 + 手指 中等 双臂操作
外骨骼 全身 人形全身控制
手部追踪 逐指控制 中等 容易 灵巧操作
动作捕捉 全身 难(搭建复杂) 运动 + 操作

按控制模式分类

关节空间遥操作:操作者的指令直接映射到机器人关节角度。简单但对复杂机器人而言不够直观。

任务空间遥操作:操作者的指令映射到末端执行器的位置/姿态(笛卡尔空间)。更直观但需要逆运动学求解。

基于重定向的遥操作:将人体运动映射到机器人运动,同时处理形态差异。

代表性系统

ALOHA(低成本开源双臂遥操作硬件系统)

ALOHA(Zhao et al., 2023)是一个具有重要影响力的低成本遥操作系统:

  • 硬件:主从式机械臂对(操作者移动主臂,从臂复制动作)
  • 成本:总计约 2 万美元(工业系统需 10 万美元以上)
  • 能力:精细的双臂操作
  • 数据质量:为模仿学习(ACT 策略)提供高质量演示

Mobile ALOHA:在 ALOHA 基础上增加移动底座,支持全房间范围的任务。

GELLO

GELLO(Wu et al., 2024):通用低成本遥操作设备:

  • 3D 打印,与目标机械臂运动学匹配
  • 低延迟关节空间控制
  • 制造成本约 200 美元

UMI(通用操作接口)

UMI(Chi et al., 2024):手持式夹爪配合追踪系统:

  • 操作者直接手持并移动一个夹爪
  • 通过 GoPro + SLAM 提供 6 自由度位姿追踪
  • 采集演示时无需机器人——可在任何环境中收集数据
  • 在仿真中训练策略,部署到多种机械臂上

基于 VR 的系统

VR 头显(Meta Quest、Apple Vision Pro)提供:

  • 来自机器人头部摄像头的立体视觉
  • 每只手 6 自由度追踪
  • 手指追踪用于灵巧操作
  • 为操作者提供沉浸式体验

基于外骨骼的系统

用于人形机器人:

  • 全身动作捕捉(穿戴式或标记点方案)
  • 从人体骨架到机器人骨架的实时重定向
  • 处理形态差异(不同的肢体长度、自由度数)

重定向:从人到机器人

当人类与机器人的形态不同时,重定向(retargeting)将人体运动映射为机器人运动:

基于位置的重定向

将人体关键点位置映射到机器人末端执行器位置:

\[ p_{\text{robot}}^{\text{ee}} = \text{scale} \cdot (p_{\text{human}}^{\text{hand}} - p_{\text{human}}^{\text{ref}}) + p_{\text{robot}}^{\text{ref}} \]

然后使用逆运动学(IK)求解机器人关节角度。

基于关节角度的重定向

将人体关节角度直接映射到机器人关节角度,并进行适当缩放:

\[ q_{\text{robot}} = A \cdot q_{\text{human}} + b \]

其中 \(A\)\(b\) 用于处理关节范围差异和运动学映射。

基于优化的重定向

在每一帧求解一个优化问题:

\[ q_t^* = \arg\min_q \sum_i w_i \| \text{FK}_i(q) - p_i^{\text{target}} \|^2 + \lambda \| q - q_{t-1} \|^2 \]

其中 \(\text{FK}_i\) 是关键点 \(i\) 的正运动学,\(p_i^{\text{target}}\) 为期望位置,第二项确保时间平滑性。

重定向的核心难点

人体有约 200 个自由度,而典型的人形机器人仅有 20-50 个自由度。如何在这种巨大的自由度差异下保留运动的本质特征,是重定向技术的核心挑战。优化方法允许研究者通过调整权重 \(w_i\) 来优先保持关键的运动学约束(如手部位置、视线方向)。

数据质量与下游学习

遥操作数据的质量对下游策略学习有着决定性的影响:

影响数据质量的因素

因素 影响 缓解方法
操作者技能 影响大——专家演示远比新手有用 培训、练习
控制延迟 延迟导致动作生硬、次优 低延迟硬件、预测显示
工作空间不匹配 人和机器人的工作空间不同 仔细标定、缩放
记录伪影 噪声、丢帧、标定误差 后处理、滤波

最佳实践

  1. 一致的环境设置:保持相同的相机角度、光照、物体摆放
  2. 多名操作者:多样化的演示风格有助于提升泛化能力
  3. 任务分解:当完整任务过长时,分别收集子任务的演示
  4. 质量筛选:审查并丢弃失败或低质量的演示
  5. 标注:记录任务成功/失败标签、阶段边界、语言描述

核心参考文献

  • Zhao, T.Z., et al. (2023). "Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware." RSS.
  • Wu, H., et al. (2024). "GELLO: A General, Low-Cost, and Intuitive Teleoperation Framework for Robot Manipulators." RSS.
  • Chi, C., et al. (2024). "Universal Manipulation Interface: In-The-Wild Robot Teaching Without In-The-Wild Robots." RSS.
  • Cheng, X., et al. (2024). "Open-TeleVision: Teleoperation with Immersive Active Visual Feedback." arXiv.
  • He, L., et al. (2024). "OmniH2O: Universal and Dexterous Human-to-Humanoid Whole-Body Teleoperation and Learning." arXiv.