遥操作¶

遥操作使人类操作者能够远程实时控制机器人。在具身智能的语境中，遥操作是收集专家演示数据、验证机器人能力和实现人机协同自主的关键工具。

遥操作对 AI 研究的重要性¶

遥操作是人类智能与机器人学习之间的桥梁：

数据采集：为模仿学习生成专家演示
任务验证：在训练策略之前验证任务在物理上是否可行
共享自主：人类处理困难部分，自主系统处理常规部分
安全性：在部署学习策略时提供人类监督

遥操作的类型¶

按输入设备分类¶

设备	自由度	延迟	易用性	适用场景
键盘/手柄	低（6-8）	低	容易	移动底座、简单任务
3D SpaceMouse	6 自由度	低	中等	机械臂操作
VR 手柄	每只手 6 自由度 + 手指	中等	高	双臂操作
外骨骼	全身	低	难	人形全身控制
手部追踪	逐指控制	中等	容易	灵巧操作
动作捕捉	全身	低	难（搭建复杂）	运动 + 操作

按控制模式分类¶

关节空间遥操作：操作者的指令直接映射到机器人关节角度。简单但对复杂机器人而言不够直观。

任务空间遥操作：操作者的指令映射到末端执行器的位置/姿态（笛卡尔空间）。更直观但需要逆运动学求解。

基于重定向的遥操作：将人体运动映射到机器人运动，同时处理形态差异。

代表性系统¶

ALOHA（低成本开源双臂遥操作硬件系统）¶

ALOHA（Zhao et al., 2023）是一个具有重要影响力的低成本遥操作系统：

硬件：主从式机械臂对（操作者移动主臂，从臂复制动作）
成本：总计约 2 万美元（工业系统需 10 万美元以上）
能力：精细的双臂操作
数据质量：为模仿学习（ACT 策略）提供高质量演示

Mobile ALOHA：在 ALOHA 基础上增加移动底座，支持全房间范围的任务。

GELLO¶

GELLO（Wu et al., 2024）：通用低成本遥操作设备：

3D 打印，与目标机械臂运动学匹配
低延迟关节空间控制
制造成本约 200 美元

UMI（通用操作接口）¶

UMI（Chi et al., 2024）：手持式夹爪配合追踪系统：

操作者直接手持并移动一个夹爪
通过 GoPro + SLAM 提供 6 自由度位姿追踪
采集演示时无需机器人——可在任何环境中收集数据
在仿真中训练策略，部署到多种机械臂上

基于 VR 的系统¶

VR 头显（Meta Quest、Apple Vision Pro）提供：

来自机器人头部摄像头的立体视觉
每只手 6 自由度追踪
手指追踪用于灵巧操作
为操作者提供沉浸式体验

基于外骨骼的系统¶

用于人形机器人：

全身动作捕捉（穿戴式或标记点方案）
从人体骨架到机器人骨架的实时重定向
处理形态差异（不同的肢体长度、自由度数）

重定向：从人到机器人¶

当人类与机器人的形态不同时，重定向（retargeting）将人体运动映射为机器人运动：

基于位置的重定向¶

将人体关键点位置映射到机器人末端执行器位置：

\[ p_{\text{robot}}^{\text{ee}} = \text{scale} \cdot (p_{\text{human}}^{\text{hand}} - p_{\text{human}}^{\text{ref}}) + p_{\text{robot}}^{\text{ref}} \]

然后使用逆运动学（IK）求解机器人关节角度。

基于关节角度的重定向¶

将人体关节角度直接映射到机器人关节角度，并进行适当缩放：

\[ q_{\text{robot}} = A \cdot q_{\text{human}} + b \]

其中 \(A\) 和 \(b\) 用于处理关节范围差异和运动学映射。

基于优化的重定向¶

在每一帧求解一个优化问题：

\[ q_t^* = \arg\min_q \sum_i w_i \| \text{FK}_i(q) - p_i^{\text{target}} \|^2 + \lambda \| q - q_{t-1} \|^2 \]

其中 \(\text{FK}_i\) 是关键点 \(i\) 的正运动学，\(p_i^{\text{target}}\) 为期望位置，第二项确保时间平滑性。

重定向的核心难点

人体有约 200 个自由度，而典型的人形机器人仅有 20-50 个自由度。如何在这种巨大的自由度差异下保留运动的本质特征，是重定向技术的核心挑战。优化方法允许研究者通过调整权重 \(w_i\) 来优先保持关键的运动学约束（如手部位置、视线方向）。

数据质量与下游学习¶

遥操作数据的质量对下游策略学习有着决定性的影响：

影响数据质量的因素¶

因素	影响	缓解方法
操作者技能	影响大——专家演示远比新手有用	培训、练习
控制延迟	延迟导致动作生硬、次优	低延迟硬件、预测显示
工作空间不匹配	人和机器人的工作空间不同	仔细标定、缩放
记录伪影	噪声、丢帧、标定误差	后处理、滤波

最佳实践¶

一致的环境设置：保持相同的相机角度、光照、物体摆放
多名操作者：多样化的演示风格有助于提升泛化能力
任务分解：当完整任务过长时，分别收集子任务的演示
质量筛选：审查并丢弃失败或低质量的演示
标注：记录任务成功/失败标签、阶段边界、语言描述

核心参考文献¶

Zhao, T.Z., et al. (2023). "Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware." RSS.
Wu, H., et al. (2024). "GELLO: A General, Low-Cost, and Intuitive Teleoperation Framework for Robot Manipulators." RSS.
Chi, C., et al. (2024). "Universal Manipulation Interface: In-The-Wild Robot Teaching Without In-The-Wild Robots." RSS.
Cheng, X., et al. (2024). "Open-TeleVision: Teleoperation with Immersive Active Visual Feedback." arXiv.
He, L., et al. (2024). "OmniH2O: Universal and Dexterous Human-to-Humanoid Whole-Body Teleoperation and Learning." arXiv.