具身智能的数据采集¶

数据是基于学习的具身智能系统的基石。本页涵盖机器人学习数据的大规模采集策略、系统设计与关键考量——包括人类示教、自主探索与合成数据生成。

数据瓶颈问题¶

与自然语言处理或计算机视觉不同，具身智能面临独特的数据瓶颈：

成本高昂：真实机器人运行成本约为每小时 10-100 美元
速度缓慢：物理交互必须在实时中完成，无法批量加速
设备脆弱：机器人会磨损、损坏，需要定期维护
多样性要求：任务、环境和物体种类繁多
复用性差：为某一任务采集的数据往往难以直接迁移到其他任务

核心挑战

具身智能数据的根本困难在于：每一条数据都需要物理世界的真实交互，而物理世界既昂贵又缓慢。这与互联网数据的"免费且无限"形成了鲜明对比。

数据采集策略¶

1. 遥操作（人类示教）¶

遥操作是操作类任务中最常用的数据采集方式。详见遥操作页面。

优势：数据质量高、任务针对性强、能捕捉人类操作策略

劣势：成本高（需要人力）、难以规模化、受操作者技能水平限制

代表系统：

系统	硬件形态	特点
ALOHA	双臂低成本平台	支持精细双手操作，成本约 2 万美元
UMI	通用操作接口	手持式采集，无需机器人硬件
GELLO	通用低成本领导者	关节空间一对一映射
VR 遥操作	VR 手柄/手套	直觉式操作，适合末端执行器控制

2. 脚本化/程序化数据¶

利用预编程或启发式控制器生成数据：

# 示例：脚本化抓取数据采集
for episode in range(num_episodes):
    object_pose = randomize_object_placement()  # 随机化物体位置
    grasp_pose = compute_antipodal_grasp(object_pose)  # 计算对跖点抓取
    trajectory = plan_trajectory(current_pose, grasp_pose)  # 规划轨迹
    execute_and_record(trajectory)  # 执行并记录

优势：成本低、可大规模扩展、无需人工介入

劣势：任务复杂度受限、缺乏人类直觉、每个任务需要单独工程实现

3. 自主探索（基于强化学习）¶

让机器人通过强化学习自主探索并采集数据：

在线 RL：机器人与环境交互，从奖励信号中学习
自监督探索：机器人自行设定目标并探索（目标条件 RL、RND 等）
自由游戏数据：非结构化探索，机器人自由与环境交互

优势：可扩展、能发现新策略、无需人工标注

劣势：速度慢（实时探索）、安全隐患、稀疏奖励问题

安全性考量

自主探索时必须设置安全约束，包括力矩限制、工作空间边界和紧急停止机制。未经约束的探索可能导致机器人自身或环境的损坏。

4. 仿真数据¶

在仿真环境中生成数据：

方法	描述	数据规模
仿真中的 RL	在并行仿真中训练 RL 策略	\(10^8\)-\(10^{10}\) 步
程序化生成	随机生成环境、物体和任务	理论上无限
数字孪生	模拟特定真实环境	有限但精确
合成渲染	结合域随机化生成训练图像	数百万张图像

仿真到真实的鸿沟（Sim-to-Real Gap）

仿真数据的核心挑战是仿真与真实世界之间的差异。常见缓解手段包括：域随机化（Domain Randomization）、系统辨识（System Identification）和域自适应（Domain Adaptation）。

5. 互联网规模数据¶

利用互联网上的视频和数据资源：

机器人视频数据集：聚合的真实机器人数据（如 Open X-Embodiment）
人类视频：从人类示范视频中学习操作策略
被动视频：互联网上的任务视频（烹饪、装配等）
语言标注数据：视频-语言配对数据，用于语义对接

规模化数据采集¶

机器人农场¶

同时运行多台机器人以扩大数据采集规模：

Google 机器人农场：100+ 台机械臂全天候采集操作数据

DROID（Khazatsky et al., 2024）：分布式机器人交互数据集

76K 条示教，涵盖 564 个任务
跨多个研究机构采集
标准化硬件与数据格式

舰队学习（Fleet Learning）¶

利用已部署的机器人持续采集与学习：

将部分训练好的策略部署到机器人舰队
在正常运行过程中采集交互数据
集中聚合数据，重新训练模型
将更新后的模型推送至整个舰队

Open X-Embodiment¶

Open X-Embodiment (OXE) 是目前最大的聚合式机器人学习数据集：

超过 100 万条真实机器人片段
涵盖 22 种机器人本体
527 项技能，跨越 160K+ 个任务
支持训练通用机器人策略（RT-X）

数据格式与标准¶

主流格式¶

格式	描述	使用方
RLDS	强化学习数据集（基于 TensorFlow）	OXE, RT-X
HDF5	层次化数据格式，灵活通用	RoboMimic
LeRobot	Hugging Face 机器人数据格式	LeRobot 生态
zarr	分块压缩数组存储	Diffusion Policy

应当记录的内容¶

每条示教片段应记录：

观测：多视角相机图像、本体感知（关节角度/角速度）、力/扭矩传感
动作：关节指令、末端执行器位姿
元数据：任务描述、成功/失败标记、时间戳、标定参数
语言：任务的自然语言描述

数据增强¶

通过增强技术扩大有效数据集规模：

几何增强¶

随机相机视角扰动
物体位姿随机化
工作空间缩放与旋转

视觉增强¶

颜色抖动、随机遮挡
背景随机化
光照变化

轨迹增强¶

向动作序列添加噪声（提高鲁棒性）
时间拉伸轨迹（速度变化）
镜像/翻转轨迹

生成式增强¶

使用扩散模型生成新颖视觉场景
使用大语言模型生成任务描述
使用世界模型想象新情景

从示教到策略¶

利用采集数据学习策略的常见方法：

行为克隆（Behavior Cloning, BC）¶

监督学习方法，直接拟合专家动作分布：

\[ \pi_\theta(a|o) = \arg\min_\theta \mathbb{E}_{(o,a) \sim \mathcal{D}} [\mathcal{L}(\pi_\theta(o), a)] \]

方法简洁，但存在分布偏移（distribution shift）问题——小误差会随时间累积放大。

缓解分布偏移

DAgger（Dataset Aggregation）通过在训练策略的轨迹上收集专家标注来缓解分布偏移。实践中常结合数据增强和动作分块（action chunking）来提升 BC 的鲁棒性。

扩散策略（Diffusion Policy）¶

Diffusion Policy（Chi et al., 2023）使用扩散过程建模动作分布：

\[ p_\theta(a_{t:t+H} | o_t) \text{ 通过迭代去噪过程生成} \]

其核心训练目标为去噪得分匹配：

\[ \mathcal{L}(\theta) = \mathbb{E}_{k, \epsilon, a_0} \left[ \| \epsilon - \epsilon_\theta(\sqrt{\bar{\alpha}_k} \, a_0 + \sqrt{1 - \bar{\alpha}_k} \, \epsilon, \, o_t, \, k) \|^2 \right] \]

当前在示教学习领域达到最优性能，能够处理多模态动作分布。

动作分块与 Transformer（ACT）¶

ACT（Zhao et al., 2023）使用 Transformer 预测未来动作块：

\[ a_{t:t+k} = \text{Transformer}(o_t, \text{style\_variable}) \]

通过重叠动作块的时间集成（temporal ensembling）减少抖动行为。ACT 特别适用于 ALOHA 等双臂操作平台。

逆强化学习 / 奖励学习¶

从示教中学习奖励函数，再用 RL 优化策略：

相比 BC 更鲁棒（不受分布偏移困扰）
流水线更复杂，训练成本更高

核心参考文献¶

Brohan, A., et al. (2023). "RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control." CoRL.
Chi, C., et al. (2023). "Diffusion Policy: Visuomotor Policy Learning via Action Diffusion." RSS.
Khazatsky, A., et al. (2024). "DROID: A Large-Scale In-the-Wild Robot Manipulation Dataset." RSS.
Open X-Embodiment Collaboration. (2024). "Open X-Embodiment: Robotic Learning Datasets and RT-X Models." ICRA.
Zhao, T.Z., et al. (2023). "Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware." RSS.
Ross, S., et al. (2011). "A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning." AISTATS.