Mobile ALOHA: 利用低成本全身远程操作系统学习复杂的双手移动操作技能 [译]

摘要

阅读目录

1 引言
2 相关工作

移动操控。
机器人学中的模仿学习。

3 Mobile ALOHA 硬件
与静态 ALOHA 数据共同训练
五大任务
6 实验

6.1 共同训练提高性能
6.2 与 ACT, 漫游策略 (Diffusion Policy) 和视觉迭代神经网络 (VINN) 的兼容性

7 效能分析研究
第 8 章用户研究
9 结论、局限性和未来方向
致谢
参考文献
附录 A 附录

A.1 高五击掌任务
A.2 图像观测示例
A.3 实验细节及 ACT、扩散策略和 VINN 的超参数
A.4 开环重放误差

在机器人技术领域，通过模仿人类的动作来训练机器人（模仿学习）已经取得了显著的成果。然而，这些成果大多集中在桌面操作上，而缺乏在更广泛实用任务中所需的移动性和灵活性。

在本研究中，我们开发了一个模仿复杂移动操作任务的系统，这些任务需要双手操作和全身协调。首先，我们推出了 Mobile ALOHA，这是一个用于数据收集的低成本、全身远程操作系统。它在原有 ALOHA 系统的基础上增加了移动底座和全身操作界面 [104]。利用 Mobile ALOHA 收集的数据，我们进行了监督式学习（即模仿并复制行为），发现将其与现有静态 ALOHA 数据集结合训练可以显著提高处理移动操作任务的能力。

例如，通过对每项任务进行 50 次模仿演示，结合训练可以使任务完成的成功率高达 90%，让 Mobile ALOHA 能够自主完成一系列复杂的移动操作任务。这些任务包括煎炒虾并将其盛盘，打开双门壁橱存放重型厨具，呼叫并进入电梯，以及用厨房水龙头轻轻清洗使用过的平底锅。

1 引言

通过人类演示进行模仿学习是培养多技能机器人的前沿方法，它使得人们能够向机器人传授各种技能。实际上，直接模仿人类行为，机器人可以学习各种基础技能，从移动机器人的车道保持 [67]，到简单的抓取和放置动作 [12, 20]，乃至更复杂的动作，如涂披萨酱或安装电池 [18, 104]。然而，在真实世界中，许多任务需要机器人全身协调地完成机动和灵巧操作，而非仅仅是单一的移动或操作。例如，考虑一个基本的任务：把一个重锅放入橱柜（如图 1 所示）。机器人需要首先定位到橱柜，这就需要其底座具备移动能力。为了打开橱柜，机器人必须在向后退的同时，稳稳地抓住两个门把手，这就需要全身控制。接着，两臂需要协调地抓住锅的把手，将它移入橱柜，这强调了双臂协作的重要性。同样，无论是烹饪、清洁、家务还是使用电梯在办公室内移动，这些活动都需要机器人能够移动和操作，而且双臂的灵活性常常会使任务更加简单。在本文中，我们将探讨将模仿学习应用于需要全身控制的双臂移动机器人任务的可行性。

两大因素限制了模仿学习（imitation learning）在双臂移动操控（bimanual mobile manipulation）领域的广泛应用。首先，我们缺乏易于接入、即插即用的全身远程操控硬件。市面上的双臂移动操控器价格昂贵，如 PR2 和 TIAGo 价格超过 20 万美元，普通研究实验室难以承受。此外，这些平台还需要额外的硬件和校准来实现远程操控。例如，PR1 用两个触觉设备实现双臂远程操控，并用脚踏板控制移动基座 [93]。之前的研究 [5] 通过运动捕捉系统将人类动作转移到仅控制单臂的 TIAGo 机器人上，这需要精确校准。而游戏控制器和键盘被用于远程操控 Hello Robot Stretch [2] 和 Fetch 机器人 [1]，但它们不支持双臂或全身远程操控。其次，之前的机器人学习研究未能在复杂任务上展示高效的双臂移动操控。尽管最新的研究表明，如扩散模型（diffusion models）和 Transformer 这类高表现力的策略在细致的多模式操作任务上表现出色，但对于增加了额外自由度的移动操控，手臂与移动基座的互动复杂多变，基座的轻微位置变化就可能导致手臂末端器具位置的大幅偏移。总体来看，之前的研究尚未提出一个既实用又令人信服的双臂移动操控方案，无论是在硬件还是学习方法上。

本文致力于解决在双手移动操作领域应用模仿学习技术的挑战。在硬件方面，我们推出了“Mobile ALOHA”：一个低成本、全身遥控系统，专用于收集双手移动操纵数据。Mobile ALOHA 在原版 ALOHA 的基础上进行了扩展，后者是一种低成本、灵活的双手操纵装置 [104]，我们将其安装在带轮的基座上。用户通过物理连接到这套系统，并通过推动轮子来实现基座的移动。这样一来，用户在双手操作 ALOHA 时，基座也能独立移动。我们同时记录了基座的速度数据和手臂的操纵数据，构建了一个全身遥控系统。

在模仿学习方面，我们发现，简单地将基座和手臂的动作数据结合起来，再通过直接的模仿学习方法进行训练，便能达到卓越的性能。具体而言，我们将 ALOHA 的 14 个自由度（DoF）关节位置数据与移动基座的线性和角速度数据结合，形成了一个 16 维的动作向量。这种方法使 Mobile ALOHA 能直接利用以往的深度模仿学习算法，几乎不需改动现有的实现方式。为了进一步提高模仿学习的效果，我们受到了最近在多样化机器人数据集上进行预训练和协同训练所取得成功的启发。我们注意到，目前很少有可用的双手移动操纵数据集。因此，我们开始利用更为丰富、易于收集的静态双手数据集，尤其是来自 [104, 81] 的静态 ALOHA 数据集，通过 RT-X 发布 [20]。该数据集包含 825 个与 Mobile ALOHA 任务不同的剧集，并且两臂的安装位置也有所不同。尽管任务和形态存在差异，我们在几乎所有移动操作任务中都观察到了正面的成果，无论是性能还是数据效率方面，都达到或超越了仅使用 Mobile ALOHA 数据进行训练的策略。这一发现也在使用各种先进模仿学习方法的情况下保持一致，包括 ACT [104] 和 Diffusion Policy [18]。

本篇论文的核心贡献在于开发了一个学习复杂移动双臂操控任务的系统。这个系统的核心技术包括两部分：(1) Mobile ALOHA (Mobile ALOHA)，一种低成本的全身遥控系统；(2) 发现一个简单的共同训练 (co-training) 方法，可以高效地学习复杂的移动操控任务。我们的遥控系统能够连续工作多小时，例如用于烹饪三道菜的晚餐、清洁公共洗手间以及洗衣服。我们的模仿学习 (imitation learning) 方法也适用于许多复杂的任务，比如打开双门壁橱存放重型厨具、按电梯、推椅子和清理溢出的红酒。通过共同训练，我们仅使用每个任务 50 个人类示例，就在这些任务上取得了超过 80% 的成功率，相比不采用共同训练，平均提高了 34%。

2 相关工作

图 1: 硬件细节。左侧：Mobile ALOHA 设备配备了两个腕部摄像头和一个顶部摄像头，内置电源和计算设备。中间：遥控设备可被移除，仅使用两个 ViperX 300 [3] 进行自动操作。两臂可达到的最低/最高高度分别为 65cm/200cm，可从基座向外延伸 100cm。右侧：Mobile ALOHA 的技术规格。

移动操控。

当前许多移动操控系统（mobile manipulation systems）采用了基于模型的控制（model-based control），这种方法结合了人类专家的经验和见解来设计和构建系统架构 [52, 17, 33, 9, 93]。一个著名的例子是 DARPA Robotics Challenge 中的基于模型控制 [56]。然而，这些系统开发和维护难度大，需要团队付出巨大努力，即使是小的感知模型错误也可能导致控制上的重大失败 [51, 6]。近期，学习型方法已被引入移动操控，显著降低了工程难度。为了应对移动操控任务中高维状态和动作空间的探索挑战，先前的研究采用了预定义技能原语（skill primitives） [86, 91, 92]、分解动作空间的强化学习（reinforcement learning） [94, 48, 38, 101, 58]，或全身控制目标（whole-body control objectives） [36, 42, 99]。与这些方法不同，模仿学习（imitation learning）使移动操控器能够通过将原始 RGB 观察结果直接映射到全身动作来实现端到端学习，这种方法在使用真实世界数据的大规模训练中，在室内环境中展现了有希望的成果 [12, 4, 78] [39, 78]。

在之前的研究中，专家们通过多种方式收集演示数据，包括使用 VR 接口 [76]、运动教学 [100]、经过训练的强化学习 (Reinforcement Learning, RL) 策略 [43]、智能手机接口 [90]、运动捕捉系统 [5] 以及直接来自人类的演示 [8]。此外，有研究通过使用人体运动捕捉套装 [23, 22, 19, 26]、外骨骼 [32, 45, 72, 75]、VR 头戴设备以获取视觉反馈 [15, 65, 53, 87] 和触觉反馈设备 [14, 66]，开发了仿人机器人的远程操控技术。Purushottam et al. 则开发了一种连接到力反馈平台的外骨骼套装，用于全身式的轮式仿人机器人远程操控。然而，目前还缺乏一种低成本方法来收集用于双手移动操作的全身专家演示。针对这一问题，我们提出了 Mobile ALOHA 解决方案。它适用于长时间的远程操控，并且无需使用首映视角 (First-Person View, FPV) 眼镜来从机器人的第一视角摄像头传回视频，也无需触觉设备。

机器人学中的模仿学习。

模仿学习允许机器人通过专家的演示进行学习 [67]。行为克隆 (BC) 是一种简化版，用于将观测结果转化为行为指令。BC 的改进包括结合历史数据和不同的架构 [59, 77, 47, 12]、引入新的训练目标 [35, 63, 18, 104, 10]、加入正则化手段 [71]、运用运动原语 [44, 64, 97, 7, 55, 62]，以及进行数据预处理 [81]。

先前的研究也专注于多任务或少样本 (few-shot) 模仿学习， [27, 46, 25, 34, 102, 50, 88, 30]，基于语言条件的模仿学习 [82, 83, 47, 12]，通过游戏数据学习模仿行为 [89, 57, 21, 74]，利用人类视频 [96, 24, 84, 80, 16, 29, 60, 69]，以及采用特定于任务的结构 [103, 49, 83]。这些算法的放大已使系统能够更好地适应新的物体、指令或场景 [28, 47, 12, 54, 13]。最近，对来自不同但相似类型的机器人收集的现实世界多样化数据集的协同训练，已在单臂操控 [20, 11, 98, 61, 31] 和导航 [79] 领域展示出有希望的成果。

在本项研究中，我们采用了一种双手同步的移动操控训练流程，这一流程利用了已有的静态双手操控数据集。研究表明，我们的同步训练流程能显著提高移动操控策略在各类任务和若干模仿学习方法中的表现和数据效率。据我们所知，这是首次发现利用静态操控数据集进行同步训练，可以增强移动操控策略的性能和数据效率。

3 Mobile ALOHA 硬件

我们开发了 Mobile ALOHA，这是一种能够执行广泛家庭任务的低成本移动操作器。Mobile ALOHA 继承并发展了原始 ALOHA 系统 [104] 的优势，如低成本、高灵活性和易修复性，且扩展了其功能，不仅限于桌面操作。具体来说，我们在设计时考虑了以下四个关键要素：

移动性：系统能够以约 1.42m/s 的速度移动，类似于人类步行。
稳定性：能在操作重型家庭用品（如锅具和橱柜）时保持稳定。
全身远程操控：可同时远程操控所有自由度，包括双臂和移动基座。
无线自给：集成了电源和计算设备。

在考虑上述第 1 和第 2 点后，我们选择了 AgileX Tracer AGV（简称“Tracer”）作为移动基座。Tracer 是一种专为仓库物流设计的低轮廓差速驱动移动基座。它的最高移动速度可达 1.6m/s，与人类平均步行速度相当。Tracer 的最大载重为 100kg，高度仅为 17mm。我们在底部添加了平衡重物，确保了倾覆稳定性。Tracer 在具备通行能力的建筑中表现良好：它能够在负载下越过高达 10mm 的障碍物和最陡达 8 度的坡度，且最小离地间隙为 30mm。实际操作中，我们发现 Tracer 还能够应对更为复杂的地形，例如穿越地面与电梯之间的缝隙。在美国，Tracer 的价格为 7,000 美元，比如 Clearpath 同类产品便宜五倍以上。

我们接下来致力于在 Tracer 移动基座和 ALOHA 机械臂的基础上，设计一套全身远程操控系统。这样的系统能够同时控制基座和两个机械臂（第三个考虑因素）。这一设计在家庭环境中尤为重要，因为它能扩大机器人的作业范围。以打开双门橱柜为例，即便是人类，在开门时也会本能地后退，以避免碰撞和不自然的身体姿势。我们设计的远程操控系统旨在不限制这种自然的人体动作，并且不会在收集的数据中引入不必要的误差。但是，设计一个全身远程操控系统颇具挑战，因为两只手已被 ALOHA 机械臂所占用。我们发现，将操作者的腰部通过绳索与移动基座连接，是一种简单直接的解决方案，如图 1 (左侧) 所示。当轮子处于非驱动状态时，其摩擦极低，人可以轻松地推动轮子。我们测量得到在乙烯基地板上的滚动阻力约为 13N，大多数人都能接受。将操作者与移动操纵器直接连接，还可以在机器人与物体发生碰撞时，提供初步的触觉反馈。为了更好的人体工程学设计，拴绳点的高度和机械臂的位置均可独立调整，最多可调整 30cm。在自动运行模式下，通过松开 4 个螺丝，可以轻松拆卸拴绳结构和两个机械臂，这样就减少了移动操纵器的体积和重量，如图 1 (中间) 所示。为了进一步提高操作的舒适性和扩大作业区域，我们将四个 ALOHA 机械臂都朝前安装，这与原版 ALOHA 的向内安装的手臂不同。

为了让我们的移动操控器自由移动（第四考虑因素），我们在其基座安装了一个 1.26kWh、重 14kg 的电池。该电池还起到平衡作用，防止设备倾倒。所有数据收集和推断过程的计算都在配备了 Nvidia 3070 Ti GPU（8GB VRAM）和 Intel i7-12800H 的消费级笔记本上完成。这台笔记本能接收来自三个 Logitech C922x RGB 网络摄像头的视频流，分辨率为 480×640，频率 50Hz。其中两个摄像头安装在跟随机器人的手腕上，另一个面向前方。此外，笔记本通过 USB 串口接收四个机械臂的运动信息，以及通过 CAN 总线接收 Tracer 移动基座的信息。我们记录了移动基座的直线和旋转速度，以用作学习策略的输入数据。同时，还记录了四个机械臂的关节位置，用于策略的观察和操作输入。更多关于机械臂的细节，可参阅原始 ALOHA 论文 [104]。

基于上述设计考虑，我们仅花费 32k 美元打造了 Mobile ALOHA，其成本与单一工业级协作机器人（例如 Franka Emika Panda）相当。如图 1（中）展示，这个移动操控器可以在离地面 65cm 到 200cm 的高度范围内垂直移动，横向延伸达 100cm，能够搬运重 1.5kg 的物品，并在 1.5m 的高度施加最大 100N 的拉力。Mobile ALOHA 能够执行的任务示例包括：

•

家务：浇水、使用吸尘器、装卸洗碗机、从冰箱取饮料、开门、使用洗衣机、铺被子、整理枕头、拉链挂衣、折叠裤子、开关灯、自动充电。
•

烹饪：破蛋、切碎大蒜、开蔬菜包装、倒液体、煎翻鸡腿、焯蔬菜、炒菜、装盘。
•

人机互动：与人打招呼并握手、递啤酒、帮助刮胡子和整理床铺。

在图 1（右）中，我们详细展示了 Mobile ALOHA 的技术规格。除了基本的机器人组件，我们还将所有软件和硬件部分开源，并提供了一份详尽的教程，包括 3D 打印、组装和软件安装的步骤。您可以在项目网站上找到这份教程。

与静态 ALOHA 数据共同训练

在现实世界的机器人任务中，使用模仿学习（imitation learning）通常依赖于特定机器人硬件平台收集的数据集来解决特定任务。但这种方法存在一个问题：每个新任务都需要人类操作者在特定机器人平台上耗时地从头收集演示数据。这些针对特定任务训练的策略，往往难以应对感官干扰（如环境干扰和光线变化），因为这些数据集在视觉上缺乏多样性 [95]。然而，最近的研究显示，共同训练（co-training）方法，即在不同但类似的机器人上收集的多样化数据集上进行训练，已经在单臂操控 [20, 61, 11, 31] 和导航任务 [79] 中取得了有希望的成果。

在本研究中，我们采用了一个共同训练的流程，利用现有的静态 ALOHA 数据集来提升移动操控（mobile manipulation）中模仿学习的效果，尤其是在双臂动作方面。静态 ALOHA 数据集 [104, 81] 包含 825 个任务演示，涵盖了多种任务，如密封 Ziploc 保鲜袋，捡起叉子，包装糖果，撕下纸巾，打开带盖的塑料小杯，玩乒乓，使用胶带器，操作咖啡机，传递铅笔，绑紧魔术贴电线，安装电池，和递交螺丝刀等。值得注意的是，静态 ALOHA 数据是在一个黑色桌面上，两个手臂相对设置收集的。这与Mobile ALOHA 的设置不同，在那里，随着移动基座的移动，背景也在变化，且两个手臂是并排向前的。在我们的共同训练过程中，我们没有对静态 ALOHA 数据中的 RGB 观测数据或双臂动作进行任何特殊处理。

将整合后的静态 ALOHA (ALOHA static) 数据表示为 $DstaticD_{text{static}}$ ，针对某一任务 $m$ 的 Mobile ALOHA (Mobile ALOHA) 数据集表示为 $DmobilemD_{text{mobile}}^{m}$ 。双手动作被定义为目标关节位置 $aarms∈R14a_{text{arms}}inmathbb{R}^{14}$ ，包含两种连续的抓取动作，而底座动作则定义为目标底座的线性和角速度 $abase∈R2a_{text{base}}inmathbb{R}^{2}$ 。对于任务 $m$ 的移动操控策略 $πmpi^{m}$ ，其训练目标是：

针对

DmobilemD_{text{mobile}}^{m}

中的元素

(oi,aarmsi,abasei)(o^{i},a_{text{arms}}^{i},a_{text{base}}^{i})

，最小化

L(aarmsi,abasei,πm(oi))L(a_{text{arms}}^{i},a_{text{base}}^{i},pi^{m}(o^{i}))

的期望值；

针对

DstaticD_{text{static}}

中的元素

(oi,aarmsi)(o^{i},a_{text{arms}}^{i})

，最小化

L(aarmsi,[0,0],πm(oi))L(a_{text{arms}}^{i},[0,0],pi^{m}(o^{i}))

的期望值。

其中 $o^{i}$ 代表的观测包括两个手腕摄像头捕获的 RGB 图像、位于机械臂之间的头戴式摄像头捕获的 RGB 图像，以及机械臂关节的位置数据。 $L$ 是模仿损失函数 (imitation loss function)。我们等概率地从静态 ALOHA 数据 $DstaticD_{text{static}}$ 和Mobile ALOHA 数据 $DmobilemD_{text{mobile}}^{m}$ 中进行抽样。我们设定的批处理大小为 16。静态 ALOHA 数据中缺少移动基座动作信息，因此我们对其动作标签进行零填充，以使两个数据集的动作维度保持一致。同时，我们忽略了静态 ALOHA 数据中的前置摄像头，使得两个数据集均只使用 3 个摄像头。我们根据仅来自Mobile ALOHA 数据集 $DmobilemD_{text{mobile}}^{m}$ 的统计信息对所有动作进行标准化处理。在我们的实验中，我们结合使用了这种共同训练方法和多种基础模仿学习方法，包括 ACT [104]、扩散策略 (Diffusion Policy) [18] 和 VINN [63]。

图 2: 任务定义。我们展示了 Mobile ALOHA 能够自主执行的 6 个真实世界任务。第 7 个任务“击掌 (High Five)”因空间限制在附录 A.1 中展示。对于每个任务，我们阐述了其随机化和子任务的定义，并且为每个任务附上了基座移动的示意图（未按实际比例绘制）。

擦拭红酒 (50 演示)	烹饪虾仁 (20 演示)
抓毛巾	举起玻璃并擦拭	放下玻璃	完成整个任务	加油	加虾	翻煎虾仁	盛装虾仁	完成整个任务
联合训练	100	95	100	95	100	100	60	67	40
无联合训练	95	58	90	50	100	100	40	50	20
清洗锅子 (50 演示)	使用橱柜 (50 演示)
抓锅子	打开水龙头	放置锅子	完成整个任务	打开橱柜	抓取锅具	放置锅具	关闭橱柜	完成整个任务
联合训练	100	80	100	80	95	100	95	95	85
无联合训练	100	0	100	0	95	95	100	95	85
呼叫电梯（50 个示例）	推椅子（50 个示例）	高五（20 个示例）
导航	按按钮	进电梯	整个任务	前三把椅子	第四把（异常）	第五把（异常）	整个任务	未见过的服装	未见过的人员	导航	整个任务
联合训练	100	100	95	95	100	85	89	80	90	80	100	85
无联合训练	100	5	0	0	100	70	0	0	90	80	100	85

表 1: 联合训练显著提升了 ACT 性能。在 7 个具有挑战性的移动操作任务中，与静态 ALOHA 数据集的联合训练始终能够显著提高 ACT 的成功率（百分比）。在需要精细操作的子任务中，如呼叫电梯中的按按钮和清洗平底锅中的打开水龙头，这一点尤为重要。

五大任务

我们挑选了 7 个任务，这些任务覆盖了现实应用中可能出现的各种能力、物体和互动。我们在图 2中对这些任务进行了说明。在“清理葡萄酒”任务中，机器人需要清除桌面上溢出的葡萄酒。这一任务不仅考验机器人的移动能力，还考验其双臂的灵活性。具体而言，机器人首先需要移动到水龙头处拿毛巾，然后返回桌边。它需要一只手臂举起酒杯，同时另一只手臂用毛巾擦拭桌子和酒杯底部。静态的 ALOHA 无法完成此任务，且单臂移动机器人完成此任务所需时间更长。在“烹饪虾”任务中，机器人需要在两面煎熟一块生虾，然后将其放入碗中。这个任务同样需要机器人具备移动和双臂协调的能力：机器人需要从灶台移至厨房操作台，一边用铲子翻虾，一边倾斜煎锅。由于翻动半熟的虾涉及复杂的操作，这个任务的精确度要求高于擦拭葡萄酒。因为虾可能略微粘在锅上，机器人需要精准地用铲子从虾下方将其翻转。在“清洗锅”任务中，机器人要拿起脏锅，在水龙头下冲洗干净，然后放到晾干架上。这个任务不仅包括前两个任务中的挑战，而且还需要解决打开水龙头的难题，这对机器人的感知能力是一大考验。水龙头的旋钮由闪亮的不锈钢制成，体积小巧，长约 4cm，直径仅 0.7cm。由于基座的运动带来不确定性，机器人的手臂需要通过“视觉辅助定位”来精确对准光亮的旋钮。即使是厘米级的误差也可能导致任务失败。

在“使用橱柜”任务中，机器人需要拿起一个重型锅子并放进一个双门橱柜。这个任务表面上看似不需要机器人移动其基座，但实际上机器人需来回移动四次才能完成。例如，在打开橱柜门时，机器人需在后退时用两只手臂抓住把手，以避免与门碰撞，确保双臂都在操作范围内。此类操作展示了全身遥控和控制的重要性：如果手臂和基座的控制分开，机器人将难以快速、流畅地打开两扇门。值得一提的是，我们实验中最重的锅达 1.4 公斤，超过单臂 750 克的承载限制，但仍在双臂联合承载范围之内。

在“按电梯”任务中，机器人需通过按按钮来进入电梯。这个任务强调了长距离导航、高度随机性和精确的全身控制。机器人从电梯大约 15 米远的地方出发，在宽达 10 米的大厅中随机活动。为了按下电梯按钮，机器人需要绕过一根柱子，并精确停在按钮旁。按下仅 2cm×2cm 的按钮需要极高精度，因为按得太轻或偏离中心不会启动电梯。机器人还必须精确急转弯以进入电梯，因为它最宽处和电梯门之间仅有 30cm 的空间。

在“推椅子”任务中，机器人要将 5 把椅子推进长桌前。这项任务展示了移动式机械臂的力量，它需要协调手臂和基座的移动，以克服 5 公斤椅子与地面之间的摩擦。为了增加难度，我们仅对前三把椅子进行数据收集，并对机器人进行挑战，让其推断如何处理第四和第五把椅子。

在“击掌”任务中，我们在附录 A.1 中提供了插图。任务要求机器人绕过厨房中央的岛屿，当有人从前方靠近时，它需停下并与人击掌。击掌后，机器人只有在路线上的人离开后才继续前进。我们收集了穿戴不同衣服的数据，并在之前未见过的人和服装上测试训练策略。虽然这项任务对精度要求不高，但它突显了Mobile ALOHA 在研究人机交互方面的潜力。

擦酒 (50 示范)	推椅子 (50 示范)
抓取毛巾	提起玻璃并擦拭	放置玻璃	完整任务	第一把椅子	第二把椅子	第三把椅子	完整任务
VINN + 分块技术	联合训练	85	18	100	15	100	70	86	60
无联合训练	50	40	100	20	90	72	62	40
扩散政策	联合训练	90	72	100	65	100	100	100	100
无联合训练	75	47	100	35	100	80	100	80
ACT	联合训练	100	95	100	95	100	100	100	100
无联合训练	95	58	90	50	100	100	100	100

表 2: Mobile ALOHA 与近期模仿学习方法相容。结合分块技术的 VINN、扩散政策和 ACT 在 Mobile ALOHA 上均展现出良好的性能，并且从与静态 ALOHA 的协同训练中获益。

我们想指出，对于前面提到的所有任务，如果仅仅按照原样重放示范动作（即开环重放），且让物体恢复到原先的位置，是无法完全成功完成整个任务的。要想顺利完成这些任务，所学习的策略需要能够实时响应并纠正出现的误差。我们认为在开环重放过程中产生误差的主要原因是移动基座的速度控制问题。比如，在重放基座动作执行 180 度转弯（转弯半径为 1 米）的实验中，我们平均观察到超过 10 厘米的误差。关于这项实验的更多细节，请参阅附录 A.4。

6 实验

我们的实验主要目的是回答两个核心问题：(1) Mobile ALOHA 能否在少量的移动操控数据支持和联合训练的情况下，学会复杂的移动操控技能？(2) Mobile ALOHA 能否与包括 ACT [104]、Diffusion Policy [18] 和基于检索的 VINN [63] 在内的各种模仿学习方法相结合？为了探索这些问题，我们在真实世界环境中进行了广泛的实验。

作为实验的基础，我们检验的所有方法都采用了“动作分块” [104] 技术，即策略不是在每个时间步预测单个动作，而是预测一系列未来的动作序列。这种方法已经是 ACT 和 Diffusion 策略的一部分，而对于 VINN 来说加入这一技术也相对简单。我们发现，动作分块对于操控任务至关重要，因为它不仅使生成的轨迹更加连贯，还能减少逐步策略推断所带来的延迟。此外，动作分块还为 Mobile ALOHA 带来了独特的优势，即更灵活地处理硬件各部分的响应延迟。我们发现，移动基座的目标速度和实际速度之间存在延迟，但位置控制臂的延迟相对较小。为了弥补移动基座的 $d$ 步延迟，我们的机器人会执行一个长度为 $k$ 的动作分块中的前 $k - d$ 个臂动作和最后的 $k - d$ 个基座动作。

6.1 共同训练提高性能

我们的研究起始于 ACT [104]，这是随 ALOHA 一同介绍的方法。我们在含有和不含共同训练的情况下，对所有 7 项任务进行了训练。随后，我们在真实世界环境中对每种方法进行了评估，评估过程中随机化了机器人和物体的配置，具体如图 2 所示。为了计算某个子任务的成功率，我们将成功次数（#Success）除以尝试次数（#Attempts）。例如，在“提起玻璃杯和擦拭”这一子任务中，尝试次数（#Attempts）等同于之前“抓取毛巾”子任务的成功次数，因为机器人可能在任何一个子任务中失败并停止。这也意味着，最终的成功率是所有子任务成功率的乘积。所有子任务的成功率都记录在表 1 中。每个成功率都是基于 20 次评估试验得出的，只有“烹饪虾仁”子任务例外，它仅进行了 5 次试验。

通过共同训练的帮助，机器人在执行多项任务时展现出了高成功率：在“擦拭酒瓶”任务中达到 95% 的成功率，在“呼叫电梯”任务中也有同样的 95% 成功率，在“使用橱柜”和“击掌”任务上的成功率为 85%，而在“清洗平底锅”和“推椅子”任务中则为 80%。每项任务仅需 50 次领域内示范，而“击掌”任务仅需 20 次。唯一成功率低于 80% 的任务是“烹饪虾”（40%），这是一个持续 75 秒的长期任务，我们仅收集了 20 个示范。我们发现，在用铲子翻虾和将虾倒入低对比度的白色碗中时，策略遇到了难题。我们猜测，较低的成功率可能是由于示范数据有限造成的。共同训练在 7 个任务中的 5 个任务上提高了整体任务的成功率，分别提升了 45%、20%、80%、95% 和 80%。对于其余两个任务，无论是否共同训练，成功率相当。我们发现，共同训练在精确操作是关键的子任务中更为有效，例如“按按钮”、“翻虾”和“开水龙头”。在所有这些情况下，失败主要是由复合错误引起的，不论是由于机器人基座速度控制的不确定性，还是在如抓住铲子和与平底锅接触的过程中的复杂接触中的“翻虾”操作。我们推测，在“静态 ALOHA”数据集中关于抓取和靠近物体的“运动先验”在“Mobile ALOHA”中仍然有益，特别是考虑到手腕相机带来的不变性[41]。我们还发现，共同训练策略在“推椅子”和“擦拭酒瓶”任务上展现了更好的泛化能力。在“推椅子”中，无论是否共同训练，前 3 把椅子都能取得完美的成功率，这些椅子都出现在示范中。然而，共同训练在推第 4 和第 5 把椅子时表现得更好，分别提升了 15% 和 89%。至于“擦拭酒瓶”，我们注意到共同训练的策略在处理葡萄酒杯随机化区域的边界时表现得更为出色。

我们因此提出假设，在使用强表达能力的 Transformer 基策略，并处于 20-50 个示例的低数据环境时，协同训练有助于防止过拟合。

图 3: 数据效率。相比仅用 Mobile ALOHA 数据训练，结合静态 ALOHA 数据进行协同训练可以显著提升数据效率，并带来持续的性能改进。图表风格归功于 [70]。

6.2 与 ACT, 漫游策略 (Diffusion Policy) 和视觉迭代神经网络 (VINN) 的兼容性

我们训练了两种最新的模仿学习方法：漫游策略 [18] 和视觉迭代神经网络 (VINN) [63]，并将它们与移动版 ALOHA (Mobile ALOHA) 以及 ACT 结合使用。漫游策略通过训练神经网络逐步精细化动作预测。我们采用 DDIM 调度器 [85] 来提升推理速度，并对图像观测数据应用数据增强技术，以防止过度拟合。其共同训练的数据处理流程与 ACT 相同，更多的训练细节可以在附录 A.3 中找到。VINN 则训练了一个视觉表示模型，即自监督学习的 BYOL (Bootstrap Your Own Latent) [37]，并利用该模型通过最近邻方法从演示数据集中检索动作。我们通过融合传感器反馈特征来增强 VINN 的检索能力，并调整视觉与传感器反馈特征之间的相对重要性。我们不仅检索单一动作，而是检索一系列连续动作，这种做法与 Zhao et al. 的研究类似，带来了显著的性能提升。在共同训练过程中，我们将 BYOL 编码器与移动端和静态端的组合数据一起训练。

静态端 ALOHA 比例 (%)	30	50	70
(默认)
成功率 (%)	95	95	90

表 3: 表明共同训练对不同类型数据组合具有良好的适应性。这里的结果是基于 ACT 在“擦拭葡萄酒”任务上的训练成果。

共同训练	预训练	无共同训练无预训练
成功率 (%)	95	40	50

表 4: 共同训练与预训练的比较。在“擦拭葡萄酒”任务上，共同训练的表现优于预训练。在预训练方案中，我们首先在静态端的 ALOHA 数据上训练 ACT，然后再用移动端的 ALOHA 数据进行微调。

在表 2 中，我们报告了两个真实世界任务——擦拭酒瓶（Wipe Wine）和推椅子（Push Chairs）上，进行共训练与不进行共训练的成功率。总的来说，扩散策略（Diffusion Policy）在推椅子任务上与自适应控制技术（ACT）的表现相似，两者在共训练的情况下均达到了 100% 的成功率。在擦拭酒瓶任务中，我们发现扩散策略的表现较差，成功率仅为 65%。扩散策略在靠近厨房岛和抓取酒杯时的精确度较低。我们推测，对于扩散策略来说，50 次演示可能不足够，因为它需要更高的表现力：以往采用扩散策略的研究通常会在 250 次以上的演示中进行训练。对于 VINN + 区块划分（Chunking）策略，无论在哪个任务上，其表现都不如自适应控制技术或扩散策略，但在推椅子上仍有 60% 的合理成功率，在擦拭酒瓶上则为 15%。主要的失败模式包括在举杯和擦拭任务中的不精确抓握，以及在不同动作区块间切换时的急促动作。我们发现，增加对本体感知（proprioception）的重视可以提高动作的平滑性，但这样会减少对视觉输入的关注。我们还发现，共训练可以显著提升扩散策略的性能，在擦拭酒瓶和推椅子任务上分别提高了 30% 和 20% 的成功率。这是因为共训练有助于缓解过拟合的问题。不同于自适应控制技术和扩散策略，我们对 VINN 策略的研究发现了不一致的结果：共训练使得在擦拭酒瓶任务上的成功率下降了 5%，但在推椅子任务上提高了 20%。这可能是因为只有 VINN 的表示部分接受了共训练，而其行动预测机制并未能有效利用来自域外的静态 ALOHA 数据，这可能解释了这种混合的结果。

7 效能分析研究

数据效率。在图 3 中，我们分析了在“擦除酒渍”这一移动机器人操作任务中，使用共同训练 (co-training) 和不使用共同训练 (no co-training) 的情况下所需的演示数量。我们考察了 25、35 和 50 次移动机器人 ALOHA 演示，并分别进行了 20 次实验评估。结果显示，共同训练提高了数据效率并在使用仅有的Mobile ALOHA 数据进行训练时取得了持续的性能提升。在共同训练的情况下，仅用 35 次领域内演示训练出的策略就能比未经共同训练且使用 50 次领域内演示训练的策略表现提高 20%（70% 对比 50%）。

图 4: 远程操作者学习曲线。新用户可以在执行未经过训练的任务时，通过远程操控Mobile ALOHA 快速达到专家级别的操作速度。

共同训练在不同数据混合中表现稳定。在我们迄今为止的共同训练实验中，我们从静态 ALOHA 数据集和Mobile ALOHA 任务数据集中以相等概率采样以形成训练小批量，使共同训练的数据采样率约为 50%。在表 3 中，我们研究了不同采样策略对“擦除酒渍”任务表现的影响。我们采用了 30%、50% 和 70% 的共同训练数据采样率进行 ACT 训练，并分别进行了 20 次实验评估。我们发现，不同采样率下的表现相似，成功率分别为 95%、95% 和 90%。这一实验表明，共同训练的性能并不受不同数据混合比例的影响，减少了在将共同训练应用于新任务时所需的手动调整。

共同训练优于预训练。在表 4 中，我们比较了共同训练和预训练在静态 ALOHA 数据上的效果。对于预训练，我们首先在静态 ALOHA 数据上对 ACT 进行了 10000 步的训练，然后继续用特定任务数据进行训练。我们在“擦除酒渍”任务上进行了实验，发现预训练并没有带来任何性能提升，与仅在该任务数据上训练的情况相比。我们推测，网络在微调阶段可能会忘记其在静态 ALOHA 数据上的训练经验。

第 8 章用户研究

为了评估 Mobile ALOHA 远程操作系统的有效性，我们开展了一项用户研究。主要目的是观察参与者在多快的时间内能学会远程操控一个全新的任务。我们从计算机科学专业的研究生中招募了 8 名参与者，其中包括 5 名女性和 3 名男性，年龄在 21 到 26 岁之间。这些参与者中，4 人之前没有任何远程操作经验，而其他 4 人则具有不同程度的专业知识。这些参与者此前都未曾使用过 Mobile ALOHA。我们让每位参与者先在场景中自由地与物体互动 3 分钟，以此来熟悉环境。在这个初步互动阶段，我们没有展示将用于之后未公开任务的物体。随后，我们为每位参与者分配了两项任务：清洁沾有酒渍的表面和操作橱柜。首先由一位专家操作员演示这些任务，然后让参与者连续进行 5 次尝试。我们记录了每次尝试的完成时间，并在图 4 中展示了这些数据。结果显示，完成任务的时间显著减少：例如，清洁酒渍的平均时间从 46 秒降至 28 秒（下降了 39%），而操作橱柜的时间从 75 秒降至 36 秒（下降了 52%）。令人印象深刻的是，参与者在 5 次尝试后的表现已接近专家的水平，这充分证明了 Mobile ALOHA 远程操作系统易于学习和使用。

9 结论、局限性和未来方向

总的来说，我们的论文同时解决了双手移动操纵的硬件和软件两大方面的问题。通过在 ALOHA 系统中增加一个移动基座和全身远程操作功能，我们成功地收集了一系列复杂移动操纵任务的高质量演示。接着，通过将模仿学习（imitation learning）与静态 ALOHA 数据共同训练，Mobile ALOHA 能够仅凭 20 到 50 次演示就掌握这些任务。我们还确保了系统的可获得性，整个系统的预算包括机载电源和计算在内，低于 32,000 美元，并且在软件和硬件方面实现了开源。

尽管 Mobile ALOHA 简单高效，但它仍存在一些我们希望在未来工作中解决的局限。在硬件方面，我们打算减小 Mobile ALOHA 占用的空间。目前 90 厘米 x 135 厘米的占地面积对某些路径而言可能过于狭窄。此外，两个追随臂的固定高度使得较低的橱柜、烤箱和洗碗机变得难以触及。我们计划增加臂部升降的自由度来解决这个问题。在软件方面，我们目前的研究仅限于单任务模仿学习。机器人尚未能够自主改进或探索新知识。而且，Mobile ALOHA 的演示数据是由两位专家操作员收集的。未来，我们计划探索如何从高度次优、多样性的数据集中进行模仿学习。

致谢

我们感谢斯坦福机器人中心和 Steve Cousins 对我们实验提供的设施支持。同时，我们也要感谢斯坦福 IRIS 实验室的 Lucy X. Shi 和 Tian Gao，以及斯坦福 REAL 实验室的 Cheng Chi、Zhenjia Xu、Yihuai Gao、Huy Ha、Zeyi Liu、Xiaomeng Xu、Chuer Pan 和 Shuran Song，他们为我们的实验提供了极大的帮助。我们非常感激 Qingqing Zhao 的摄影工作，以及 Karl Pertsch、Boyuan Chen、Ziwen Zhuang、Quan Vuong 和 Fei Xia 提供的反馈和富有成效的讨论。本项目得到波士顿动力 AI 研究院和 ONR 授予的 N00014-21-1-2685 项目支持。Zipeng Fu 由斯坦福研究生奖学金支持。

参考文献

[1]↑Fetch robot.https://docs.fetchrobotics.com/teleop.html.
[2]↑Hello robot stretch.https://github.com/hello-robot/stretch_fisheye_web_interface.
[3]↑Viperx 300 6dof.https://www.trossenrobotics.com/viperx-300-robot-arm.aspx.
Ahn et al. [2022]↑Michael Ahn, Anthony Brohan, Noah Brown, Yevgen Chebotar, Omar Cortes, Byron David, Chelsea Finn, Chuyuan Fu, Keerthana Gopalakrishnan, Karol Hausman, Alex Herzog, Daniel Ho, Jasmine Hsu, Julian Ibarz, Brian Ichter, Alex Irpan, Eric Jang, Rosario Jauregui Ruano, Kyle Jeffrey, Sally Jesmonth, Nikhil Joshi, Ryan Julian, Dmitry Kalashnikov, Yuheng Kuang, Kuang-Huei Lee, Sergey Levine, Yao Lu, Linda Luu, Carolina Parada, Peter Pastor, Jornell Quiambao, Kanishka Rao, Jarek Rettinghouse, Diego Reyes, Pierre Sermanet, Nicolas Sievers, Clayton Tan, Alexander Toshev, Vincent Vanhoucke, Fei Xia, Ted Xiao, Peng Xu, Sichun Xu, Mengyuan Yan, and Andy Zeng.Do as i can and not as i say: Grounding language in robotic affordances.In arXiv preprint arXiv:2204.01691, 2022.
Arduengo et al. [2021]↑Miguel Arduengo, Ana Arduengo, Adrià Colomé, Joan Lobo-Prat, and Carme Torras.Human to robot whole-body motion transfer.In 2020 IEEE-RAS 20th International Conference on Humanoid Robots (Humanoids), 2021.
[6]↑Christopher G Atkeson, PW Babu Benzun, Nandan Banerjee, Dmitry Berenson, Christoper P Bove, Xiongyi Cui, Mathew DeDonato, Ruixiang Du, Siyuan Feng, Perry Franklin, et al.What happened at the darpa robotics challenge finals.The DARPA robotics challenge finals: Humanoid robots to the rescue.
Bahl et al. [2021]↑Shikhar Bahl, Abhinav Gupta, and Deepak Pathak.Hierarchical neural dynamic policies.RSS, 2021.
Bahl et al. [2022]↑Shikhar Bahl, Abhinav Gupta, and Deepak Pathak.Human-to-robot imitation in the wild.arXiv preprint arXiv:2207.09450, 2022.
Bajracharya et al. [2020]↑Max Bajracharya, James Borders, Dan Helmick, Thomas Kollar, Michael Laskey, John Leichty, Jeremy Ma, Umashankar Nagarajan, Akiyoshi Ochiai, Josh Petersen, et al.A mobile manipulation system for one-shot teaching of complex tasks in homes.In 2020 IEEE International Conference on Robotics and Automation (ICRA), 2020.
Bharadhwaj et al. [2023]↑H Bharadhwaj, J Vakil, M Sharma, A Gupta, S Tulsiani, and V Kumar.Roboagent: Towards sample efficient robot manipulation with semantic augmentations and action chunking, 2023.
Bousmalis et al. [2023]↑Konstantinos Bousmalis, Giulia Vezzani, Dushyant Rao, Coline Devin, Alex X. Lee, Maria Bauza, Todor Davchev, Yuxiang Zhou, Agrim Gupta, Akhil Raju, Antoine Laurens, Claudio Fantacci, Valentin Dalibard, Martina Zambelli, Murilo Martins, Rugile Pevceviciute, Michiel Blokzijl, Misha Denil, Nathan Batchelor, Thomas Lampe, Emilio Parisotto, Konrad Żołna, Scott Reed, Sergio Gómez Colmenarejo, Jon Scholz, Abbas Abdolmaleki, Oliver Groth, Jean-Baptiste Regli, Oleg Sushkov, Tom Rothörl, José Enrique Chen, Yusuf Aytar, Dave Barker, Joy Ortiz, Martin Riedmiller, Jost Tobias Springenberg, Raia Hadsell, Francesco Nori, and Nicolas Heess.Robocat: A self-improving foundation agent for robotic manipulation.arXiv preprint arXiv:2306.11706, 2023.
Brohan et al. [2022]↑Anthony Brohan, Noah Brown, Justice Carbajal, Yevgen Chebotar, Joseph Dabis, Chelsea Finn, Keerthana Gopalakrishnan, Karol Hausman, Alex Herzog, Jasmine Hsu, Julian Ibarz, Brian Ichter, Alex Irpan, Tomas Jackson, Sally Jesmonth, Nikhil Joshi, Ryan Julian, Dmitry Kalashnikov, Yuheng Kuang, Isabel Leal, Kuang-Huei Lee, Sergey Levine, Yao Lu, Utsav Malla, Deeksha Manjunath, Igor Mordatch, Ofir Nachum, Carolina Parada, Jodilyn Peralta, Emily Perez, Karl Pertsch, Jornell Quiambao, Kanishka Rao, Michael Ryoo, Grecia Salazar, Pannag Sanketi, Kevin Sayed, Jaspiar Singh, Sumedh Sontakke, Austin Stone, Clayton Tan, Huong Tran, Vincent Vanhoucke, Steve Vega, Quan Vuong, Fei Xia, Ted Xiao, Peng Xu, Sichun Xu, Tianhe Yu, and Brianna Zitkovich.Rt-1: Robotics transformer for real-world control at scale.In arXiv preprint arXiv:2212.06817, 2022.
Brohan et al. [2023]↑Anthony Brohan, Noah Brown, Justice Carbajal, Yevgen Chebotar, Xi Chen, Krzysztof Choromanski, Tianli Ding, Danny Driess, Avinava Dubey, Chelsea Finn, Pete Florence, Chuyuan Fu, Montse Gonzalez Arenas, Keerthana Gopalakrishnan, Kehang Han, Karol Hausman, Alex Herzog, Jasmine Hsu, Brian Ichter, Alex Irpan, Nikhil Joshi, Ryan Julian, Dmitry Kalashnikov, Yuheng Kuang, Isabel Leal, Lisa Lee, Tsang-Wei Edward Lee, Sergey Levine, Yao Lu, Henryk Michalewski, Igor Mordatch, Karl Pertsch, Kanishka Rao, Krista Reymann, Michael Ryoo, Grecia Salazar, Pannag Sanketi, Pierre Sermanet, Jaspiar Singh, Anikait Singh, Radu Soricut, Huong Tran, Vincent Vanhoucke, Quan Vuong, Ayzaan Wahid, Stefan Welker, Paul Wohlhart, Jialin Wu, Fei Xia, Ted Xiao, Peng Xu, Sichun Xu, Tianhe Yu, and Brianna Zitkovich.Rt-2: Vision-language-action models transfer web knowledge to robotic control.In arXiv preprint arXiv:2307.15818, 2023.
Brygo et al. [2014]↑Anais Brygo, Ioannis Sarakoglou, Nadia Garcia-Hernandez, and Nikolaos Tsagarakis.Humanoid robot teleoperation with vibrotactile based balancing feedback.In Haptics: Neuroscience, Devices, Modeling, and Applications: 9th International Conference, EuroHaptics 2014, Versailles, France, June 24-26, 2014, Proceedings, Part II 9, 2014.
Chagas Vaz et al. [2021]↑Jean Chagas Vaz, Dylan Wallace, and Paul Y Oh.Humanoid loco-manipulation of pushed carts utilizing virtual reality teleoperation.In ASME International Mechanical Engineering Congress and Exposition, 2021.
Chen et al. [2021]↑Annie S Chen, Suraj Nair, and Chelsea Finn.Learning generalizable robotic reward functions from” in-the-wild” human videos.arXiv preprint arXiv:2103.16817, 2021.
Chestnutt et al. [2005]↑Joel Chestnutt, Manfred Lau, German Cheung, James Kuffner, Jessica Hodgins, and Takeo Kanade.Footstep planning for the honda asimo humanoid.In ICRA, 2005.
Chi et al. [2023]↑Cheng Chi, Siyuan Feng, Yilun Du, Zhenjia Xu, Eric Cousineau, Benjamin Burchfiel, and Shuran Song.Diffusion policy: Visuomotor policy learning via action diffusion.In Proceedings of Robotics: Science and Systems (RSS), 2023.
Cisneros et al. [2022]↑R Cisneros, M Benallegue, K Kaneko, H Kaminaga, G Caron, A Tanguy, R Singh, L Sun, A Dallard, C Fournier, et al.Team janus humanoid avatar: A cybernetic avatar to embody human telepresence.In Toward Robot Avatars: Perspectives on the ANA Avatar XPRIZE Competition, RSS Workshop, 2022.
Collaboration et al. [2023]↑Open X-Embodiment Collaboration, Abhishek Padalkar, Acorn Pooley, Ajinkya Jain, Alex Bewley, Alex Herzog, Alex Irpan, Alexander Khazatsky, Anant Rai, Anikait Singh, Anthony Brohan, Antonin Raffin, Ayzaan Wahid, Ben Burgess-Limerick, Beomjoon Kim, Bernhard Schölkopf, Brian Ichter, Cewu Lu, Charles Xu, Chelsea Finn, Chenfeng Xu, Cheng Chi, Chenguang Huang, Christine Chan, Chuer Pan, Chuyuan Fu, Coline Devin, Danny Driess, Deepak Pathak, Dhruv Shah, Dieter Büchler, Dmitry Kalashnikov, Dorsa Sadigh, Edward Johns, Federico Ceola, Fei Xia, Freek Stulp, Gaoyue Zhou, Gaurav S. Sukhatme, Gautam Salhotra, Ge Yan, Giulio Schiavi, Hao Su, Hao-Shu Fang, Haochen Shi, Heni Ben Amor, Henrik I Christensen, Hiroki Furuta, Homer Walke, Hongjie Fang, Igor Mordatch, Ilija Radosavovic, Isabel Leal, Jacky Liang, Jaehyung Kim, Jan Schneider, Jasmine Hsu, Jeannette Bohg, Jeffrey Bingham, Jiajun Wu, Jialin Wu, Jianlan Luo, Jiayuan Gu, Jie Tan, Jihoon Oh, Jitendra Malik, Jonathan Tompson, Jonathan Yang, Joseph J. Lim, João Silvério, Junhyek Han, Kanishka Rao, Karl Pertsch, Karol Hausman, Keegan Go, Keerthana Gopalakrishnan, Ken Goldberg, Kendra Byrne, Kenneth Oslund, Kento Kawaharazuka, Kevin Zhang, Keyvan Majd, Krishan Rana, Krishnan Srinivasan, Lawrence Yunliang Chen, Lerrel Pinto, Liam Tan, Lionel Ott, Lisa Lee, Masayoshi Tomizuka, Maximilian Du, Michael Ahn, Mingtong Zhang, Mingyu Ding, Mohan Kumar Srirama, Mohit Sharma, Moo Jin Kim, Naoaki Kanazawa, Nicklas Hansen, Nicolas Heess, Nikhil J Joshi, Niko Suenderhauf, Norman Di Palo, Nur Muhammad Mahi Shafiullah, Oier Mees, Oliver Kroemer, Pannag R Sanketi, Paul Wohlhart, Peng Xu, Pierre Sermanet, Priya Sundaresan, Quan Vuong, Rafael Rafailov, Ran Tian, Ria Doshi, Roberto Martín-Martín, Russell Mendonca, Rutav Shah, Ryan Hoque, Ryan Julian, Samuel Bustamante, Sean Kirmani, Sergey Levine, Sherry Moore, Shikhar Bahl, Shivin Dass, Shuran Song, Sichun Xu, Siddhant Haldar, Simeon Adebola, Simon Guist, Soroush Nasiriany, Stefan Schaal, Stefan Welker, Stephen Tian, Sudeep Dasari, Suneel Belkhale, Takayuki Osa, Tatsuya Harada, Tatsuya Matsushima, Ted Xiao, Tianhe Yu, Tianli Ding, Todor Davchev, Tony Z. Zhao, Travis Armstrong, Trevor Darrell, Vidhi Jain, Vincent Vanhoucke, Wei Zhan, Wenxuan Zhou, Wolfram Burgard, Xi Chen, Xiaolong Wang, Xinghao Zhu, Xuanlin Li, Yao Lu, Yevgen Chebotar, Yifan Zhou, Yifeng Zhu, Ying Xu, Yixuan Wang, Yonatan Bisk, Yoonyoung Cho, Youngwoon Lee, Yuchen Cui, Yueh hua Wu, Yujin Tang, Yuke Zhu, Yunzhu Li, Yusuke Iwasawa, Yutaka Matsuo, Zhuo Xu, and Zichen Jeff Cui.Open X-Embodiment: Robotic learning datasets and RT-X models.https://arxiv.org/abs/2310.08864, 2023.
Cui et al. [2022]↑Zichen Jeff Cui, Yibin Wang, Nur Muhammad Mahi Shafiullah, and Lerrel Pinto.From play to policy: Conditional behavior generation from uncurated robot data.arXiv preprint arXiv:2210.10047, 2022.
Dafarra et al. [2022]↑Stefano Dafarra, Kourosh Darvish, Riccardo Grieco, Gianluca Milani, Ugo Pattacini, Lorenzo Rapetti, Giulio Romualdi, Mattia Salvi, Alessandro Scalzo, Ines Sorrentino, et al.icub3 avatar system.arXiv preprint arXiv:2203.06972, 2022.
Darvish et al. [2019]↑Kourosh Darvish, Yeshasvi Tirupachuri, Giulio Romualdi, Lorenzo Rapetti, Diego Ferigo, Francisco Javier Andrade Chavez, and Daniele Pucci.Whole-body geometric retargeting for humanoid robots.In 2019 IEEE-RAS 19th International Conference on Humanoid Robots (Humanoids), 2019.
Das et al. [2021]↑Neha Das, Sarah Bechtle, Todor Davchev, Dinesh Jayaraman, Akshara Rai, and Franziska Meier.Model-based inverse reinforcement learning from visual demonstrations.In Conference on Robot Learning, pages 1930–1942. PMLR, 2021.
Dasari and Gupta [2020]↑Sudeep Dasari and Abhinav Kumar Gupta.Transformers for one-shot visual imitation.In Conference on Robot Learning, 2020.
Dragan et al. [2013]↑Anca D Dragan, Kenton CT Lee, and Siddhartha S Srinivasa.Legibility and predictability of robot motion.In 2013 8th ACM/IEEE International Conference on Human-Robot Interaction (HRI), 2013.
Duan et al. [2017]↑Yan Duan, Marcin Andrychowicz, Bradly C. Stadie, Jonathan Ho, Jonas Schneider, Ilya Sutskever, P. Abbeel, and Wojciech Zaremba.One-shot imitation learning.ArXiv, abs/1703.07326, 2017.
Ebert et al. [2021]↑Frederik Ebert, Yanlai Yang, Karl Schmeckpeper, Bernadette Bucher, Georgios Georgakis, Kostas Daniilidis, Chelsea Finn, and Sergey Levine.Bridge data: Boosting generalization of robotic skills with cross-domain datasets.ArXiv, abs/2109.13396, 2021.
Edwards and Isbell [2019]↑Ashley D Edwards and Charles L Isbell.Perceptual values from observation.arXiv preprint arXiv:1905.07861, 2019.
Englert and Toussaint [2018]↑Peter Englert and Marc Toussaint.Learning manipulation skills from a single demonstration.The International Journal of Robotics Research, 37(1):137–154, 2018.
Fang et al. [2023a]↑Hao-Shu Fang, Hongjie Fang, Zhenyu Tang, Jirong Liu, Chenxi Wang, Junbo Wang, Haoyi Zhu, and Cewu Lu.Rh20t: A comprehensive robotic dataset for learning diverse skills in one-shot.In Towards Generalist Robots: Learning Paradigms for Scalable Skill Acquisition@ CoRL2023, 2023a.
Fang et al. [2023b]↑Hongjie Fang, Hao-Shu Fang, Yiming Wang, Jieji Ren, Jingjing Chen, Ruo Zhang, Weiming Wang, and Cewu Lu.Low-cost exoskeletons for learning whole-arm manipulation in the wild.arXiv preprint arXiv:2309.14975, 2023b.
Feng et al. [2014]↑Siyuan Feng, Eric Whitman, X Xinjilefu, and Christopher G Atkeson.Optimization based full body control for the atlas robot.In International Conference on Humanoid Robots, 2014.
Finn et al. [2017]↑Chelsea Finn, Tianhe Yu, Tianhao Zhang, Pieter Abbeel, and Sergey Levine.One-shot visual imitation learning via meta-learning.In Conference on robot learning, 2017.
Florence et al. [2021]↑Peter R. Florence, Corey Lynch, Andy Zeng, Oscar Ramirez, Ayzaan Wahid, Laura Downs, Adrian S. Wong, Johnny Lee, Igor Mordatch, and Jonathan Tompson.Implicit behavioral cloning.ArXiv, abs/2109.00137, 2021.
Fu et al. [2022]↑Zipeng Fu, Xuxin Cheng, and Deepak Pathak.Deep whole-body control: learning a unified policy for manipulation and locomotion.In Conference on Robot Learning, 2022.
Grill et al. [2020]↑Jean-Bastien Grill, Florian Strub, Florent Altché, Corentin Tallec, Pierre Richemond, Elena Buchatskaya, Carl Doersch, Bernardo Avila Pires, Zhaohan Guo, Mohammad Gheshlaghi Azar, et al.Bootstrap your own latent-a new approach to self-supervised learning.Advances in neural information processing systems, 33:21271–21284, 2020.
Gu et al. [2023]↑Jiayuan Gu, Devendra Singh Chaplot, Hao Su, and Jitendra Malik.Multi-skill mobile manipulation for object rearrangement.ICLR, 2023.
Gupta et al. [2018]↑Abhinav Gupta, Adithyavairavan Murali, Dhiraj Prakashchand Gandhi, and Lerrel Pinto.Robot learning in homes: Improving generalization and reducing dataset bias.Advances in neural information processing systems, 2018.
He et al. [2015]↑Kaiming He, X. Zhang, Shaoqing Ren, and Jian Sun.Deep residual learning for image recognition.2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 770–778, 2015.
Hsu et al. [2022]↑Kyle Hsu, Moo Jin Kim, Rafael Rafailov, Jiajun Wu, and Chelsea Finn.Vision-based manipulators need to also see from their hands.ArXiv, abs/2203.12677, 2022.URL https://api.semanticscholar.org/CorpusID:247628166.
Hu et al. [2023]↑Jiaheng Hu, Peter Stone, and Roberto Martín-Martín.Causal policy gradient for whole-body mobile manipulation.arXiv preprint arXiv:2305.04866, 2023.
Huang et al. [2023]↑Xiaoyu Huang, Dhruv Batra, Akshara Rai, and Andrew Szot.Skill transformer: A monolithic policy for mobile manipulation.In Proceedings of the IEEE/CVF International Conference on Computer Vision, 2023.
Ijspeert et al. [2013]↑Auke Jan Ijspeert, Jun Nakanishi, Heiko Hoffmann, Peter Pastor, and Stefan Schaal.Dynamical movement primitives: learning attractor models for motor behaviors.Neural computation, 2013.
Ishiguro et al. [2020]↑Yasuhiro Ishiguro, Tasuku Makabe, Yuya Nagamatsu, Yuta Kojio, Kunio Kojima, Fumihito Sugai, Yohei Kakiuchi, Kei Okada, and Masayuki Inaba.Bilateral humanoid teleoperation system using whole-body exoskeleton cockpit tablis.IEEE Robotics and Automation Letters, 2020.
James et al. [2018]↑Stephen James, Michael Bloesch, and Andrew J. Davison.Task-embedded control networks for few-shot imitation learning.ArXiv, abs/1810.03237, 2018.
Jang et al. [2022]↑Eric Jang, Alex Irpan, Mohi Khansari, Daniel Kappler, Frederik Ebert, Corey Lynch, Sergey Levine, and Chelsea Finn.Bc-z: Zero-shot task generalization with robotic imitation learning.In Conference on Robot Learning, 2022.
Jauhri et al. [2022]↑Snehal Jauhri, Jan Peters, and Georgia Chalvatzaki.Robot learning of mobile manipulation with reachability behavior priors.IEEE Robotics and Automation Letters, 2022.
Johns [2021a]↑Edward Johns.Coarse-to-fine imitation learning: Robot manipulation from a single demonstration.2021 IEEE International Conference on Robotics and Automation (ICRA), pages 4613–4619, 2021a.
Johns [2021b]↑Edward Johns.Coarse-to-fine imitation learning: Robot manipulation from a single demonstration.In 2021 IEEE international conference on robotics and automation (ICRA), pages 4613–4619. IEEE, 2021b.
Johnson et al. [2015]↑Matthew Johnson, Brandon Shrewsbury, Sylvain Bertrand, Tingfan Wu, Daniel Duran, Marshall Floyd, Peter Abeles, Douglas Stephen, Nathan Mertins, Alex Lesman, et al.Team ihmc’s lessons learned from the darpa robotics challenge trials.Journal of Field Robotics, 2015.
Khatib et al. [1996]↑Oussama Khatib, K Yokoi, K Chang, D Ruspini, R Holmberg, A Casal, and A Baader.Force strategies for cooperative tasks in multiple mobile manipulation systems.In Robotics Research: The Seventh International Symposium, 1996.
Kim et al. [2013]↑Doik Kim, Bum-Jae You, and Sang-Rok Oh.Whole body motion control framework for arbitrarily and simultaneously assigned upper-body tasks and walking motion.Modeling, Simulation and Optimization of Bipedal Walking, 2013.
Kim et al. [2022]↑Heecheol Kim, Yoshiyuki Ohmura, and Yasuo Kuniyoshi.Robot peels banana with goal-conditioned dual-action deep imitation learning.ArXiv, abs/2203.09749, 2022.
Kober and Peters [2009]↑Jens Kober and Jan Peters.Learning motor primitives for robotics.In 2009 IEEE International Conference on Robotics and Automation, 2009.
Krotkov et al. [2018]↑Eric Krotkov, Douglas Hackett, Larry Jackel, Michael Perschbacher, James Pippine, Jesse Strauss, Gill Pratt, and Christopher Orlowski.The darpa robotics challenge finals: Results and perspectives.The DARPA Robotics Challenge Finals: Humanoid Robots To The Rescue, 2018.
Lynch et al. [2020]↑Corey Lynch, Mohi Khansari, Ted Xiao, Vikash Kumar, Jonathan Tompson, Sergey Levine, and Pierre Sermanet.Learning latent plans from play.In Conference on robot learning, pages 1113–1132. PMLR, 2020.
Ma et al. [2022]↑Yuntao Ma, Farbod Farshidian, Takahiro Miki, Joonho Lee, and Marco Hutter.Combining learning-based locomotion policy with model-based manipulation for legged mobile manipulators.IEEE Robotics and Automation Letters, 2022.
Mandlekar et al. [2021]↑Ajay Mandlekar, Danfei Xu, J. Wong, Soroush Nasiriany, Chen Wang, Rohun Kulkarni, Li Fei-Fei, Silvio Savarese, Yuke Zhu, and Roberto Mart’in-Mart’in.What matters in learning from offline human demonstrations for robot manipulation.In Conference on Robot Learning, 2021.
Nair et al. [2022]↑Suraj Nair, Aravind Rajeswaran, Vikash Kumar, Chelsea Finn, and Abhinav Gupta.R3m: A universal visual representation for robot manipulation.arXiv preprint arXiv:2203.12601, 2022.
Octo Model Team et al. [2023]↑Octo Model Team, Dibya Ghosh, Homer Walke, Karl Pertsch, Kevin Black, Oier Mees, Sudeep Dasari, Joey Hejna, Charles Xu, Jianlan Luo, Tobias Kreiman, You Liang Tan, Dorsa Sadigh, Chelsea Finn, and Sergey Levine.Octo: An open-source generalist robot policy.https://octo-models.github.io, 2023.
Paraschos et al. [2018]↑Alexandros Paraschos, Christian Daniel, Jan Peters, and Gerhard Neumann.Using probabilistic movement primitives in robotics.Autonomous Robots, 42:529–551, 2018.
Pari et al. [2021]↑Jyothish Pari, Nur Muhammad Shafiullah, Sridhar Pandian Arunachalam, and Lerrel Pinto.The surprising effectiveness of representation learning for visual imitation.arXiv preprint arXiv:2112.01511, 2021.
Pastor et al. [2009]↑Peter Pastor, Heiko Hoffmann, Tamim Asfour, and Stefan Schaal.Learning and generalization of motor skills by learning from demonstration.2009 IEEE International Conference on Robotics and Automation, pages 763–768, 2009.
Penco et al. [2019]↑Luigi Penco, Nicola Scianca, Valerio Modugno, Leonardo Lanari, Giuseppe Oriolo, and Serena Ivaldi.A multimode teleoperation framework for humanoid loco-manipulation: An application for the icub robot.IEEE Robotics & Automation Magazine, 2019.
Peternel and Babič [2013]↑Luka Peternel and Jan Babič.Learning of compliant human–robot interaction using full-body haptic interface.Advanced Robotics, 2013.
Pomerleau [1988]↑Dean A. Pomerleau.Alvinn: An autonomous land vehicle in a neural network.In NIPS, 1988.
Purushottam et al. [2023]↑Amartya Purushottam, Yeongtae Jung, Christopher Xu, and Joao Ramos.Dynamic mobile manipulation via whole-body bilateral teleoperation of a wheeled humanoid.arXiv preprint arXiv:2307.01350, 2023.
Radosavovic et al. [2022]↑Ilija Radosavovic, Tete Xiao, Stephen James, Pieter Abbeel, Jitendra Malik, and Trevor Darrell.Real-world robot learning with masked visual pre-training.CoRL, 2022.
Radosavovic et al. [2023]↑Ilija Radosavovic, Baifeng Shi, Letian Fu, Ken Goldberg, Trevor Darrell, and Jitendra Malik.Robot learning with sensorimotor pre-training.arXiv preprint arXiv:2306.10007, 2023.
Rahmatizadeh et al. [2017]↑Rouhollah Rahmatizadeh, Pooya Abolghasemi, Ladislau Bölöni, and Sergey Levine.Vision-based multi-task manipulation for inexpensive robots using end-to-end learning from demonstration.2018 IEEE International Conference on Robotics and Automation (ICRA), pages 3758–3765, 2017.
Ramos and Kim [2018]↑Joao Ramos and Sangbae Kim.Humanoid dynamic synchronization through whole-body bilateral feedback teleoperation.IEEE Transactions on Robotics, 2018.
Ronneberger et al. [2015]↑Olaf Ronneberger, Philipp Fischer, and Thomas Brox.U-net: Convolutional networks for biomedical image segmentation.ArXiv, abs/1505.04597, 2015.URL https://api.semanticscholar.org/CorpusID:3719281.
Rosete-Beas et al. [2023]↑Erick Rosete-Beas, Oier Mees, Gabriel Kalweit, Joschka Boedecker, and Wolfram Burgard.Latent plans for task-agnostic offline reinforcement learning.In Conference on Robot Learning, pages 1838–1849. PMLR, 2023.
Schwarz et al. [2021]↑Max Schwarz, Christian Lenz, Andre Rochow, Michael Schreiber, and Sven Behnke.Nimbro avatar: Interactive immersive telepresence with force-feedback telemanipulation.In 2021 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), pages 5312–5319, 2021.
Seo et al. [2023]↑Mingyo Seo, Steve Han, Kyutae Sim, Seung Hyeon Bang, Carlos Gonzalez, Luis Sentis, and Yuke Zhu.Deep imitation learning for humanoid loco-manipulation through human teleoperation.Humanoids, 2023.
Shafiullah et al. [2022]↑Nur Muhammad (Mahi) Shafiullah, Zichen Jeff Cui, Ariuntuya Altanzaya, and Lerrel Pinto.Behavior transformers: Cloning k modes with one stone.ArXiv, abs/2206.11251, 2022.
Shafiullah et al. [2023]↑Nur Muhammad Mahi Shafiullah, Anant Rai, Haritheja Etukuru, Yiqian Liu, Ishan Misra, Soumith Chintala, and Lerrel Pinto.On bringing robots home.arXiv preprint arXiv:2311.16098, 2023.
Shah et al. [2023]↑Dhruv Shah, Ajay Sridhar, Arjun Bhorkar, Noriaki Hirose, and Sergey Levine.Gnm: A general navigation model to drive any robot.In 2023 IEEE International Conference on Robotics and Automation (ICRA), pages 7226–7233. IEEE, 2023.
Shao et al. [2021]↑Lin Shao, Toki Migimatsu, Qiang Zhang, Karen Yang, and Jeannette Bohg.Concept2robot: Learning manipulation concepts from instructions and human demonstrations.The International Journal of Robotics Research, 40(12-14):1419–1434, 2021.
Shi et al. [2023]↑Lucy Xiaoyang Shi, Archit Sharma, Tony Z Zhao, and Chelsea Finn.Waypoint-based imitation learning for robotic manipulation.CoRL, 2023.
Shridhar et al. [2021]↑Mohit Shridhar, Lucas Manuelli, and Dieter Fox.Cliport: What and where pathways for robotic manipulation.ArXiv, abs/2109.12098, 2021.
Shridhar et al. [2022]↑Mohit Shridhar, Lucas Manuelli, and Dieter Fox.Perceiver-actor: A multi-task transformer for robotic manipulation.ArXiv, abs/2209.05451, 2022.
Smith et al. [2019]↑Laura Smith, Nikita Dhawan, Marvin Zhang, Pieter Abbeel, and Sergey Levine.Avid: Learning multi-stage tasks via pixel-level translation of human videos.arXiv preprint arXiv:1912.04443, 2019.
Song et al. [2020]↑Jiaming Song, Chenlin Meng, and Stefano Ermon.Denoising diffusion implicit models.arXiv preprint arXiv:2010.02502, 2020.
Sun et al. [2021]↑Charles Sun, Jedrzej Orbik, Coline Manon Devin, Brian H Yang, Abhishek Gupta, Glen Berseth, and Sergey Levine.Fully autonomous real-world reinforcement learning with applications to mobile manipulation.In Conference on Robot Learning, 2021.
[87]↑Susumu Tachi, Yasuyuki Inoue, and Fumihiro Kato.Telesar vi: Telexistence surrogate anthropomorphic robot vi.International Journal of Humanoid Robotics.
Valassakis et al. [2022]↑Eugene Valassakis, Georgios Papagiannis, Norman Di Palo, and Edward Johns.Demonstrate once, imitate immediately (dome): Learning visual servoing for one-shot imitation learning.In 2022 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 2022.
Wang et al. [2023]↑Chen Wang, Linxi Fan, Jiankai Sun, Ruohan Zhang, Li Fei-Fei, Danfei Xu, Yuke Zhu, and Anima Anandkumar.Mimicplay: Long-horizon imitation learning by watching human play.arXiv preprint arXiv:2302.12422, 2023.
Wong et al. [2022]↑Josiah Wong, Albert Tung, Andrey Kurenkov, Ajay Mandlekar, Li Fei-Fei, Silvio Savarese, and Roberto Martín-Martín.Error-aware imitation learning from teleoperation data for mobile manipulation.In Conference on Robot Learning, 2022.
Wu et al. [2023a]↑Bohan Wu, Roberto Martin-Martin, and Li Fei-Fei.M-ember: Tackling long-horizon mobile manipulation via factorized domain transfer.ICRA, 2023a.
Wu et al. [2023b]↑Jimmy Wu, Rika Antonova, Adam Kan, Marion Lepert, Andy Zeng, Shuran Song, Jeannette Bohg, Szymon Rusinkiewicz, and Thomas Funkhouser.Tidybot: Personalized robot assistance with large language models.IROS, 2023b.
Wyrobek et al. [2008]↑Keenan A Wyrobek, Eric H Berger, HF Machiel Van der Loos, and J Kenneth Salisbury.Towards a personal robotics development platform: Rationale and design of an intrinsically safe personal robot.In 2008 IEEE International Conference on Robotics and Automation, 2008.
Xia et al. [2021]↑Fei Xia, Chengshu Li, Roberto Martín-Martín, Or Litany, Alexander Toshev, and Silvio Savarese.Relmogen: Integrating motion generation in reinforcement learning for mobile manipulation.In 2021 IEEE International Conference on Robotics and Automation (ICRA), 2021.
Xie et al. [2023]↑Annie Xie, Lisa Lee, Ted Xiao, and Chelsea Finn.Decomposing the generalization gap in imitation learning for visual robotic manipulation.arXiv preprint arXiv:2307.03659, 2023.
Xiong et al. [2021]↑Haoyu Xiong, Quanzhou Li, Yun-Chun Chen, Homanga Bharadhwaj, Samarth Sinha, and Animesh Garg.Learning by watching: Physical imitation of manipulation skills from human videos.In 2021 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), pages 7827–7834. IEEE, 2021.
Yang et al. [2022]↑Jingyun Yang, Junwu Zhang, Connor Settle, Akshara Rai, Rika Antonova, and Jeannette Bohg.Learning periodic tasks from human demonstrations.In 2022 International Conference on Robotics and Automation (ICRA), pages 8658–8665. IEEE, 2022.
Yang et al. [2023a]↑Jonathan Heewon Yang, Dorsa Sadigh, and Chelsea Finn.Polybot: Training one policy across robots while embracing variability.In Conference on Robot Learning, pages 2955–2974. PMLR, 2023a.
Yang et al. [2023b]↑Ruihan Yang, Yejin Kim, Aniruddha Kembhavi, Xiaolong Wang, and Kiana Ehsani.Harmonic mobile manipulation.arXiv preprint arXiv:2312.06639, 2023b.
Yang et al. [2023c]↑Taozheng Yang, Ya Jing, Hongtao Wu, Jiafeng Xu, Kuankuan Sima, Guangzeng Chen, Qie Sima, and Tao Kong.Moma-force: Visual-force imitation for real-world mobile manipulation.arXiv preprint arXiv:2308.03624, 2023c.
Yokoyama et al. [2023]↑Naoki Yokoyama, Alexander William Clegg, Eric Undersander, Sehoon Ha, Dhruv Batra, and Akshara Rai.Adaptive skill coordination for robotic mobile manipulation.arXiv preprint arXiv:2304.00410, 2023.
Yu et al. [2018]↑Tianhe Yu, Chelsea Finn, Annie Xie, Sudeep Dasari, Tianhao Zhang, Pieter Abbeel, and Sergey Levine.One-shot imitation from observing humans via domain-adaptive meta-learning.arXiv preprint arXiv:1802.01557, 2018.
Zeng et al. [2020]↑Andy Zeng, Peter R. Florence, Jonathan Tompson, Stefan Welker, Jonathan Chien, Maria Attarian, Travis Armstrong, Ivan Krasin, Dan Duong, Vikas Sindhwani, and Johnny Lee.Transporter networks: Rearranging the visual world for robotic manipulation.In Conference on Robot Learning, 2020.
Zhao et al. [2023]↑Tony Z Zhao, Vikash Kumar, Sergey Levine, and Chelsea Finn.Learning fine-grained bimanual manipulation with low-cost hardware.RSS, 2023.

附录 A 附录

A.1 高五击掌任务

图 5: 高五击掌任务的定义。

图 5 展示了高五击掌任务的示意图。在这个任务中，机器人需要绕过厨房中央的岛台。每当有人从前方走近时，它应停下来与人类击掌。击掌结束后，只有当人类走出它的行进路线时，机器人才继续移动。我们收集了穿着不同服装的数据，并在面对未见过的人和新颖的服饰时对训练好的策略进行评估。虽然这个任务不要求极高的精准度，但它有效展示了移动型 ALOHA 系统在研究人机互动方面的潜力。

A.2 图像观测示例

图 6 展示了收集数据期间捕获的“擦拭酒渍”任务的示例图像。这些图像按时间顺序从上到下排列，展示了三个不同的摄像头角度所捕捉的画面，分别是：顶部第一人称视角摄像头、左手腕摄像头和右手腕摄像头。顶部摄像头相对于机器人的位置是固定的。而手腕摄像头则安装在手臂上，能提供夹持器动作的近景。所有摄像头都设置了固定焦距，并配备自动曝光功能以适应不同光照条件。这些摄像头的视频流分辨率为 480 × 640，帧率为每秒 30 帧。

图 6: “擦拭酒渍”任务的图像观测示例。我们从左至右展示了顶部摄像头、左手腕摄像头和右手腕摄像头捕捉的图像。这些图像依时间先后顺序从上至下排列。

A.3 实验细节及 ACT、扩散策略和 VINN 的超参数

为了精确调整基准，我们列出了基准和共同训练的超参数，详情见表 5、6、7、8、9。

从 Mobile ALOHA 数据中的抽样概率	0.5
从 ALOHA 数据中的抽样概率	0.5

表 5:共训练的超参数。

学习率	2e-5
批次大小	16
编码层数量	4
解码层数量	7
前馈网络维度	3200
隐藏层维度	512
多头注意力头数	8
数据块大小	45
β 参数	10
Dropout 比率	0.1
网络模型	预训练的 ResNet18[40]

表 6:ACT 超参数。

学习率	1e-4
批次大小	32
数据块大小	64
调度器类型	DDIM[85]
训练和测试时的扩散步数	50, 10
EMA 系数	0.75
网络模型	预训练的 ResNet18[40]
噪声预测模型	UNet[73]
图像增强方法	随机裁剪（比例=0.95）、颜色抖动（亮度=0.3、对比度=0.4、饱和度=0.5）、随机旋转（角度区间=[-5.0, 5.0]）

表 7:扩散策略超参数。

学习率	3e-4
批大小	128
周期	100
动量	0.9
权重衰减	1.5e-6

表 8: BYOL 的超参数，作为 VINN 特征提取器。

k (最近邻)	以最低验证损失选择
分块大小	100
状态权重	5
相机特征权重	1:1:1 (分别用于前臂、左臂和右臂)

表 9: VINN 结合分块技术的超参数。

A.4 开环重放误差

图 7 展示了重放一个 300 步骤（6 秒）演示的末端的执行器 (end-effector) 误差分布。演示中包括了一个直径约为 1 米的 180 度转弯动作。在轨迹结束时，右臂会伸向桌上的一张纸并轻轻敲击它。敲击位置随后在纸上被标记。红色十字标记了原始的敲击位置，而红点表示同一轨迹重放 20 次的结果。我们观察到，在重放基础速度时出现了显著的误差，这是由地面接触和底层控制器的不确定性所导致的。具体而言，所有重放点都偏离原点约 10 厘米，并沿一个大约 20 厘米长的线分布。我们发现，即使没有使用如 SLAM 这样的显式定位技术，我们的策略也能有效纠正这类误差。

图 7: 开环重放误差。我们在一张纸上标记了原始演示 (红十字) 的右臂末端执行器位置和同一演示重放 20 次的结果 (红点)。

Mobile ALOHA: 利用低成本全身远程操作系统学习复杂的双手移动操作技能 [译]

1 引言