Prompt 语宙Prompt 语宙
  • 首页
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • Remaker AI
    • Free Image Splitter
    • AIGC 工具
    • Prompt 咒语生成器
  • 社区
    • 知识星球
    • 公众号
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 构建全球通用机器人大脑的宏伟项目 [译]
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • Remaker AI
    • Free Image Splitter
    • AIGC 工具
    • Prompt 咒语生成器
  • 社区
    • 知识星球
    • 公众号
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > 强化 AI 学习 > 构建全球通用机器人大脑的宏伟项目 [译]
强化 AI 学习

构建全球通用机器人大脑的宏伟项目 [译]

宝玉的分享
最近更新: 2024年9月25日 下午12:16
SHARE

34 个实验室携手共同解决机器人学习难题

来自世界各地的机器人,例如谷歌的这台机器人,正共享操作物体的数据,助力实现一个通用的机器人大脑梦想。开放式 X-实体协作
来自世界各地的机器人,例如谷歌的这台机器人,正共享操作物体的数据,助力实现一个通用的机器人大脑梦想。开放式 X-实体协作

阅读目录
34 个实验室携手共同解决机器人学习难题如何打造一个全能型机器人打造能进行推理的机器人RT-X 的未来步伐

生成式 AI 革命 的显著成果体现在 ChatGPT、Midjourney 等工具上。这一革命的核心,是基于这样一个简单的思路:使用一个庞大的神经网络,用互联网上海量的数据进行训练,然后用它来响应广泛的用户需求。大型语言模型(LLM)可以回答问题、编写代码、创作诗歌,而图像生成系统则能够创造出逼真的洞穴壁画或当代艺术作品。

那么,为什么这些令人惊叹的 AI 技术还没有转化为像科幻小说中那样有用且广泛应用的机器人?为什么还没有能够整理桌面、折叠衣服、做早餐的机器人呢?

遗憾的是,成功的生成式 AI 模式——即使用海量互联网数据训练的大型模型——并不容易应用到机器人学领域。互联网上的数据并不像文本和图像那样充满了机器人交互信息。机器人需要基于机器人数据来学习,而这些数据通常是实验室研究人员针对特定任务缓慢且费力地创造的。尽管机器人学习算法取得了巨大进步,但在缺乏充足数据的情况下,我们仍无法让机器人在实验室之外执行真实世界的任务(比如制作早餐)。目前最引人注目的成果,通常只限于在单个实验室、单一机器人上实现,且仅涉及几种行为。

如果每台机器人的能力都受限于手动教授它执行新任务所需的时间和努力,那么如果我们能将多个机器人的经验汇集在一起,让新机器人能够同时从所有机器人那里学习,会怎样呢?我们决定尝试这种方法。2023 年,我们在谷歌和加州大学伯克利分校的实验室联手北美、欧洲和亚洲的其他 32 个机器人学实验室共同启动了RT-X 项目,目标是汇集数据、资源和代码,努力实现通用机器人的梦想。

这是我们从这项努力的第一阶段中学到的经验。

如何打造一个全能型机器人

相比之下,人类在这类学习上要更加擅长。我们的大脑只需少量练习,就能适应身体结构的变化,比如当我们使用工具、骑自行车或开车时。换句话说,虽然我们的身体结构发生变化,但大脑能迅速适应。RT-X 正在努力在机器人领域实现类似的目标:使得一个深度学习网络能够控制多种不同的机器人类型,这一能力被称为跨类型控制。关键问题是,一个接受了大量不同机器人数据训练的深度学习网络是否能够掌握“操作”所有这些机器人的技能,哪怕这些机器人在外观、物理特性和能力上有很大差异。如果可行,这种方法可能会大幅提升机器人学习领域对大数据的利用。

RT-X 项目的规模宏大,这是出于必要。该项目的数据集目前已包含近百万次的机器人测试,涵盖了 22 种类型的机器人,包括市场上一些最常用的机械臂。这些机器人能够执行包括拾取放置物体、组装及专门任务如电缆布线在内的多种行为。总共大约有 500 种不同的技能和成千上万种不同物体的交互。这是迄今为止最大的开源真实机器人行为数据集。

出乎意料的是,我们发现可以用相对简单的机器学习方法来处理这些多机器人数据,前提是我们使用了大型的神经网络模型和大规模的数据集。借鉴目前大型语言模型(例如 ChatGPT)所用的类似模型,我们成功训练出了一种机器人控制算法,这种算法不需要为实现跨类型控制而特别设计任何特性。就像人类可以用同一颗大脑驾驶汽车或骑自行车一样,一个在 RT-X 数据集上训练过的模型,能够简单地通过机器人自身相机的观察来识别它正在控制的机器人类型。比如,当模型通过相机看到一个 UR10 工业臂时,它会发送适合 UR10 的指令;而当看到一个成本较低的 WidowX 爱好者臂时,则会做出相应的操作。

为了验证我们模型的能力,参与 RT-X 项目合作的五个实验室各自使用我们的模型,与他们为各自机器人独立开发的最佳控制系统进行了对比测试。每个实验室的测试涉及其研究中使用的任务,例如拾取和移动物品、开门以及通过夹子布线等。令人称奇的是,这个统一的模型在各项任务上的表现都超过了各实验室自行开发的最佳方法,平均成功率高出约 50%。

尽管这个结果可能令人惊讶,但我们发现,RT-X 控制器可以利用其他机器人在不同环境下的丰富经验,来提高在各种设置中的鲁棒性。即使在同一个实验室内,每次机器人执行任务时,都会遇到略有不同的情况,因此借鉴其他机器人在不同情况下的经验,有助于 RT-X 控制器应对自然变化和边缘情况。以下是这些任务范围的几个示例:

打造能进行推理的机器人

受到我们成功整合多种机器人类型数据的启发,我们进一步探索了如何把这些数据融入到具备更深层次推理能力的系统中。仅凭机器人数据来学习复杂的语义推理是非常困难的。尽管机器人数据能展现一系列物理能力,但更复杂的任务,比如“把苹果从罐子和橙子之间移开”,还需要理解图像中物体间的语义联系、基本常识,以及其他与机器人物理能力无直接关联的象征性知识。

因此,我们决定加入另一个庞大的数据源:互联网规模的图像和文本数据。我们使用了一种已经擅长理解自然语言与图像之间联系的任务的大型视觉语言模型。这种模型与 ChatGPT 或Bard等公众可用的模型相似。这些模型被训练用来对包含图像的提示做出文本回应,以解决视觉问答、图像标注等开放式视觉理解任务。我们发现,只需将这些模型训练为对机器人指令(如“把香蕉放在盘子上”)作出机器人动作的回应,就能轻松将它们适配到机器人控制中。我们将这种方法应用在了 RT-X 合作项目中的机器人数据上。

右侧展示了机器人任务和地图的插图。
右侧展示了机器人任务和地图的插图。

RT-X 模型利用特定机器人手臂执行不同任务的图像或文本描述,产生一系列具体动作,使任何机器人手臂都能够执行这些任务。我们收集了来自世界各地机器人实验室的众多机器人执行的各种任务数据,构建了一个开源数据集,目的是训练机器人执行通用而有用的任务。CHRIS PHILPOT

为了评估互联网获取的智能与多机器人数据的结合效果,我们使用谷歌的移动操纵机器人对 RT-X 模型进行了测试。我们对其进行了最具挑战性的泛化基准测试。机器人不仅要识别物体并成功操控它们,还要能够理解复杂的文本命令,并通过逻辑推断来响应,这要求综合文本和图像中的信息。这种综合能力是人类成为出色的通用解决者的关键之一。我们是否能赋予机器人至少一些这样的能力?

我们进行了两轮评估。首先,我们使用了一个基准模型,排除了所有不涉及谷歌机器人的泛化多机器人 RT-X 数据。谷歌机器人专用的数据集实际上是 RT-X 数据集中最大的部分,包含超过 100,000 个演示。因此,这些其他多机器人数据是否真的有助于本案例还是一个未知数。随后,我们包含所有这些多机器人数据再次进行了测试。

在最具挑战性的评估场景之一中,谷歌机器人需要完成一个涉及空间关系推理的任务(“把苹果移动到罐头和橙子之间”);在另一个任务中,它需要解决基本的数学问题(“把一个物体放在写有‘2+3’答案的纸上”)。这些挑战旨在测试机器人的推理能力和得出结论的关键技能。

在这个案例中,推理能力(比如理解“在……之间”和“在……上方”这样的概念)来源于视觉 – 语言模型训练时包含的大规模网络数据。而使得这些推理成果能够在机器人行为上得到应用——也就是发出正确的指令,驱动机器人手臂移动到指定方向——的能力,则是通过在 RT-X 的多机器人数据上训练得来的。例如,在下面的视频中,我们让机器人完成了一个它训练数据中没有包含的任务。

即便没有接受过特定训练,这个谷歌研究机器人也能根据指令“把苹果移动到罐子和橙子之间”。这种能力是由 RT-X 提供的,这是一个庞大的机器人操控数据集,也是通向通用机器人大脑的第一步。

尽管这些任务对人类而言非常基础,但对通用机器人来说却是一大挑战。如果没有明确展示“在……之间”、“靠近”和“在……上方”等概念的机器人演示数据,即使是在众多不同机器人数据上进行训练的系统也难以理解这些指令的含义。通过整合视觉 – 语言模型中的大规模网络知识,我们的整体系统能够解决这类问题。它从网络规模的训练中提取出语义概念(本案例中为空间关系),并从多机器人的 RT-X 数据中学习物理行为(比如拾起和移动物体)。出乎意料的是,我们发现引入多机器人数据使得谷歌机器人在这类任务上的泛化能力提高了三倍。这一结果表明,多机器人 RT-X 数据不仅有助于获取各种物理技能,还能更好地将这些技能与视觉 – 语言模型中的语义和符号知识结合起来。这种结合赋予了机器人一定程度的常识,未来可能使机器人能够理解像“给我拿早餐”这样复杂而微妙的用户指令,并执行相应的行动。

RT-X 的未来步伐

RT-X 项目向我们展示了机器人学习社区齐心协力的巨大潜力。通过这种跨机构合作,我们成功构建了一个包含多样化机器人数据的数据集,并在多个机器人上进行了全面评估——这是任何单独机构所无法实现的。鉴于机器人学社区无法仅靠网络数据进行训练,我们必须自行创造训练数据。我们期待更多研究者能够向 RT-X 数据库 贡献他们的数据,并加入这一合作行列。我们还计划提供工具、模型和基础设施,支持跨不同载体的研究。我们的目标不仅仅是实现实验室间数据的共享,更希望 RT-X 能成为推动数据标准、可复用模型以及新技术和算法发展的协作平台。

我们早期的成果预示着大型跨载体机器人模型将如何革新这一领域。正如大语言模型精通各种基于语言的任务,未来我们或许可以用一个统一的基础模型来处理多种现实世界中的机器人任务。可能通过微调或直接对一个预训练的基础模型进行指令输入,就能实现新的机器人技能。就像你可以直接让 ChatGPT 讲故事而不需要先对其进行特定故事的训练,类似地,你可以让一个机器人在蛋糕上写“生日快乐”,而无需先教它如何使用裱花袋或手写文字的样式。当然,为了让这些模型拥有更广泛的通用能力,我们还需要做更多的研究。目前我们的实验主要集中在单臂、两指夹持器进行的简单操控任务上。

随着更多实验室投身于跨载体研究,我们希望推动单一神经网络控制多种机器人的边界。这些进步可能包括利用来自虚拟环境的多样化模拟数据、处理具有不同手臂或手指数量的机器人、使用各种传感器(如深度相机和触觉感应器)以及整合操控和移动行为。RT-X 已经为这些工作铺平了道路,但最激动人心的技术进展还在前方等待着我们。

这只是开始。我们希望通过这一步,共同开启机器人学的新未来:在这个未来里,通用的机器人大脑能够驱动任何机器人,从全球所有机器人共享的数据中受益。这样,我们将一同塑造一个机器人技术的新纪元,其中高度通用的机器人大脑能为世界各地的各种机器人提供智能支持。

在你找到金矿之前,别急着建造矿井 [译]
AI 泡沫:光明还是灰烬? [译]
ChatGPT 中的 GPT Builder 是用来做什么的,我们为什么要开发它?以及它的 Prompt 是什么?[译]
谷歌 Deepmind 发布首个生成式交互环境模型 Genie [译]
山寨、收购和消灭 – Meta 如何实现科技史上最惊人的战略转变 [译]
分享
Email 复制链接 打印
Share
上一篇 第 174 条款变更对年收入和年劳动成本均为 100 万美元的公司产生的影响。 脉动观察:美国的公司会因为税法第 174 条款而减少招聘工程师吗? [译]
下一篇 在实际应用中进行主题建模 —— 利用 LangChain 把从临时性 Jupyter 笔记本转变为实际生产的模块化服务 [译]
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

图 1: PAIR 框架示意图。在 PAIR 中,攻击者模型与目标语言模型展开对抗,攻击者模型尝试生成能破解目标模型的对抗性提示。生成的提示 P 被输入到目标模型中,以产生响应 R。攻击者模型运用先前的提示和响应,在聊天格式中迭代优化候选提示,并输出一个“改进”值,以促进解释性和逐步推理。
大语言模型的“破解”研究:仅需二十次尝试 [译]
强化 AI 学习
Deep Research 与知识价值:从信息搜索到价值重新定义
强化 AI 学习
什么是多模态大语言模型(MLLM)?[译]
强化 AI 学习
比尔·盖茨:特朗普、马斯克,以及我的神经多样性如何塑造了我 [译]
强化 AI 学习

相关推荐

强化 AI 学习

2023 年创业公司成长的 10 个经验教训 [译]

宝玉的分享
强化 AI 学习

为何你不应该成为经理的 17 个理由 [译]

宝玉的分享
随着阿秒级软 X 射线脉冲技术的发展,X 射线吸收光谱学(一种用于材料分析的重要工具)也得到了显著的提升。这些短暂的脉冲可以一次性分析材料的完整电子结构,这一突破性成果由 ICFO 团队实现。最近的研究显示,通过光与物质的相互作用,可以调控石墨的导电性,展现出在光子电路和光计算领域的应用潜力。光谱学的这一进步为研究材料内部复杂的多体动力学提供了新的方法,这在现代物理学中是一个关键的挑战。来源:SciTechDaily.com
强化 AI 学习

石墨的量子飞跃:阿秒科学引领通向超导性的新路径 [译]

宝玉的分享
1次查看
强化 AI 学习

OpenAI 官方提示工程指南 [译]

宝玉的分享
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

3D AI AIGC AI人像 AI创作小助手 AI工具 AI换脸 AI海报设计 AI生成视频 AI绘画 AI视频 AI设计 app图标 chatgpt DALL-E3 excel GPT meta Midjourney openai Pika prompt runway SDXL stable diffusion UI设计 专业 丛林 乐高 人像 人物 光晕 动物 吉卜力 咒语 图标设计 圣诞 壁纸 女性 奶牛 实验室 宠物 客厅 室内设计 家居 局部重绘 展台 山景 帅哥 建筑 建筑设计 影谱科技 微摄影 怪物 提示词 摄影 教程 新闻 日本排放核污水 早报 星光 枯木 植物 模特 水果 泳池 海报 海报设计 清华大学 温馨的家 游戏 游戏美术 炫光 炫彩 玻璃 白茶花 矢量插画 研究报告 破碎 科幻 穿搭 窗 美食 背景 节日 芭比 花 花卉 茶园一角 草原 荷兰奶源 表情包 赛博朋克 超现实主义 软件 运动 金毛 风景 食物 香水
Prompt 语宙Prompt 语宙
Follow US
© 2009-2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Welcome Back!

Sign in to your account

Username or Email Address
Password

忘记密码