Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Gemini Robotics – 谷歌 DeepMind 推出的具身智能大模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > Gemini Robotics – 谷歌 DeepMind 推出的具身智能大模型
AIGC 资讯

Gemini Robotics – 谷歌 DeepMind 推出的具身智能大模型

站外新闻
最近更新: 2026年6月8日 上午10:18
SHARE

Gemini Robotics是什么

Gemini Robotics 是谷歌 DeepMind 推出的基于 Gemini 2.0 的机器人项目,将大型多模态模型的能力引入物理世界。项目包含两个主要模型:Gemini Robotics-ER 和 Gemini Robotics。Gemini Robotics-ER 是增强版的视觉-语言模型(VLM),具备强大的具身推理能力,支持理解三维空间、物体检测、指向、轨迹和抓取预测等任务。Gemini Robotics 是视觉-语言-动作(VLA)模型,支持直接控制机器人完成复杂的操作任务,表现出对物体类型和位置变化的鲁棒性,执行开放词汇指令。基于进一步的微调,Gemini Robotics 能解决长时域、高灵活性的任务(如折纸或玩牌),快速适应新任务和机器人形态。

阅读目录
  • Gemini Robotics是什么
  • Gemini Robotics的主要功能
  • Gemini Robotics的技术原理
  • Gemini Robotics的项目地址
  • Gemini Robotics的应用场景

Gemini Robotics

Gemini Robotics的主要功能

  • 智能对话与问答复杂任务的执行:
    • 高灵活性任务:如折纸、玩牌、使用工具等。
    • 长时域任务:如打包午餐盒、制作三明治等多步骤任务。
    • 精细操作:如使用镊子夹取小物体、拧紧瓶盖等。
  • 强大的视觉和语言理解能力:
    • 视觉理解:识别和定位场景中的物体,支持多视角理解、3D 空间推理和物体检测。
    • 语言理解:理解自然语言指令,执行开放词汇任务。
  • 环境适应与泛化能力:
    • 视觉泛化:对场景中的背景、光照和干扰物体变化具有鲁棒性。
    • 动作泛化:适应物体位置变化和不同物体实例的操作。
    • 指令泛化:理解指令的不同表达方式(如不同语言、带有拼写错误的指令)。

Gemini Robotics的技术原理

  • Gemini 2.0 基础模型:基于 Gemini 2.0 扩展。Gemini 2.0 为 Gemini Robotics 提供强大的视觉和语言理解能力。
  • 具身推理:Gemini Robotics-ER 是 Gemini Robotics 的扩展版本,专注于具身推理能力。支持理解物理世界中的三维空间、物体关系和运动轨迹。
  • 视觉-语言-动作(VLA)模型:
    • 视觉输入:通过摄像头获取场景图像,识别物体和环境。
    • 语言指令:理解自然语言指令,将其转化为具体的机器人动作。
    • 动作输出:生成机器人的动作指令,实现复杂任务的执行。
  • 数据驱动的训练:
    • 机器人动作数据:基于真实机器人的操作数据,学习如何执行各种任务。
    • 非机器人数据:如网络图像、文本、视频等,提供丰富的背景知识和泛化能力。
  • 架构设计:
    • 云端 VLA 主干网络:负责处理复杂的视觉和语言推理任务。
    • 本地动作解码器:运行在机器人本地,负责实时生成动作指令,确保低延迟和高响应性。

Gemini Robotics的项目地址

  • 项目官网:https://deepmind.google/discover/blog/gemini-robotics
  • 技术论文:https://storage.googleapis.com/deepmind-media/gemini-robotics

Gemini Robotics的应用场景

  • 工业制造:用在复杂装配、质量检测和修复,提高生产效率和精度。
  • 物流仓储:实现货物分拣、包装和装卸自动化,提升物流效率。
  • 家庭服务:协助家务劳动,如整理、清洁和照顾老年人或残疾人。
  • 医疗健康:辅助康复训练和手术操作,支持医疗流程。
  • 教育科研:作为教育工具和科研助手,支持教学和实验操作。
Emotion-LLaMA – 多模态情绪识别与推理模型,融合音频、视觉和文本输入
明岐 – 上海交大推出的医学多模态大模型,精准诊断罕见病
DITTO-2 – Adobe 联合加大推出的音乐生成模型
阿里达摩院开源机器人上下文协议RynnRCP:打通具身智能开发全流程的关键框架
XMusic – 腾讯多媒体实验室自主研发的AI通用作曲框架
分享
Email 复制链接 打印
Share
上一篇 Orpheus TTS – 开源AI语音合成系统,支持多种语音风格
下一篇 AVD2 – 清华联合复旦等机构推出的自动驾驶事故视频理解与生成框架
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

快手OneRec:颠覆传统推荐!端到端生成式AI系统引爆观看时长与GMV
AI 工具 AIGC 资讯
Kimi-Researcher:月之暗面端到端强化学习Agent,深度研究基准测试超Claude 4 Opus
AI 工具 AIGC 资讯
华为盘古大模型5.5震撼发布:7180亿参数Ultra MoE领衔,五大模型重塑产业智能
AI 工具 AIGC 资讯
腾讯清华重磅开源MindOmni:强化学习驱动的多模态推理生成模型,重塑视觉AI边界
AI 工具 AIGC 资讯

相关推荐

AI 工具AIGC 资讯

MiniMax Music 1.5 AI音乐生成模型:4分钟高质量作曲,解锁专业级人声与编曲新纪元

站外新闻
AIGC AI音乐生成模型 MiniMax Music 1.5 虚拟偶像 音乐AI
AI 工具AIGC 资讯

蚂蚁Ming-Flash-Omni 2.0开源:100B参数全模态大模型重塑多模态AI格局

站外新闻
AIGC Ming-Flash-Omni 2.0 MoE架构 全模态大模型 多模态AI
AIGC 资讯

Skywork-VL Reward – Skywork AI开源的多模态奖励模型

站外新闻
AIGC 资讯

GPT‑5.4 – OpenAI推出面向专业工作的旗舰AI模型

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI绘画 AI编程 AI编程助手 AI编程工具 AI编程模型 AI视频生成 AI音乐生成 Anthropic chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax MoE架构 MoE模型 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 清华大学 知识管理 科大讯飞 端侧AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.