Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Gemini Robotics – 谷歌 DeepMind 推出的具身智能大模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > Gemini Robotics – 谷歌 DeepMind 推出的具身智能大模型
AIGC 资讯

Gemini Robotics – 谷歌 DeepMind 推出的具身智能大模型

站外新闻
最近更新: 2026年6月8日 上午10:18
SHARE

Gemini Robotics是什么

Gemini Robotics 是谷歌 DeepMind 推出的基于 Gemini 2.0 的机器人项目,将大型多模态模型的能力引入物理世界。项目包含两个主要模型:Gemini Robotics-ER 和 Gemini Robotics。Gemini Robotics-ER 是增强版的视觉-语言模型(VLM),具备强大的具身推理能力,支持理解三维空间、物体检测、指向、轨迹和抓取预测等任务。Gemini Robotics 是视觉-语言-动作(VLA)模型,支持直接控制机器人完成复杂的操作任务,表现出对物体类型和位置变化的鲁棒性,执行开放词汇指令。基于进一步的微调,Gemini Robotics 能解决长时域、高灵活性的任务(如折纸或玩牌),快速适应新任务和机器人形态。

阅读目录
  • Gemini Robotics是什么
  • Gemini Robotics的主要功能
  • Gemini Robotics的技术原理
  • Gemini Robotics的项目地址
  • Gemini Robotics的应用场景

Gemini Robotics

Gemini Robotics的主要功能

  • 智能对话与问答复杂任务的执行:
    • 高灵活性任务:如折纸、玩牌、使用工具等。
    • 长时域任务:如打包午餐盒、制作三明治等多步骤任务。
    • 精细操作:如使用镊子夹取小物体、拧紧瓶盖等。
  • 强大的视觉和语言理解能力:
    • 视觉理解:识别和定位场景中的物体,支持多视角理解、3D 空间推理和物体检测。
    • 语言理解:理解自然语言指令,执行开放词汇任务。
  • 环境适应与泛化能力:
    • 视觉泛化:对场景中的背景、光照和干扰物体变化具有鲁棒性。
    • 动作泛化:适应物体位置变化和不同物体实例的操作。
    • 指令泛化:理解指令的不同表达方式(如不同语言、带有拼写错误的指令)。

Gemini Robotics的技术原理

  • Gemini 2.0 基础模型:基于 Gemini 2.0 扩展。Gemini 2.0 为 Gemini Robotics 提供强大的视觉和语言理解能力。
  • 具身推理:Gemini Robotics-ER 是 Gemini Robotics 的扩展版本,专注于具身推理能力。支持理解物理世界中的三维空间、物体关系和运动轨迹。
  • 视觉-语言-动作(VLA)模型:
    • 视觉输入:通过摄像头获取场景图像,识别物体和环境。
    • 语言指令:理解自然语言指令,将其转化为具体的机器人动作。
    • 动作输出:生成机器人的动作指令,实现复杂任务的执行。
  • 数据驱动的训练:
    • 机器人动作数据:基于真实机器人的操作数据,学习如何执行各种任务。
    • 非机器人数据:如网络图像、文本、视频等,提供丰富的背景知识和泛化能力。
  • 架构设计:
    • 云端 VLA 主干网络:负责处理复杂的视觉和语言推理任务。
    • 本地动作解码器:运行在机器人本地,负责实时生成动作指令,确保低延迟和高响应性。

Gemini Robotics的项目地址

  • 项目官网:https://deepmind.google/discover/blog/gemini-robotics
  • 技术论文:https://storage.googleapis.com/deepmind-media/gemini-robotics

Gemini Robotics的应用场景

  • 工业制造:用在复杂装配、质量检测和修复,提高生产效率和精度。
  • 物流仓储:实现货物分拣、包装和装卸自动化,提升物流效率。
  • 家庭服务:协助家务劳动,如整理、清洁和照顾老年人或残疾人。
  • 医疗健康:辅助康复训练和手术操作,支持医疗流程。
  • 教育科研:作为教育工具和科研助手,支持教学和实验操作。
OpenAI发布GPT-5.5:编程、科研、办公全面超越,AI智能体时代加速到来
告别排队!腾讯ima Copilot全面开放,知识技能共享生态引爆AIGC新潮流
QVQ-Max – 阿里通义推出的视觉推理模型
SpatialVLA – 上海 AI Lab 联合上科大等推出的空间具身通用操作模型
HeyGen CLI:释放AI生产力,用自然语言直接调用API生成数字人视频
分享
Email 复制链接 打印
Share
上一篇 Orpheus TTS – 开源AI语音合成系统,支持多种语音风格
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

Orpheus TTS – 开源AI语音合成系统,支持多种语音风格
AIGC 资讯
Spatial-RAG – 埃默里大学等机构推出的空间推理能力框架
AIGC 资讯
Speech-02 – MiniMax 推出的新一代文本转语音模型
AIGC 资讯
Dolphin – 清华联合海天瑞声推出的语音识别大模型
AIGC 资讯

相关推荐

全息流体渐变通用占位特色图
AIGC 资讯

从基本变量预测到复杂现象死磕!全球海洋现象智能预报大模型“琅琊”2. 0 正式发布

站外新闻
AIGC 资讯

​腾讯与人大高瓴联合推出开源规划评测框架 PlanningBench

站外新闻
AIGC 资讯

Gemma 4 12B – 谷歌开源的多模态大模型

站外新闻
AIGC 资讯

Top five Romantic Vacation Destinations

lilizhu
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AGI AI AI Agent AIGC AI商业化 AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI生成内容 AI监管 AI绘画 AI编程 AI编程工具 AI编程智能体 AI芯片 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenRouter Pika prompt SpaceX stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多模态 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源大模型 开源工具 开源框架 开源模型 强化学习 微软 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 联想 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.