Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 小米开源首代机器人VLA大模型Xiaomi-Robotics-0:47亿参数MoT架构,实现实时流畅控制
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 小米开源首代机器人VLA大模型Xiaomi-Robotics-0:47亿参数MoT架构,实现实时流畅控制
AI 工具AIGC 资讯

小米开源首代机器人VLA大模型Xiaomi-Robotics-0:47亿参数MoT架构,实现实时流畅控制

站外新闻
最近更新: 2026年6月7日 下午8:06
VLA大模型 Xiaomi-Robotics-0 具身智能 小米开源 机器人大模型
SHARE

💡 站外导读:具身智能(Embodied AI)正成为人工智能的下一个突破焦点,但机器人“大脑”与“小脑”的高效协同、以及实时控制中的延迟卡顿问题,始终是阻碍其从实验室走向真实世界的关键瓶颈。传统模型要么理解力强但控制粗糙,要么控制精准但反应迟缓,难以满足复杂任务需求。这导致机器人落地场景受限,商业潜力未被充分释放。

Xiaomi-Robotics-0是什么

Xiaomi-Robotics-0是小米开源的首代机器人VLA(视觉-语言-动作)大模型,拥有47亿参数,采用MoT混合架构,Qwen3-VL多模态模型作为”大脑”理解视觉语言指令,Diffusion Transformer作为”小脑”生成高频动作块。创新性地引入异步执行与Λ-shape注意力掩码,解决推理延迟导致的动作卡顿,实现消费级显卡上的实时流畅控制。在LIBERO、CALVIN等仿真基准测试中刷新SOTA,成功应用于积木拆解、毛巾折叠等真机双臂操作任务。

阅读目录
  • Xiaomi-Robotics-0是什么
  • Xiaomi-Robotics-0的主要功能
  • Xiaomi-Robotics-0的技术原理
  • Xiaomi-Robotics-0的项目地址
  • Xiaomi-Robotics-0的应用场景
      • 📝 站长洞察 (Editor’s Insight)

Xiaomi-Robotics-0-

Xiaomi-Robotics-0的主要功能

  • 自然语言理解:模型能解析人类模糊指令,从视觉输入中识别空间关系与操作意图。
  • 动作生成控制:模型能输出高频平滑的动作序列,驱动机器人完成精确物理操作。
  • 实时异步执行:支持推理与执行并行,消除延迟卡顿,保障动作连贯流畅。
  • 双臂协同操作:支持双手配合完成积木拆解、毛巾折叠等复杂长周期任务。
  • 自适应策略调整:模型能在抓取失败或环境变化时,自动切换动作策略灵活应对。
  • 多模态能力保持:模型保留了视觉问答、物体检测等通用理解能力,防止灾难性遗忘。

Xiaomi-Robotics-0的技术原理

  • MoT混合架构:以Qwen3-VL-4B多模态模型作为”大脑”处理视觉语言输入,Diffusion Transformer作为”小脑”负责动作生成,总参数量47亿,兼顾通用理解与精细控制。
  • 两阶段训练:第一阶段通过Action Proposal机制让VLM学习动作分布对齐特征空间,混合视觉语言与机器人数据防止遗忘;第二阶段冻结VLM,专项训练DiT通过流匹配从噪声中恢复精准动作序列。
  • 异步执行机制:机器人执行当前动作块的同时并行推理下一区块,用Clean Action Prefix将前一时刻动作作为输入条件,确保轨迹时序连续,从机制上消除推理延迟导致的动作断层。
  • Λ-shape注意力掩码:替换DiT的因果注意力掩码,支持紧邻前缀的噪声token关注历史动作实现平滑过渡,同时禁止后续token访问前缀,强制其关注视觉信号,避免模型复制惯性动作,提升对环境突发变化的反应灵敏度。

Xiaomi-Robotics-0的项目地址

  • 项目官网:https://xiaomi-robotics-0.github.io/
  • GitHub仓库:https://github.com/XiaomiRobotics/Xiaomi-Robotics-0
  • HuggingFace模型库:https://huggingface.co/collections/XiaomiRobotics/xiaomi-robotics-0
  • 技术论文:https://xiaomi-robotics-0.github.io/assets/paper.pdf

Xiaomi-Robotics-0的应用场景

  • 工业精密装配:模型可精准拆解由多达20块积木组成的复杂装配体,适用电子产品、汽车零部件等精密组装场景。
  • 家庭服务清洁:模型能主动甩动毛巾暴露遮挡角落,识别多余物品并放回,适用于家务辅助与养老护理场景。
  • 物流仓储分拣:模型凭借高频平滑的动作生成能力,适应不同形状、材质的多样化商品处理需求。
  • 科研教育开发:模型支持高校与研究机构开展具身智能算法研究、机器人控制策略开发及教学演示。
  • 商业交互展示:模型可在展厅、门店、发布会等场景部署,展现低延迟、高流畅度的人机协作能力,提升品牌技术形象。

📝 站长洞察 (Editor’s Insight)

小米此次开源Xiaomi-Robotics-0,标志着其在具身智能领域从“跟随者”向“引领者”的关键跃迁。文章揭示的MoT混合架构极具范式意义:它巧妙地将顶级多模态大模型(Qwen3-VL)的“理解”与扩散模型(DiT)的“控制”解耦又协同,为行业提供了一种可扩展的“大脑-小脑”工程化方案。更关键的是,其提出的异步执行与Λ-shape注意力掩码,直击了VLA模型从仿真到真机部署的“最后一公里”难题——实时性,使消费级硬件流畅控制成为可能。这不仅是技术突破,更是商业落地的关键一步。结合小米在机器人硬件(CyberDog、铁大)和AIoT生态的布局,此举意在抢占“具身智能基座模型”的生态位,为未来智能家居、服务机器人乃至工业自动化提供核心“智能内核”,战略意义深远。

News Agents – 开源的终端新闻聚合与摘要系统
AutoDraft
VLM-R1 – 浙大 Om AI Lab 推出的视觉语言模型
k1.5 – Kimi推出的多模态思考模型
Claude 4系列发布:Opus 4定义编程新高度,Sonnet 4重塑日常AI体验
TAGGED:VLA大模型Xiaomi-Robotics-0具身智能小米开源机器人大模型
分享
Email 复制链接 打印
Share
上一篇 MonsterClaw:本地AI执行系统,隐私安全与自动化兼得
下一篇 字节跳动Seed2.0大模型系列发布:多模态SOTA、Agent能力跃迁,API成本降一个数量级
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

流光脑波AI大脑占位特色图
2026年3月美国AI榜单巨变:Claude单月狂飙130%紧追ChatGPT,格局突变信号已现
AIGC 资讯 最新趋势
得物实战揭秘:AI Coding工具如何突破数仓开发’失忆’痛点,Harness工程引领新范式
AI 工具 AIGC 资讯
全息流体渐变通用占位特色图
历史性和解!Meta妥协规避审判,美国首例学校诉社交媒体成瘾案落幕,揭示行业司法风向
AIGC 资讯
量子芯片科技感占位特色图
Spotify与环球音乐联手:AI翻唱混音工具上线,正版版权终结Suno野蛮生长
AI 工具 AIGC 资讯 最新趋势

相关推荐

AIGC 资讯

moonshot-v1-vision-preview – 月之暗面推出的多模态图片理解模型

站外新闻
AIGC 资讯

SocraticLM – 中科大和科大讯飞共同推出的苏格拉底教学大模型

站外新闻
AI 工具AIGC 资讯

商汤开源LazyCraft:AI Agent开发平台,低代码构建与管理企业级大模型应用

站外新闻
AI Agent 低代码平台 商汤 大模型应用开发 模型微调
AIGC 资讯

AgentRefine – 北京邮电大学联合美团推出的智能体合成框架

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 知识管理 美团 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 轻量级模型 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.