Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 小米开源首代机器人VLA大模型Xiaomi-Robotics-0:47亿参数MoT架构,实现实时流畅控制
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 小米开源首代机器人VLA大模型Xiaomi-Robotics-0:47亿参数MoT架构,实现实时流畅控制
AI 工具AIGC 资讯

小米开源首代机器人VLA大模型Xiaomi-Robotics-0:47亿参数MoT架构,实现实时流畅控制

站外新闻
最近更新: 2026年6月7日 下午8:06
VLA大模型 Xiaomi-Robotics-0 具身智能 小米开源 机器人大模型
SHARE

💡 站外导读:具身智能(Embodied AI)正成为人工智能的下一个突破焦点,但机器人“大脑”与“小脑”的高效协同、以及实时控制中的延迟卡顿问题,始终是阻碍其从实验室走向真实世界的关键瓶颈。传统模型要么理解力强但控制粗糙,要么控制精准但反应迟缓,难以满足复杂任务需求。这导致机器人落地场景受限,商业潜力未被充分释放。

Xiaomi-Robotics-0是什么

Xiaomi-Robotics-0是小米开源的首代机器人VLA(视觉-语言-动作)大模型,拥有47亿参数,采用MoT混合架构,Qwen3-VL多模态模型作为”大脑”理解视觉语言指令,Diffusion Transformer作为”小脑”生成高频动作块。创新性地引入异步执行与Λ-shape注意力掩码,解决推理延迟导致的动作卡顿,实现消费级显卡上的实时流畅控制。在LIBERO、CALVIN等仿真基准测试中刷新SOTA,成功应用于积木拆解、毛巾折叠等真机双臂操作任务。

阅读目录
  • Xiaomi-Robotics-0是什么
  • Xiaomi-Robotics-0的主要功能
  • Xiaomi-Robotics-0的技术原理
  • Xiaomi-Robotics-0的项目地址
  • Xiaomi-Robotics-0的应用场景
      • 📝 站长洞察 (Editor’s Insight)

Xiaomi-Robotics-0-

Xiaomi-Robotics-0的主要功能

  • 自然语言理解:模型能解析人类模糊指令,从视觉输入中识别空间关系与操作意图。
  • 动作生成控制:模型能输出高频平滑的动作序列,驱动机器人完成精确物理操作。
  • 实时异步执行:支持推理与执行并行,消除延迟卡顿,保障动作连贯流畅。
  • 双臂协同操作:支持双手配合完成积木拆解、毛巾折叠等复杂长周期任务。
  • 自适应策略调整:模型能在抓取失败或环境变化时,自动切换动作策略灵活应对。
  • 多模态能力保持:模型保留了视觉问答、物体检测等通用理解能力,防止灾难性遗忘。

Xiaomi-Robotics-0的技术原理

  • MoT混合架构:以Qwen3-VL-4B多模态模型作为”大脑”处理视觉语言输入,Diffusion Transformer作为”小脑”负责动作生成,总参数量47亿,兼顾通用理解与精细控制。
  • 两阶段训练:第一阶段通过Action Proposal机制让VLM学习动作分布对齐特征空间,混合视觉语言与机器人数据防止遗忘;第二阶段冻结VLM,专项训练DiT通过流匹配从噪声中恢复精准动作序列。
  • 异步执行机制:机器人执行当前动作块的同时并行推理下一区块,用Clean Action Prefix将前一时刻动作作为输入条件,确保轨迹时序连续,从机制上消除推理延迟导致的动作断层。
  • Λ-shape注意力掩码:替换DiT的因果注意力掩码,支持紧邻前缀的噪声token关注历史动作实现平滑过渡,同时禁止后续token访问前缀,强制其关注视觉信号,避免模型复制惯性动作,提升对环境突发变化的反应灵敏度。

Xiaomi-Robotics-0的项目地址

  • 项目官网:https://xiaomi-robotics-0.github.io/
  • GitHub仓库:https://github.com/XiaomiRobotics/Xiaomi-Robotics-0
  • HuggingFace模型库:https://huggingface.co/collections/XiaomiRobotics/xiaomi-robotics-0
  • 技术论文:https://xiaomi-robotics-0.github.io/assets/paper.pdf

Xiaomi-Robotics-0的应用场景

  • 工业精密装配:模型可精准拆解由多达20块积木组成的复杂装配体,适用电子产品、汽车零部件等精密组装场景。
  • 家庭服务清洁:模型能主动甩动毛巾暴露遮挡角落,识别多余物品并放回,适用于家务辅助与养老护理场景。
  • 物流仓储分拣:模型凭借高频平滑的动作生成能力,适应不同形状、材质的多样化商品处理需求。
  • 科研教育开发:模型支持高校与研究机构开展具身智能算法研究、机器人控制策略开发及教学演示。
  • 商业交互展示:模型可在展厅、门店、发布会等场景部署,展现低延迟、高流畅度的人机协作能力,提升品牌技术形象。

📝 站长洞察 (Editor’s Insight)

小米此次开源Xiaomi-Robotics-0,标志着其在具身智能领域从“跟随者”向“引领者”的关键跃迁。文章揭示的MoT混合架构极具范式意义:它巧妙地将顶级多模态大模型(Qwen3-VL)的“理解”与扩散模型(DiT)的“控制”解耦又协同,为行业提供了一种可扩展的“大脑-小脑”工程化方案。更关键的是,其提出的异步执行与Λ-shape注意力掩码,直击了VLA模型从仿真到真机部署的“最后一公里”难题——实时性,使消费级硬件流畅控制成为可能。这不仅是技术突破,更是商业落地的关键一步。结合小米在机器人硬件(CyberDog、铁大)和AIoT生态的布局,此举意在抢占“具身智能基座模型”的生态位,为未来智能家居、服务机器人乃至工业自动化提供核心“智能内核”,战略意义深远。

AutoRAG – Cloudflare 推出的全托管检索增强生成服务
AutoDroid-V2 – 清华推出的移动端GUI自动化脚本代理
支付宝联手MiniMax、阶跃星辰打造AI原生支付基建,大模型国家队领跑智能体商业化
ContentBot
Kimi Latest – Kimi推出的实时更新AI模型,与Kimi智能助手同步
TAGGED:VLA大模型Xiaomi-Robotics-0具身智能小米开源机器人大模型
分享
Email 复制链接 打印
Share
上一篇 MonsterClaw:本地AI执行系统,隐私安全与自动化兼得
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

MonsterClaw:本地AI执行系统,隐私安全与自动化兼得
AI 工具
阿里通义千问重磅开源Qwen3.5:3970亿参数模型性能超越GPT-5.2,API价格仅为1/15,开启多模态大模型新时代
AI 工具 AIGC 资讯
小红书开源FireRed-Image-Edit:SOTA级图像编辑模型,文本引导编辑、老照片修复、虚拟试穿一步到位
AI 工具 AIGC 资讯
LobsterAI 有道龙虾:网易有道发布7×24小时全场景AI Agent,手机一句话远程操控电脑办公
AI 工具 AIGC 资讯

相关推荐

AI 工具AIGC 资讯

OpenAI官方命令行工具震撼发布:一键调用GPT-5.5,开发者效率革命已至

站外新闻
API调试 GPT-5.5 OpenAI CLI 命令行工具 自动化脚本
AIGC 资讯

FlexTok – Apple 联合 EPFL 推出的图像处理技术

站外新闻
AIGC 资讯

SynthLight – 耶鲁大学联合 Adobe 推出的人像重照明技术

站外新闻
AI 工具

Leap Touch

remaker
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI绘画 AI编程 AI编程工具 AI视频 AI视频生成 AI设计 AI音乐生成 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE架构 NVIDIA openai OpenClaw OpenRouter Pika prompt stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成 多智能体 多模态 多模态AI 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 小红书 展台 建筑 开源 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 强化学习 微软 教程 早报 智能体 智能体编程 智谱AI 本地AI 海报设计 清华大学 生成式AI 科幻 端侧AI 网络安全 联想 腾讯 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 边缘计算 通义千问 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.