💡 站外导读:具身智能(Embodied AI)正成为人工智能的下一个突破焦点,但机器人“大脑”与“小脑”的高效协同、以及实时控制中的延迟卡顿问题,始终是阻碍其从实验室走向真实世界的关键瓶颈。传统模型要么理解力强但控制粗糙,要么控制精准但反应迟缓,难以满足复杂任务需求。这导致机器人落地场景受限,商业潜力未被充分释放。
Xiaomi-Robotics-0是什么
Xiaomi-Robotics-0是小米开源的首代机器人VLA(视觉-语言-动作)大模型,拥有47亿参数,采用MoT混合架构,Qwen3-VL多模态模型作为”大脑”理解视觉语言指令,Diffusion Transformer作为”小脑”生成高频动作块。创新性地引入异步执行与Λ-shape注意力掩码,解决推理延迟导致的动作卡顿,实现消费级显卡上的实时流畅控制。在LIBERO、CALVIN等仿真基准测试中刷新SOTA,成功应用于积木拆解、毛巾折叠等真机双臂操作任务。
阅读目录

Xiaomi-Robotics-0的主要功能
-
自然语言理解:模型能解析人类模糊指令,从视觉输入中识别空间关系与操作意图。
-
动作生成控制:模型能输出高频平滑的动作序列,驱动机器人完成精确物理操作。
-
实时异步执行:支持推理与执行并行,消除延迟卡顿,保障动作连贯流畅。
-
双臂协同操作:支持双手配合完成积木拆解、毛巾折叠等复杂长周期任务。
-
自适应策略调整:模型能在抓取失败或环境变化时,自动切换动作策略灵活应对。
-
多模态能力保持:模型保留了视觉问答、物体检测等通用理解能力,防止灾难性遗忘。
Xiaomi-Robotics-0的技术原理
-
MoT混合架构:以Qwen3-VL-4B多模态模型作为”大脑”处理视觉语言输入,Diffusion Transformer作为”小脑”负责动作生成,总参数量47亿,兼顾通用理解与精细控制。
-
两阶段训练:第一阶段通过Action Proposal机制让VLM学习动作分布对齐特征空间,混合视觉语言与机器人数据防止遗忘;第二阶段冻结VLM,专项训练DiT通过流匹配从噪声中恢复精准动作序列。
-
异步执行机制:机器人执行当前动作块的同时并行推理下一区块,用Clean Action Prefix将前一时刻动作作为输入条件,确保轨迹时序连续,从机制上消除推理延迟导致的动作断层。
-
Λ-shape注意力掩码:替换DiT的因果注意力掩码,支持紧邻前缀的噪声token关注历史动作实现平滑过渡,同时禁止后续token访问前缀,强制其关注视觉信号,避免模型复制惯性动作,提升对环境突发变化的反应灵敏度。
Xiaomi-Robotics-0的项目地址
- 项目官网:https://xiaomi-robotics-0.github.io/
- GitHub仓库:https://github.com/XiaomiRobotics/Xiaomi-Robotics-0
- HuggingFace模型库:https://huggingface.co/collections/XiaomiRobotics/xiaomi-robotics-0
- 技术论文:https://xiaomi-robotics-0.github.io/assets/paper.pdf
Xiaomi-Robotics-0的应用场景
-
工业精密装配:模型可精准拆解由多达20块积木组成的复杂装配体,适用电子产品、汽车零部件等精密组装场景。
-
家庭服务清洁:模型能主动甩动毛巾暴露遮挡角落,识别多余物品并放回,适用于家务辅助与养老护理场景。
-
物流仓储分拣:模型凭借高频平滑的动作生成能力,适应不同形状、材质的多样化商品处理需求。
-
科研教育开发:模型支持高校与研究机构开展具身智能算法研究、机器人控制策略开发及教学演示。
-
商业交互展示:模型可在展厅、门店、发布会等场景部署,展现低延迟、高流畅度的人机协作能力,提升品牌技术形象。
📝 站长洞察 (Editor’s Insight)
小米此次开源Xiaomi-Robotics-0,标志着其在具身智能领域从“跟随者”向“引领者”的关键跃迁。文章揭示的MoT混合架构极具范式意义:它巧妙地将顶级多模态大模型(Qwen3-VL)的“理解”与扩散模型(DiT)的“控制”解耦又协同,为行业提供了一种可扩展的“大脑-小脑”工程化方案。更关键的是,其提出的异步执行与Λ-shape注意力掩码,直击了VLA模型从仿真到真机部署的“最后一公里”难题——实时性,使消费级硬件流畅控制成为可能。这不仅是技术突破,更是商业落地的关键一步。结合小米在机器人硬件(CyberDog、铁大)和AIoT生态的布局,此举意在抢占“具身智能基座模型”的生态位,为未来智能家居、服务机器人乃至工业自动化提供核心“智能内核”,战略意义深远。
