小米开源首代机器人VLA大模型Xiaomi-Robotics-0：47亿参数MoT架构，实现实时流畅控制

💡 站外导读：具身智能（Embodied AI）正成为人工智能的下一个突破焦点，但机器人“大脑”与“小脑”的高效协同、以及实时控制中的延迟卡顿问题，始终是阻碍其从实验室走向真实世界的关键瓶颈。传统模型要么理解力强但控制粗糙，要么控制精准但反应迟缓，难以满足复杂任务需求。这导致机器人落地场景受限，商业潜力未被充分释放。

Xiaomi-Robotics-0是什么

Xiaomi-Robotics-0是小米开源的首代机器人VLA（视觉-语言-动作）大模型，拥有47亿参数，采用MoT混合架构，Qwen3-VL多模态模型作为”大脑”理解视觉语言指令，Diffusion Transformer作为”小脑”生成高频动作块。创新性地引入异步执行与Λ-shape注意力掩码，解决推理延迟导致的动作卡顿，实现消费级显卡上的实时流畅控制。在LIBERO、CALVIN等仿真基准测试中刷新SOTA，成功应用于积木拆解、毛巾折叠等真机双臂操作任务。

阅读目录

Xiaomi-Robotics-0是什么
Xiaomi-Robotics-0的主要功能
Xiaomi-Robotics-0的技术原理
Xiaomi-Robotics-0的项目地址
Xiaomi-Robotics-0的应用场景

📝 站长洞察 (Editor’s Insight)

Xiaomi-Robotics-0-

Xiaomi-Robotics-0的主要功能

自然语言理解：模型能解析人类模糊指令，从视觉输入中识别空间关系与操作意图。
动作生成控制：模型能输出高频平滑的动作序列，驱动机器人完成精确物理操作。
实时异步执行：支持推理与执行并行，消除延迟卡顿，保障动作连贯流畅。
双臂协同操作：支持双手配合完成积木拆解、毛巾折叠等复杂长周期任务。
自适应策略调整：模型能在抓取失败或环境变化时，自动切换动作策略灵活应对。
多模态能力保持：模型保留了视觉问答、物体检测等通用理解能力，防止灾难性遗忘。

Xiaomi-Robotics-0的技术原理

MoT混合架构：以Qwen3-VL-4B多模态模型作为”大脑”处理视觉语言输入，Diffusion Transformer作为”小脑”负责动作生成，总参数量47亿，兼顾通用理解与精细控制。
两阶段训练：第一阶段通过Action Proposal机制让VLM学习动作分布对齐特征空间，混合视觉语言与机器人数据防止遗忘；第二阶段冻结VLM，专项训练DiT通过流匹配从噪声中恢复精准动作序列。
异步执行机制：机器人执行当前动作块的同时并行推理下一区块，用Clean Action Prefix将前一时刻动作作为输入条件，确保轨迹时序连续，从机制上消除推理延迟导致的动作断层。
Λ-shape注意力掩码：替换DiT的因果注意力掩码，支持紧邻前缀的噪声token关注历史动作实现平滑过渡，同时禁止后续token访问前缀，强制其关注视觉信号，避免模型复制惯性动作，提升对环境突发变化的反应灵敏度。

Xiaomi-Robotics-0的项目地址

项目官网：https://xiaomi-robotics-0.github.io/
GitHub仓库：https://github.com/XiaomiRobotics/Xiaomi-Robotics-0
HuggingFace模型库：https://huggingface.co/collections/XiaomiRobotics/xiaomi-robotics-0
技术论文：https://xiaomi-robotics-0.github.io/assets/paper.pdf

Xiaomi-Robotics-0的应用场景

工业精密装配：模型可精准拆解由多达20块积木组成的复杂装配体，适用电子产品、汽车零部件等精密组装场景。
家庭服务清洁：模型能主动甩动毛巾暴露遮挡角落，识别多余物品并放回，适用于家务辅助与养老护理场景。
物流仓储分拣：模型凭借高频平滑的动作生成能力，适应不同形状、材质的多样化商品处理需求。
科研教育开发：模型支持高校与研究机构开展具身智能算法研究、机器人控制策略开发及教学演示。
商业交互展示：模型可在展厅、门店、发布会等场景部署，展现低延迟、高流畅度的人机协作能力，提升品牌技术形象。

📝 站长洞察 (Editor’s Insight)

小米此次开源Xiaomi-Robotics-0，标志着其在具身智能领域从“跟随者”向“引领者”的关键跃迁。文章揭示的MoT混合架构极具范式意义：它巧妙地将顶级多模态大模型（Qwen3-VL）的“理解”与扩散模型（DiT）的“控制”解耦又协同，为行业提供了一种可扩展的“大脑-小脑”工程化方案。更关键的是，其提出的异步执行与Λ-shape注意力掩码，直击了VLA模型从仿真到真机部署的“最后一公里”难题——实时性，使消费级硬件流畅控制成为可能。这不仅是技术突破，更是商业落地的关键一步。结合小米在机器人硬件（CyberDog、铁大）和AIoT生态的布局，此举意在抢占“具身智能基座模型”的生态位，为未来智能家居、服务机器人乃至工业自动化提供核心“智能内核”，战略意义深远。

小米开源首代机器人VLA大模型Xiaomi-Robotics-0：47亿参数MoT架构，实现实时流畅控制

Xiaomi-Robotics-0是什么

Xiaomi-Robotics-0的主要功能

Xiaomi-Robotics-0的技术原理

Xiaomi-Robotics-0的项目地址

Xiaomi-Robotics-0的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价取消回复

最近更新

OpenAI扩大ChatGPT家长通知，青少年暴力违规将触发提醒

GPT‑5.4 – OpenAI推出面向专业工作的旗舰AI模型

YouTube 收紧政策，严打低质 AI 内容

小鹏甩出TuringViT视觉编码器：只用十分之一数据，却把SOTA基线甩在身后

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

Xiaomi-Robotics-0是什么

Xiaomi-Robotics-0的主要功能

Xiaomi-Robotics-0的技术原理

Xiaomi-Robotics-0的项目地址

Xiaomi-Robotics-0的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复