Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 小米OneVL开源:0.24秒延迟!具身智能团队发布SOTA级自动驾驶VLA世界模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 小米OneVL开源:0.24秒延迟!具身智能团队发布SOTA级自动驾驶VLA世界模型
AI 工具AIGC 资讯

小米OneVL开源:0.24秒延迟!具身智能团队发布SOTA级自动驾驶VLA世界模型

站外新闻
最近更新: 2026年5月24日 上午2:28
VLA 世界模型 小米具身智能 潜空间推理 自动驾驶大模型
SHARE

💡 站外导读:自动驾驶领域长期面临感知、决策、规划多模块割裂与‘黑盒’决策难题。随着端到端大模型兴起,如何统一视觉理解、物理推理与动作生成,并实现实车部署所需的低延迟,成为核心挑战。传统显式思维链(CoT)推理虽能提升可解释性,但其自回归生成方式带来巨大延迟,难以满足实时性要求。行业亟需一种既能深度推理,又能‘瞬间’决策的统一大模型方案。

Xiaomi OneVL是什么

Xiaomi OneVL是小米具身智能团队推出的开源自动驾驶大模型,在业内首次将VLA视觉-语言-动作、世界模型与潜空间推理三大技术路线统一于单一框架。模型通过双辅助解码器监督紧凑潜变量,实现思考速度与不思考一样快,效果比思考更好的突破,车端推理延迟仅0.24秒,在NAVSIM等四项基准上达到SOTA,模型权重与代码以Apache 2.0协议全面开源。

阅读目录
  • Xiaomi OneVL是什么
  • Xiaomi OneVL的主要功能
  • Xiaomi OneVL的技术原理
  • Xiaomi OneVL的核心优势
  • Xiaomi OneVL的项目地址
  • Xiaomi OneVL的同类竞品对比
  • Xiaomi OneVL的应用场景
      • 📝 站长洞察 (Editor’s Insight)

Xiaomi OneVL

Xiaomi OneVL的主要功能

  • 视觉-语言-动作(VLA)统一推理:将场景理解、语言推理与驾驶动作输出集成到单一框架,实现从感知到决策到执行的一步式端到端闭环。
  • 世界模型未来预测:内置视觉世界模型解码器,可预测未来0.5秒和1.0秒的场景帧,强迫模型内化道路几何、车辆运动与环境变化的因果动力学。
  • 潜空间思维链(Latent CoT)推理:在紧凑潜变量中完成深度推理,推理时丢弃辅助解码器,所有潜变量token通过单次并行预填完成,延迟仅0.24秒,与”直接预测”速度相当但精度更高。
  • 双辅助解码器监督训练:训练阶段通过语言解码器重建文本思维链、视觉解码器预测未来帧,双维度监督确保潜变量同时编码语义推理与物理世界因果规律。
  • 高精度轨迹预测:基于Qwen3-VL-4B-Instruct主干网络,顶部附加MLP头输出轨迹,在NAVSIM基准PDM-score达88.84,超越8B竞品。

Xiaomi OneVL的技术原理

  • 三大技术路线统一:Xiaomi OneVL 首次将 VLA(视觉-语言-动作)、世界模型与潜空间推理三条独立技术路线融合到单一框架中,使模型在理解当前场景的同时,能基于物理因果规律预测未来环境演变,输出驾驶动作,实现从感知、推理到决策的端到端闭环。
  • 双辅助解码器监督架构:模型在训练阶段引入两个辅助解码器:语言解码器负责重建文本思维链,确保潜变量编码语义推理能力;视觉世界模型解码器负责预测未来帧(T+0.5s、T+1.0s),强迫潜变量内化道路几何、车辆运动等物理动力学规律。推理时两个解码器被丢弃,仅保留紧凑潜变量进行预测。
  • 三阶段渐进式训练:训练分为轨迹对齐、语言推理对齐、视觉世界模型对齐三个阶段,逐步将潜变量与轨迹输出、语言推理目标、视觉预测目标对齐。跳过任一阶段都会导致性能灾难性下降(最高达 21.71 分),证明三阶段联合优化对稳定训练至关重要。
  • 一步式潜空间并行推理:推理阶段所有潜变量 token 通过单次并行预填完成,无需自回归逐 token 生成,车端延迟仅 0.24 秒(4.16Hz),与”直接输出答案”的速度相当,精度显著超越显式思维链方法,成为首个在性能上超过显式 CoT 的潜空间推理方案。
  • 轻量化模型底座:主干网络采用 Qwen3-VL-4B-Instruct,顶部附加紧凑 MLP 头进行轨迹预测,视觉分词器使用 Emu3.5-VisionTokenizer(码本大小 131072)。4B 参数规模在 NAVSIM 基准上 PDM-score 达到 88.84,超越 8B 竞品 AdaThinkDrive 与 LaST-VLA。

Xiaomi OneVL的核心优势

  • 速度与精度兼得:Xiaomi OneVL 是业内首个精度超越显式思维链的潜空间推理方法,车端推理延迟仅 0.24 秒,与直接预测速度相当但效果更优,比显式自回归 CoT 快 32%。
  • 三大技术路线统一:Xiaomi OneVL 首次将 VLA、世界模型与潜空间推理三条独立技术路线融合到单一框架,使模型同时具备场景理解、物理因果推演和未来预测能力。
  • 双维度可解释决策:Xiaomi OneVL 同时提供语言解释和视觉预测两种决策依据,能用文字说明驾驶逻辑,也能用生成画面展示未来场景,解决自动驾驶的”黑盒”不可解释问题。
  • 轻量化与高性能并存:模型基于 4B 参数的 Qwen3-VL-4B-Instruct 主干网络,在 NAVSIM 基准 PDM-score 达 88.84,超越 8B 竞品,用更小模型规模实现更高性能。
  • 全面开源可商用:模型的模型权重、训练与推理代码均以 Apache 2.0 协议全面开源,支持学术界与产业界自由二次开发与商业应用。
  • 四项基准全面 SOTA:Xiaomi OneVL在 NAVSIM、ROADWork、Impromptu、Alpamayo-R1 四项权威基准测试中均达到当前最优水平,其中 Alpamayo-R1 的 ADE 为所有方法中最佳。

Xiaomi OneVL的项目地址

  • 项目官网:https://xiaomi-embodied-intelligence.github.io/OneVL/
  • GitHub仓库:https://github.com/xiaomi-research/onevl
  • arXiv技术论文:https://arxiv.org/pdf/2604.18486

Xiaomi OneVL的同类竞品对比

对比维度 Xiaomi OneVL EMMA (Waymo)
所属机构 小米具身智能 Waymo(Google)
模型定位 端到端 VLA + 世界模型统一框架 端到端多模态通用ist 自动驾驶模型
基础模型 Qwen3-VL-4B-Instruct(4B) Gemini / PaLI-X(大规模,未公开具体参数)
核心架构 潜空间推理 + 双辅助解码器(语言 + 视觉世界模型) 纯文本 VQA 范式,所有输入输出表示为自然语言文本
推理方式 单次并行预填,0.24 秒延迟(4.16Hz) 自回归 CoT 逐 token 生成,延迟高,计算昂贵
世界模型 内置视觉解码器,可预测未来 0.5s/1.0s 帧 无显式世界模型,不具备未来场景生成能力
动作输出 连续轨迹预测(MLP 头直接输出) 文本形式的 BEV 坐标(waypoints),需文本到浮点转换
可解释性 语言 + 视觉双维度(文本解释 + 未来画面预测) 文本 CoT 推理链(rationale)+ 视觉定位(3D/BEV 位置标注)
多任务能力 专注运动规划,四项基准 SOTA 通用ist 模型,联合训练规划、3D 检测、路图估计、场景理解
训练方式 三阶段渐进式对齐(轨迹→语言→视觉) 端到端微调,多任务 co-training,利用 Gemini 预训练世界知识
传感器输入 视觉(相机) 视觉(相机),不支持 LiDAR / radar

Xiaomi OneVL的应用场景

  • 高阶智驾量产部署:解决传统CoT推理延迟过高、无法实时部署的瓶颈。
  • 复杂路况决策:预判行人意图、车辆并道等动态场景,规避”黑盒”风险。
  • 模型决策可视化:为自动驾驶系统提供可审计、可解释的语言与视觉决策依据。
  • 学术研究二次开发:开源代码与权重支持学术界与产业界基于Apache 2.0协议商用。

📝 站长洞察 (Editor’s Insight)

Xiaomi OneVL的发布,标志着自动驾驶大模型从‘技术拼凑’迈向‘范式统一’的关键一步。它首次将VLA的端到端能力、世界模型的物理推演能力与潜空间推理的高效性融为一体,这并非简单叠加,而是通过双解码器监督训练,迫使潜变量同时编码语义逻辑与物理因果,实现了‘深度思考’与‘快速反应’的兼得。0.24秒的推理延迟,意味着潜空间推理从学术概念真正进入了可量产的工程范畴。更值得关注的是,小米以4B轻量模型实现SOTA性能,挑战了‘更大即更好’的行业迷思,为车端高效部署提供了新思路。全面开源背后,是小米从消费电子向具身智能核心平台延伸的战略野心,旨在通过开放生态加速技术收敛,抢占下一代智能出行的技术制高点。这不仅是技术突破,更是一场关于自动驾驶技术路线的宣言。

Ethnic Influences in Asian Human relationships
小米OmniVoice震撼开源:600+语种、40倍实时,定义下一代多语言TTS新标杆
京东开源xLLM:国产芯片AI推理框架,服务-引擎分离架构实现端云一体高效部署
小红书Hi Lab重磅开源dots.vlm1:12亿参数视觉编码器+DeepSeek V3,多模态大模型性能直逼闭源SOTA
Claude Mythos攻克百年数学猜想!Anthropic多智能体协同验证,AI科学发现进入白热化竞争
TAGGED:VLA世界模型小米具身智能潜空间推理自动驾驶大模型
分享
Email 复制链接 打印
Share
上一篇 Kimi WebBridge深度解析:月之暗面如何用浏览器插件让AI Agent真正接管网页操作
下一篇 高德与阿里重磅开源AGenUI:三端原生A2UI框架,让AI Agent输出直接变为可交互界面
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

流光脑波AI大脑占位特色图
2026年3月美国AI榜单巨变:Claude单月狂飙130%紧追ChatGPT,格局突变信号已现
AIGC 资讯 最新趋势
得物实战揭秘:AI Coding工具如何突破数仓开发’失忆’痛点,Harness工程引领新范式
AI 工具 AIGC 资讯
全息流体渐变通用占位特色图
历史性和解!Meta妥协规避审判,美国首例学校诉社交媒体成瘾案落幕,揭示行业司法风向
AIGC 资讯
量子芯片科技感占位特色图
Spotify与环球音乐联手:AI翻唱混音工具上线,正版版权终结Suno野蛮生长
AI 工具 AIGC 资讯 最新趋势

相关推荐

AIGC 资讯

KeySync – 帝国理工联合弗罗茨瓦夫大学推出的口型同步框架

站外新闻
AIGC 资讯

Cube 3D – Roblox 推出的 AI 3D 生成模型

站外新闻
AIGC 资讯

国产大模型掀起新一轮上市潮,阶跃星辰冲刺香港近年来最大AI IPO

站外新闻
AIGC 资讯

PaSa – 字节跳动推出的学术论文检索智能体

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 知识管理 美团 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 轻量级模型 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.