Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Xiaomi Auto World Model – 小米推出的辅助驾驶世界模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > Xiaomi Auto World Model – 小米推出的辅助驾驶世界模型
AIGC 资讯

Xiaomi Auto World Model – 小米推出的辅助驾驶世界模型

站外新闻
最近更新: 2026年6月7日 下午6:48
SHARE

Xiaomi Auto World Model是什么

Xiaomi Auto World Model 是小米汽车推出的辅助驾驶世界模型,首次将三维重建(WorldRec)与视频生成(WorldGen)深度耦合。WorldRec 用稀疏 3D 锚点实现 10 秒视频 10 秒快速重建,WorldGen 通过两阶段训练与 ODE 蒸馏实现 4 步去噪、0.19 秒/帧生成,支持最长 1 分钟视频。在 Waymo 重建精度(PSNR 28.48)与 nuScenes 生成质量(FVD 64.97)上均达 SOTA,已落地合成数据、仿真测试、辅助驾驶学堂三大业务场景。

阅读目录
  • Xiaomi Auto World Model是什么
  • Xiaomi Auto World Model的主要功能
  • Xiaomi Auto World Model的技术原理
  • 如何使用Xiaomi Auto World Model
  • Xiaomi Auto World Model的核心优势
  • Xiaomi Auto World Model的项目地址
  • Xiaomi Auto World Model的同类竞品对比
  • Xiaomi Auto World Model的应用场景

Xiaomi Auto World Model

Xiaomi Auto World Model的主要功能

  • WorldRec 三维重建模块:采用稀疏 3D 查询锚点替代传统稠密高斯,实现多视角多时刻特征聚合与可见性加权融合,10 秒视频重建仅需 10 秒,消除多视角冲突与鬼影问题。
  • WorldGen 视频生成模块:基于全双向时序注意力预训练+因果微调两阶段训练,通过 ODE 蒸馏将去噪步数从 50 步压缩至 4 步,0.19 秒/帧生成未来帧、未观测视角与遮挡区内容,支持最长 81 帧(约 1 分钟)连续生成。
  • 重建-生成深度耦合:重建侧提供 3D 几何先验约束生成稳定性,生成侧扩展重建边界至未观测时空区域,两者互相校正抑制长时序漂移。
  • 极端场景生成:支持暴雨、大雪、浓雾等极端天气及动物闯入等长尾危险场景的高质量合成,为感知模型训练提供稀缺数据。
  • 三大业务落地:合成数据生成(已交付 10 万+ clips)、闭环仿真测试(复现真实事故定向优化)、辅助驾驶学堂(动态生成第一人称驾驶教学视频)。

Xiaomi Auto World Model的技术原理

  • WorldRec 稀疏锚点表征:摒弃逐像素预测高斯范式,改用稀疏三维查询点作为场景表征,每个锚点主动聚合多相机多时刻特征,通过可见性加权自动筛选可靠观测,从源头保证跨视角一致性。
  • 4D Gaussian 全局表示:维护随观测增量扩展的 4D 高斯场景表示,投影到自车视角后作为渲染先验输入生成模型,为生成提供确定性几何约束。
  • WorldGen 两阶段训练:第一阶段全双向时序注意力预训练建立驾驶场景时空全局理解;第二阶段因果注意力微调+教师强制(Teacher Forcing),配合 ODE 蒸馏提速 12 倍,分布匹配蒸馏解决暴露偏差。
  • 重建-生成闭环约束:重建的确定性几何先验持续校正生成过程,生成补全重建覆盖不到的时空区域,两者目标函数在结构上互相约束,实现高稳定性、高一致性、高真实性。

如何使用Xiaomi Auto World Model

  • 上线平台:已上线小米全车型的「辅助驾驶学堂 – 实景模拟场景」。
  • 使用条件:需拥有小米汽车(SU7 等车型),在车载系统中进入辅助驾驶学堂模块。

Xiaomi Auto World Model的核心优势

  • SOTA 性能:Waymo 重建 PSNR 28.48(超 DGGT 约 1 个点),nuScenes 零样本泛化 PSNR 26.54 同样领先;生成侧 FVD 64.97 超越所有双向与自回归基线模型。
  • 极速推理:单视角生成 0.19 秒/帧,三视角 0.46 秒/帧,较同类自回归方法 Epona(1.06 秒/帧)快 5.6 倍。
  • 超长时序:支持 81 帧连续生成(10Hz/30Hz,最长 1 分钟),远超公开基线模型的 8-16 帧限制。
  • 零样本泛化:nuScenes 零样本测试仍保持领先,证明对新场景具备强适应能力。
  • 已落地生产:已在小米汽车合成数据、仿真测试、智能座舱三大核心场景完成业务闭环。

Xiaomi Auto World Model的项目地址

  • 项目官网:https://JointWM.github.io/
  • arXiv技术论文:https://arxiv.org/pdf/2605.18137

Xiaomi Auto World Model的同类竞品对比

对比维度 Xiaomi Auto World Model Waymo World Model
所属公司 小米汽车 Waymo(Alphabet/Google)
发布时间 2026年5月 2026年2月
技术路线 重建+生成深度耦合一体化架构(WorldRec + WorldGen 互相约束) 基于 Genie 3 的生成式世界模型(纯生成路线,后训练适配驾驶场景)
重建模块 WorldRec:稀疏 3D 锚点表征,10秒视频10秒重建,PSNR 28.48(Waymo数据集) 无独立重建模块,依赖 Genie 3 的预训练世界知识生成全场景
生成模块 WorldGen:4步去噪,0.19秒/帧,支持81帧(~1分钟)连续生成 基于 Genie 3 生成,支持多传感器输出(相机+LiDAR),可模拟极端场景
架构特点 重建给生成”打地基”(几何约束),生成给重建”扩边界”(补全未观测区域) 纯生成式,通过语言/动作/场景布局三种控制机制调整模拟
传感器支持 主要面向相机数据(多视角图像输入) 相机 + LiDAR 多传感器输出,可将普通行车记录仪视频转为多传感器模拟数据
基准测试 Waymo PSNR 28.48(超DGGT约1个点);nuScenes FVD 64.97,FID 7.04 未公开具体量化指标,强调可模拟”从未见过”的长尾场景
生成速度 单视角 0.19秒/帧,三视角 0.46秒/帧 未公开具体推理速度,强调”可扩展推理”与高效变体
最大生成时长 81帧(10Hz/30Hz,最长约1分钟) 未明确公开,Genie 3 原生支持数分钟级别一致生成
极端场景能力 暴雨、大雪、浓雾、动物闯入等长尾场景生成 龙卷风、洪水、积雪金门大桥、大象/狮子等罕见物体、 reckless driver 等
业务落地 已落地三大场景:合成数据(10万+ clips)、仿真测试、辅助驾驶学堂 用于 Waymo Driver 训练与验证,支撑 robotaxi 扩张(2026年目标100万周订单)

Xiaomi Auto World Model的应用场景

  • 合成数据生成:为辅助驾驶感知模型训练提供高质量、高多样性、高危险性的长尾场景合成数据,解决真实世界中稀缺场景样本不足问题。
  • 仿真测试:构建闭环仿真环境,复现真实事故场景进行定向优化,提升测试效率与完备性,降低实车测试成本与风险。
  • 辅助驾驶学堂:在智能座舱中动态生成第一人称驾驶教学视频,针对复杂路况向用户展示正确操作,提升人机共驾安全性与用户体验。
Mureka V6 – 昆仑万维推出的AI音乐创作基座模型
STAR – 南大、字节、西南大学联合开源的现实世界视频超分辨率框架
gpt-4o-transcribe – OpenAI 推出的语音转文本模型
CombatVLA:淘天集团推出3D游戏专用VLA模型,推理速度提升50倍,超越人类玩家
SigLIP 2 – 谷歌 DeepMind 推出的多语言视觉语言编码器模型
分享
Email 复制链接 打印
Share
上一篇 opera-browser-cli – Opera Neon 开源的命令行工具
下一篇 BitCPM-CANN – 面壁智能联合清华开源的端侧大模型
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

华为盘古大模型5.5震撼发布:7180亿参数Ultra MoE领衔,五大模型重塑产业智能
AI 工具 AIGC 资讯
腾讯清华重磅开源MindOmni:强化学习驱动的多模态推理生成模型,重塑视觉AI边界
AI 工具 AIGC 资讯
联影智能发布‘元智’医疗大模型:多模态融合,一次CT扫描诊断37种疾病
AI 工具 AIGC 资讯
Dive3D重磅发布:北大x小红书联手破解文本生成3D多样性难题,SIM损失取代KL散度实现模式突破
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

Kiss3DGen – 基于图像扩散模型的3D资产生成框架

站外新闻
AI 工具AIGC 资讯

微软发布万亿参数大模型MAI-1-preview:1.5万H100集群训练,性能直逼GPT-4

站外新闻
H100 GPU MAI-1-preview 基础模型 微软 混合专家模型
AI 工具AIGC 资讯

字节跳动Seed重磅开源:Ouro循环语言模型横空出世,1.4B参数性能超越大型LLM,重新定义AI推理效率

站外新闻
AIGC 参数效率 多步推理 字节跳动Seed 循环语言模型
AI 工具AIGC 资讯

ST-Raptor深度解析:AI如何一键破解复杂表格数据,开启精准问答新时代

站外新闻
AI表格问答 企业效率 半结构化数据 数据解析
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI绘画 AI编程 AI编程助手 AI编程工具 AI编程模型 AI视频生成 AI音乐生成 Anthropic chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax MoE架构 MoE模型 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 清华大学 知识管理 科大讯飞 端侧AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.