Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 高德地图x北邮发布FantasyWorld:统一视频与3D建模框架,赋能AR/VR与机器人导航新纪元
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 高德地图x北邮发布FantasyWorld:统一视频与3D建模框架,赋能AR/VR与机器人导航新纪元
AI 工具AIGC 资讯

高德地图x北邮发布FantasyWorld:统一视频与3D建模框架,赋能AR/VR与机器人导航新纪元

站外新闻
最近更新: 2026年6月7日 下午8:09
3D世界建模 北京邮电大学 空间智能 视频生成 高德地图
SHARE

💡 站外导读:在AR/VR、机器人导航和数字孪生蓬勃发展的今天,如何高效地从普通视频中生成逼真且几何一致的3D场景,一直是行业面临的核心挑战。传统的3D重建或视频生成方法往往分离,难以兼顾视觉质量与空间结构。这一痛点正推动着融合多模态理解的统一建模框架成为AI前沿的焦点。

FantasyWorld是什么

FantasyWorld是高德地图(AMAP)和北京邮电大学合作开发的创新性3D世界建模框架,专注于通过统一的视频和3D预测生成高质量的3D场景。框架通过在冻结的视频基础模型中增加可训练的几何分支,实现了视频潜变量和隐式3D场的联合建模,能在一次前向传播中生成具有几何一致性的3D感知视频。FantasyWorld在多视角一致性方面表现出色,即使在大视角变化(如180度旋转)下,也能保持高度的视觉真实性和几何一致性。FantasyWorld 最新升级至 Wan2.2 底座,通过 PCBs 预调节模块实现视频生成质量与 3D 几何一致性的双重突破,让 AI 首次具备”想象画面”与”理解空间”的协同能力。

阅读目录
  • FantasyWorld是什么
  • FantasyWorld的主要功能
  • FantasyWorld的技术原理
  • FantasyWorld的项目地址
  • FantasyWorld的应用场景
      • 📝 站长洞察 (Editor’s Insight)

FantasyWorld

FantasyWorld的主要功能

  • 联合建模视频与3D场景:通过在冻结的视频基础模型中增加可训练的几何分支,FantasyWorld能同时生成视频和3D场景,实现视频潜变量与隐式3D场的联合建模,为下游3D任务提供通用表示。
  • 跨分支监督机制:引入几何线索指导视频生成,同时利用视频先验约束3D预测,实现视频与3D信息的交互优化,生成一致且可泛化的3D感知视频。
  • 多视角一致性优化:在大视角变化(如180度旋转)下,生成的视频仍能保持高度的多视角连贯性和几何保真度,确保3D场景在不同视角下的稳定性。
  • 高效前向传播架构:采用预处理模块(PCBs)和集成重建与生成(IRG)模块,通过多模态条件优化视频和几何特征,确保在单次前向传播中完成高质量的3D场景生成。
  • 支持多种下游应用:为AR/VR内容创作、机器人导航等需要3D世界建模的应用提供了强大的技术基础,推动空间智能和人工智能的进一步发展。

FantasyWorld的技术原理

  • 几何增强的视频基础模型:在冻结的视频基础模型中增加可训练的几何分支,实现视频潜变量和隐式3D场的联合建模,使模型能同时处理视频生成和3D几何推理。
  • 跨分支监督机制:通过几何线索指导视频生成,同时利用视频先验约束3D预测,实现视频与3D信息的交互优化,从而生成一致且可泛化的3D感知视频。
  • 多模态数据融合:结合视频数据和几何信息,利用多模态条件优化模型的输出,确保生成的3D场景在视觉和几何方面都具有高度的连贯性和一致性。
  • 高效的前向传播架构:采用预处理模块(PCBs)和集成重建与生成(IRG)模块,通过迭代优化视频潜变量和几何特征,确保在单次前向传播中完成高质量的3D场景生成。
  • 轻量适配器和交叉注意力:在几何分支和视频分支之间引入轻量适配器和交叉注意力机制,实现两个分支之间的信息交流和协同优化。

FantasyWorld的项目地址

  • 项目官网:https://fantasy-amap.github.io/fantasy-world/
  • Github仓库:https://github.com/Fantasy-AMAP/fantasy-world
  • arXiv技术论文:https://arxiv.org/pdf/2509.21657

FantasyWorld的应用场景

  • AR/VR内容创作:通过生成高质量的3D世界模型,为增强现实(AR)和虚拟现实(VR)应用提供逼真的虚拟环境,支持沉浸式体验的开发。
  • 机器人导航:为机器人提供精确的3D环境感知和路径规划支持,帮助机器人更好地理解空间结构,实现更智能的导航和交互。
  • 飞行街景:商家可上传手机视频生成高保真3D虚拟漫游街景,用户能提前“身临其境”地了解场所布局,如餐厅座位区等。
  • 数字孪生:构建城市的数字孪生模型,用于城市规划、建筑设计和基础设施管理等,提供高精度的3D可视化和模拟。
  • 游戏开发:为游戏开发者提供快速生成高质量3D游戏场景的能力,降低开发成本并提升游戏的视觉效果。

📝 站长洞察 (Editor’s Insight)

FantasyWorld的发布标志着3D世界建模进入「视频-几何联合生成」的新阶段。它超越了传统NeRF或视频生成模型的局限,通过冻结视频大模型并嫁接可训练几何分支的巧妙设计,首次让AI模型同时具备「想象画面」与「理解空间」的协同能力。这不仅是技术上的突破,更是应用场景的范式转移。对于高德地图而言,这是其从导航工具向空间智能服务商转型的关键落子;对于行业,它预示着3D内容生产将告别昂贵的手工建模或繁琐的多步骤流程,迈向由视频直接驱动的、高效的、普惠的生成新范式。该框架在飞行街景、机器人导航等场景的潜力,将直接催化元宇宙、具身智能等愿景的落地。

InsForge:AI编程Agent的终极后端平台,开源颠覆全栈开发!
OpenAI官方Prompt模板「ChatGPT for any role」:免费提升10倍职场效率的终极指南
CreativAI
昆仑万维开源Skywork-SWE-32B:32B参数量刷新SWE-bench记录,代码智能体基座模型迎来新突破
GPT-5.4震撼发布:OpenAI旗舰模型首次在电脑操作中超越人类,83%专业任务达标,百万Token上下文重塑工作流
TAGGED:3D世界建模北京邮电大学空间智能视频生成高德地图
分享
Email 复制链接 打印
Share
上一篇 Obsidian-skills:Obsidian官方开源AI工具包深度解析|Claude Code无缝集成指南
下一篇 英伟达重磅开源Nemotron Speech ASR:实时语音识别延迟低至24ms,游戏翻译会议全搞定
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

流光脑波AI大脑占位特色图
2026年3月美国AI榜单巨变:Claude单月狂飙130%紧追ChatGPT,格局突变信号已现
AIGC 资讯 最新趋势
得物实战揭秘:AI Coding工具如何突破数仓开发’失忆’痛点,Harness工程引领新范式
AI 工具 AIGC 资讯
全息流体渐变通用占位特色图
历史性和解!Meta妥协规避审判,美国首例学校诉社交媒体成瘾案落幕,揭示行业司法风向
AIGC 资讯
量子芯片科技感占位特色图
Spotify与环球音乐联手:AI翻唱混音工具上线,正版版权终结Suno野蛮生长
AI 工具 AIGC 资讯 最新趋势

相关推荐

AI 工具AIGC 资讯

清华TurboDiffusion:单卡RTX 5090实现视频生成提速200倍,184秒变1.9秒

站外新闻
AIGC TurboDiffusion 扩散模型 视频加速 视频生成
AI 工具

Create AI Voiceovers

remaker
AI 工具

SuperDesign:开源AI设计Agent深度解析,并行生成多方案赋能高效UI/UX开发

站外新闻
AI设计Agent IDE集成 UI原型设计 并行生成 开源工具
AIGC 资讯

Mistral 3大模型重磅发布:MoE架构、675B参数、多模态开源,定义AI效率新标杆

站外新闻
Mistral AI MoE架构 企业级AI 多模态大模型 开源模型
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 知识管理 美团 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 轻量级模型 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.