💡 站外导读:在AR/VR、机器人导航和数字孪生蓬勃发展的今天,如何高效地从普通视频中生成逼真且几何一致的3D场景,一直是行业面临的核心挑战。传统的3D重建或视频生成方法往往分离,难以兼顾视觉质量与空间结构。这一痛点正推动着融合多模态理解的统一建模框架成为AI前沿的焦点。
FantasyWorld是什么
FantasyWorld是高德地图(AMAP)和北京邮电大学合作开发的创新性3D世界建模框架,专注于通过统一的视频和3D预测生成高质量的3D场景。框架通过在冻结的视频基础模型中增加可训练的几何分支,实现了视频潜变量和隐式3D场的联合建模,能在一次前向传播中生成具有几何一致性的3D感知视频。FantasyWorld在多视角一致性方面表现出色,即使在大视角变化(如180度旋转)下,也能保持高度的视觉真实性和几何一致性。FantasyWorld 最新升级至 Wan2.2 底座,通过 PCBs 预调节模块实现视频生成质量与 3D 几何一致性的双重突破,让 AI 首次具备”想象画面”与”理解空间”的协同能力。
阅读目录

FantasyWorld的主要功能
-
联合建模视频与3D场景:通过在冻结的视频基础模型中增加可训练的几何分支,FantasyWorld能同时生成视频和3D场景,实现视频潜变量与隐式3D场的联合建模,为下游3D任务提供通用表示。
-
跨分支监督机制:引入几何线索指导视频生成,同时利用视频先验约束3D预测,实现视频与3D信息的交互优化,生成一致且可泛化的3D感知视频。
-
多视角一致性优化:在大视角变化(如180度旋转)下,生成的视频仍能保持高度的多视角连贯性和几何保真度,确保3D场景在不同视角下的稳定性。
-
高效前向传播架构:采用预处理模块(PCBs)和集成重建与生成(IRG)模块,通过多模态条件优化视频和几何特征,确保在单次前向传播中完成高质量的3D场景生成。
-
支持多种下游应用:为AR/VR内容创作、机器人导航等需要3D世界建模的应用提供了强大的技术基础,推动空间智能和人工智能的进一步发展。
FantasyWorld的技术原理
-
几何增强的视频基础模型:在冻结的视频基础模型中增加可训练的几何分支,实现视频潜变量和隐式3D场的联合建模,使模型能同时处理视频生成和3D几何推理。
-
跨分支监督机制:通过几何线索指导视频生成,同时利用视频先验约束3D预测,实现视频与3D信息的交互优化,从而生成一致且可泛化的3D感知视频。
-
多模态数据融合:结合视频数据和几何信息,利用多模态条件优化模型的输出,确保生成的3D场景在视觉和几何方面都具有高度的连贯性和一致性。
-
高效的前向传播架构:采用预处理模块(PCBs)和集成重建与生成(IRG)模块,通过迭代优化视频潜变量和几何特征,确保在单次前向传播中完成高质量的3D场景生成。
-
轻量适配器和交叉注意力:在几何分支和视频分支之间引入轻量适配器和交叉注意力机制,实现两个分支之间的信息交流和协同优化。
FantasyWorld的项目地址
- 项目官网:https://fantasy-amap.github.io/fantasy-world/
- Github仓库:https://github.com/Fantasy-AMAP/fantasy-world
- arXiv技术论文:https://arxiv.org/pdf/2509.21657
FantasyWorld的应用场景
-
AR/VR内容创作:通过生成高质量的3D世界模型,为增强现实(AR)和虚拟现实(VR)应用提供逼真的虚拟环境,支持沉浸式体验的开发。
-
机器人导航:为机器人提供精确的3D环境感知和路径规划支持,帮助机器人更好地理解空间结构,实现更智能的导航和交互。
-
飞行街景:商家可上传手机视频生成高保真3D虚拟漫游街景,用户能提前“身临其境”地了解场所布局,如餐厅座位区等。
-
数字孪生:构建城市的数字孪生模型,用于城市规划、建筑设计和基础设施管理等,提供高精度的3D可视化和模拟。
-
游戏开发:为游戏开发者提供快速生成高质量3D游戏场景的能力,降低开发成本并提升游戏的视觉效果。
📝 站长洞察 (Editor’s Insight)
FantasyWorld的发布标志着3D世界建模进入「视频-几何联合生成」的新阶段。它超越了传统NeRF或视频生成模型的局限,通过冻结视频大模型并嫁接可训练几何分支的巧妙设计,首次让AI模型同时具备「想象画面」与「理解空间」的协同能力。这不仅是技术上的突破,更是应用场景的范式转移。对于高德地图而言,这是其从导航工具向空间智能服务商转型的关键落子;对于行业,它预示着3D内容生产将告别昂贵的手工建模或繁琐的多步骤流程,迈向由视频直接驱动的、高效的、普惠的生成新范式。该框架在飞行街景、机器人导航等场景的潜力,将直接催化元宇宙、具身智能等愿景的落地。
