💡 站外导读:在AIGC浪潮席卷全球的今天,如何从静态图像生成跃升至对动态场景的精准控制,是视频生成领域的核心痛点。传统模型常面临视角漂移、物体运动失真等难题,难以满足虚拟现实、游戏开发等应用对高一致性动态内容的需求。VerseCrafter应运而生,作为复旦与腾讯的开源力作,它首次将4D几何控制能力融入视频世界模型,旨在彻底解决动态场景生成中的时空一致性瓶颈,为下一代沉浸式内容创作铺平道路。
VerseCrafter是什么
VerseCrafter 是复旦大学与腾讯 PCG ARC Lab 等机构推出的动态真实视频世界模型,具备 4D 几何控制能力。模型基于大规模真实世界数据集 VerseControl4D 训练,能处理复杂动态场景,保持强时空一致性。用户能指定相机轨迹和目标轨迹,生成高质量、几何一致的视频。模型能在视频生成、虚拟现实和游戏开发等领域具有广阔的应用前景。
阅读目录

VerseCrafter的主要功能
-
4D几何控制:用户能通过指定相机轨迹和多目标的3D高斯轨迹,实现对视频中视角和物体运动的精确控制。
-
灵活的控制模式:模型支持相机单独控制、目标单独控制及相机与目标的联合控制,满足不同场景需求。
-
高质量视频生成:在保持视频真实感的同时,确保生成视频的几何一致性,避免失真。
-
多视角一致性:模型能从不同视角生成一致的视频内容,适用多人交互场景。
-
大规模数据支持:基于VerseControl4D数据集训练,涵盖动态和静态场景,提升模型的泛化能力。
VerseCrafter的技术原理
- 冻结的Wan2.1主干网络:模型采用预训练的Wan2.1作为基础模型,保持强大的视频生成能力和泛化能力,同时在Wan2.1基础上注入几何控制信号。
- GeoAdapter:一个轻量级的几何适配器,将4D控制信号(相机轨迹和3D高斯轨迹)编码为多通道地图,注入到Wan2.1的扩散块中,实现精确控制。
- 4D控制信号渲染:将相机轨迹和目标轨迹渲染为背景RGB/深度图和3D高斯轨迹图,作为条件信号输入到生成模型中。
- VerseControl4D数据集:通过大规模真实世界视频数据,提取相机轨迹和目标轨迹,为模型训练提供丰富的几何监督,支持动态和静态场景的生成。
VerseCrafter的项目地址
- 项目官网:https://sixiaozheng.github.io/VerseCrafter_page/
- GitHub仓库:https://github.com/TencentARC/VerseCrafter
- HuggingFace模型库:https://huggingface.co/TencentARC/VerseCrafter
- arXiv技术论文:https://arxiv.org/pdf/2601.05138
VerseCrafter的应用场景
- 虚拟现实(VR)和增强现实(AR):VerseCrafter 可构建沉浸式虚拟世界,支持用户通过相机和物体运动控制实时探索场景,提升交互体验。
- 游戏开发:为游戏生成动态背景和物体运动,优化视角切换和渲染效果,降低开发成本。
- 视频内容创作:创作者用 VerseCrafter 快速生成高质量动态视频,满足广告、电影和动画制作中的创意需求。
- 教育与培训:VerseCrafter 能创建逼真的虚拟教学场景,如历史重现和科学实验模拟,提升学生的学习兴趣和参与度。
- 娱乐与媒体:用于开发互动式视频内容,如选择式剧情视频,观众可通过控制视角和物体运动改变故事走向。
📝 站长洞察 (Editor’s Insight)
VerseCrafter的发布,标志着视频生成技术从‘内容创造’向‘世界模拟’的关键一步。其核心价值在于将复杂的4D几何控制信号轻量化注入现有生成框架(Wan2.1),这体现了‘小模块、大能力’的工程哲学,极具行业启发性。结合VerseControl4D数据集,模型展现了强大的泛化与控制力,这直接回应了当前多模态大模型在具身智能、世界模型构建上的核心需求。从趋势看,它不仅是工具升级,更是范式预演:未来的内容创作、虚拟交互乃至自动驾驶仿真,都将依赖于此类能精确理解并操纵物理世界动态的生成模型。开源生态的建立(GitHub、HuggingFace)将加速这一进程,推动学术界与产业界在‘可控生成’这一前沿阵地的深度融合。
