Wonderland – 多伦多大学、Snap和UCLA联合推出的单视图3D场景生成技术

最近更新: 2026年6月8日下午11:37

Wonderland是什么

Wonderland是多伦多大学、Snap和UCLA的研究团队推出的技术，能够从单张图像生成高质量、广范围的3D场景，允许控制摄像轨迹。证明了三维重建模型可以有效地建立在扩散模型的潜在空间上，实现高效的三维场景生成，是单视图3D场景生成领域的一次突破性进展。通过结合视频扩散模型和大规模3D重建模型，Wonderland解决了传统3D重建技术中的视角失真问题，实现了精确的视角控制和多视角视频生成。

阅读目录

Wonderland是什么
Wonderland的主要功能
Wonderland的技术原理
Wonderland的项目地址
Wonderland的应用场景

Wonderland的主要功能

视频生成：基于单张图和camera condition，Wonderland能实现视频生成的精准视角控制，生成3D-geometry一致的高质量视频，具有很强的泛化性，可以遵循各种复杂的轨迹，适用于各种风格的输入图片。
3D场景生成：基于单张图，基于LaLRM，Wonderland可以生成高质量的、广阔的3D场景，能够深度探索和生成高质量的、广阔的3D场景。
Zero-shot 3D 场景生成：在单图像输入的前提下，Wonderland可进行高效的3D场景前向重建，在多个基准数据集上的3D场景重建质量均优于现有方法。
广覆盖场景生成能力：Wonderland能高效生成广范围的复杂场景，生成的3D场景具备高度的几何一致性，还具有很强的泛化性，能处理out-of-domain的场景。

Wonderland的技术原理

视频扩散模型与3D重建模型的结合：Wonderland首次证明了三维重建模型可以有效地建立在扩散模型的潜在空间上，实现高效的三维场景生成。视频扩散模型可以精确地按照指定的相机轨迹创建视频，生成包含多视角信息的潜在特征，同时保持三维一致性。
双分支相机控制机制：利用ControlNet和LoRA模块，Wonderland实现了在视频生成过程中对于丰富的相机视角变化的精确控制，显著提升了多视角生成的视频质量、几何一致性和静态特征。
大规模latent-based 3D重建模型（LaLRM）：Wonderland创新地引入了3D重建模型LaLRM，利用视频生成模型生成的latent直接重构3D场景（feed-forward reconstruction）。重建模型的训练采用了高效的逐步训练策略，将视频latent空间中的信息转化为3D高斯点分布（3D Gaussian Splatting, 3DGS），显著降低了内存需求和重建时间成本。
从单张图像到三维世界的关键创新：传统的3D重建技术往往依赖于多视角数据或逐个场景的优化，且在处理背景和不可见区域时容易失真。Wonderland通过结合视频生成模型和大规模3D重建模型，实现了高效高质量的大规模3D场景生成。
向视频扩散模型中嵌入3D意识：通过向视频扩散模型中引入相机位姿控制，Wonderland在视频latent空间中嵌入了场景的多视角信息，并能保证3D一致性。