GEN3C – NVIDIA 联合多伦多大学等推出的生成式视频模型

GEN3C是什么

GEN3C 是NVIDIA、多伦多大学和向量研究所推出的新型生成式视频模型，基于精确的相机控制和时空一致性生成高质量的 3D 视频内容。GEN3C构建基于点云的 3D 缓存指导视频生成，用输入图像或视频帧的深度估计反投影生成 3D 场景，根据用户提供的相机轨迹渲染 2D 视频，作为生成模型的条件输入。GEN3C 的核心优势在于精确控制相机运动，避免传统方法中因缺乏显式 3D 建模导致的不一致性问题。GEN3C支持从单视角到多视角的视频生成，适用于静态和动态场景，在稀疏视图的新型视图合成任务中取得了最先进的结果。GEN3C 支持 3D 编辑和复杂相机运动（如推拉镜头）的生成，为视频创作和模拟提供了强大的工具。

阅读目录

GEN3C是什么
GEN3C的主要功能
GEN3C的技术原理
GEN3C的项目地址
GEN3C的应用场景

GEN3C

GEN3C的主要功能

精确的相机控制：根据用户指定的相机轨迹生成视频，支持复杂的相机运动（如推拉镜头、旋转镜头等），保持视频的时空一致性。
3D 一致性视频生成：支持生成具有真实感和一致性的视频，避免物体突然出现或消失等问题。
多视角和稀疏视角的新型视图合成：支持从单视角、稀疏多视角到密集多视角的输入，生成高质量的新型视图视频。
3D 编辑和场景操作：用户修改 3D 点云（如删除或添加物体）编辑场景，生成相应的视频。
长视频生成：支持生成长视频，同时保持时空一致性。

GEN3C的技术原理

构建 3D 缓存：输入图像或视频帧的深度估计反投影生成 3D 点云，形成时空一致的 3D 缓存。缓存作为视频生成的基础，提供场景的显式 3D 结构。
渲染 3D 缓存：根据用户提供的相机轨迹，将 3D 缓存渲染成 2D 视频。
视频生成：用预训练的视频扩散模型（如 Stable Video Diffusion 或 Cosmos），将渲染的 3D 缓存作为条件输入，生成高质量的视频。模型基于优化扩散过程中的去噪目标，修复渲染中的瑕疵填补缺失信息。
多视角融合：当输入包含多个视角时，GEN3C 基于最大池化的融合策略，将不同视角的信息聚合到视频生成模型中，生成一致的视频。
自回归生成和缓存更新：对于长视频生成，GEN3C 将视频分为多个重叠的块，逐块生成，更新 3D 缓存保持视频的时空一致性。