OmniCam – 浙大联合上海交大等高校推出的多模态视频生成框架

最近更新: 2026年6月8日上午3:11

OmniCam是什么

OmniCam 是先进的多模态视频生成框架，通过摄像机控制实现高质量的视频生成。支持多种输入模态组合，用户可以提供文本描述、视频中的轨迹或图像作为参考，精确控制摄像机的运动轨迹。OmniCam 结合了大型语言模型（LLM）和视频扩散模型，能生成时空一致的视频内容。通过三阶段训练策略，包括大规模模型训练、视频扩散模型训练以及强化学习微调，确保生成视频的准确性和连贯性。

阅读目录

OmniCam是什么
OmniCam的主要功能
OmniCam的技术原理
OmniCam的项目地址
OmniCam的应用场景

OmniCam

OmniCam的主要功能

多模态输入支持：用户可以提供文本或视频作为轨迹参考，以及图像或视频作为内容参考，实现对摄像机运动的精确控制。
高质量视频生成：基于大型语言模型和视频扩散模型，生成时空一致的高质量视频。
灵活的摄像机控制：
- 支持帧级控制，可设置操作的起始和结束帧。
- 支持任意方向的复合运动、相机拉近和推远，移动和旋转到任意角度。
- 支持速度控制，为快速剪辑提供基础。
- 支持多种操作的无缝连接，支持长序列操作，允许连续执行多个指令。
- 支持常见的特效如相机旋转。
数据集支持：引入了 OmniTr 数据集，是首个针对多模态相机控制的大型数据集，为模型训练提供了坚实的基础。

OmniCam的技术原理

轨迹规划：用户输入文本或视频后，OmniCam 首先将这些输入转化为离散运动表示，将复杂的指令拆解成一个个简单的动作。通过精准的轨迹规划算法，计算出每一帧画面中相机的具体位置和姿态，为后续的生成做好准备。具体来说，算法将相机运动围绕物体中心建模为球面运动，计算出轨迹上每一点的空间位置，转换为相机外参序列。
内容渲染：结合用户提供的内容参考（图像或视频）以及规划好的相机轨迹，OmniCam 运用先进的 3D 重建技术，渲染出初始视角的视频帧，在渲染过程中，会使用点云、相机内参和外参等信息，通过特定算法优化相机内参，完成视频帧的渲染。
细节完善：在渲染过程中，OmniCam 的扩散模型会基于自身的先验知识，对视频帧进行细节补充，填补那些空白区域，最终生成出完整、精美的视频。
大规模模型训练：以 Llama3.1 为骨干网络进行微调，训练大规模模型。
视频扩散模型训练：对视频扩散模型进行训练。
强化学习微调：冻结下游视频生成模型，将其作为奖励模型，利用 PPO 算法对轨迹大模型进行微调，以优化模型性能。