VideoJAM – Meta 推出增强视频生成模型运动连贯性的框架

最近更新: 2026年6月9日上午3:23

VideoJAM是什么

VideoJAM是Meta推出的，用在增强视频生成模型运动连贯性的框架。基于引入联合外观-运动表示，让模型在训练阶段同时学习预测视频的像素和运动信息，在推理阶段基于模型自身的运动预测作为动态引导信号，生成更连贯的运动。VideoJAM在训练目标中加入运动预测，在推理时采用Inner-Guidance机制，显著提升视频生成中的运动连贯性，同时保持视觉质量。VideoJAM具有通用性，能用在任何视频生成模型，无需修改训练数据或扩大模型规模，在多个基准测试中超越现有最先进模型，为视频生成技术的发展提供新的思路。

阅读目录

VideoJAM是什么
VideoJAM的主要功能
VideoJAM的技术原理
VideoJAM的项目地址
VideoJAM的应用场景

VideoJAM

VideoJAM的主要功能

提升运动连贯性：基于联合学习外观和运动，生成更自然、更连贯的运动，减少视频生成中的变形和物理错误。
提高视觉质量：在提升运动连贯性的同时，优化生成视频的整体视觉质量，让视频看起来更真实。
通用性：VideoJAM能用在任何视频生成模型，无需对训练数据或模型规模进行修改，具有广泛的适用性。
动态引导机制：在推理阶段，用模型自身的运动预测作为动态引导信号，确保生成的视频在运动上更加合理和连贯。

VideoJAM的技术原理

联合外观-运动表示：
- 训练阶段：VideoJAM在训练时，不仅预测视频的像素（外观），还预测视频的运动信息（如光流）。为此，它在模型的输入端添加了一个线性层，将视频和运动信息合并为一个联合表示；在输出端添加另一个线性层，从联合表示中提取运动预测。目标函数也被修改为同时优化外观和运动的预测。
- 运动表示：VideoJAM使用光流作为运动表示，将光流转换为RGB视频，以便模型能够处理运动信息。
动态引导机制（Inner-Guidance）：在生成视频时，VideoJAM利用模型自身不断演化的运动预测作为动态引导信号。基于修改采样分布，引导生成过程朝着连贯运动的方向发展。这种机制确保了生成的视频在运动上更加合理和自然。
通用性和适配性：VideoJAM的设计非常通用，只需在现有视频生成模型中添加两个线性层，并对目标函数进行少量修改即可。它不需要额外的训练数据或模型规模的扩展，可以轻松应用于各种视频生成模型。