VACE – 阿里通义推出的视频生成与编辑框架

最近更新: 2026年6月8日下午4:18

VACE是什么

VACE（Video Creation and Editing）是阿里巴巴通义实验室推出的一站式视频生成与编辑框架。基于整合多种视频任务（如参考视频生成、视频到视频编辑、遮罩编辑等）到一个统一模型中，实现高效的内容创作和编辑功能。VACE的核心在于Video Condition Unit（VCU），将文本、图像、视频和遮罩等多种模态输入整合为统一的条件单元，支持多种任务的灵活组合。开源的 Wan2.1-VACE-1.3B 支持 480P 分辨率，Wan2.1-VACE-14B 支持 480P 和 720P 分辨率。实验表明，VACE在多种任务上达到与特定任务模型相当的性能，提供更广泛的应用可能性，为视频内容创作开辟新的路径。

阅读目录

VACE是什么
VACE的主要功能
VACE的技术原理
VACE的项目地址
VACE的应用场景

VACE

VACE的主要功能

文本到视频生成：根据文本提示生成视频。
参考到视频生成：结合文本和参考图像生成视频。
视频扩展：基于现有视频片段生成新的开头或结尾。
视频到视频编辑：对输入视频进行整体风格转换（如色彩化、风格化）。
遮罩视频编辑：在指定区域进行编辑，如修复（Inpainting）、扩展（Outpainting）。
主体移除与重建：移除视频中的特定主体并填充背景。
任务组合与创新：将多种任务组合，例如参考生成+主体替换、姿态控制+视频扩展等。基于姿态、深度、光流等条件控制视频生成。

VACE的技术原理

Video Condition Unit（VCU）：VCU是VACE的核心输入接口，用在整合多种模态的输入（如文本、图像、视频、遮罩）。基于统一的格式将输入传递给模型，支持多种任务的灵活组合。
Context Adapter结构：基于Context Adapter，将不同任务的概念（如编辑区域、参考内容）注入模型。将时间和空间维度的形式化表示，适应不同的任务需求。
扩散模型：基于扩散模型（如Diffusion Transformer）构建，用逐步去噪的方式生成高质量的视频内容。
多模态输入处理：支持文本、图像、视频和遮罩等多种输入模态，基于特定的编码器映射到统一的特征空间。例如，视频VAE（Variational Autoencoder）处理视频输入，分割和掩码操作处理局部编辑任务。
训练与优化策略：基于逐步训练策略，先从基础任务（如修复、扩展）开始，逐步扩展到复杂任务（如组合任务）。支持全模型微调和上下文适配器微调，后者能更快收敛支持插件式功能。