SketchVideo – 快手联合多所高校推出基于草图的视频生成与编辑框架

最近更新: 2026年6月7日下午8:03

SketchVideo是什么

SketchVideo 是中国科学院大学，香港科技大学和快手可灵团队推出的基于草图的视频生成与编辑框架。在关键帧上绘制草图，结合文本提示，实现对视频的空间布局和运动的精细控制。框架基于 DiT 视频生成模型，设计高效的草图控制网络，包含草图控制块和帧间注意力机制，能将稀疏的关键帧草图条件传播到所有视频帧中。SketchVideo 支持对真实或合成视频的细粒度编辑，基于视频插入模块和潜在融合技术，确保新内容与原始视频在空间和时间上的一致性，保留未编辑区域的细节。

阅读目录

SketchVideo是什么
SketchVideo的主要功能
SketchVideo的技术原理
SketchVideo的项目地址
SketchVideo的应用场景

SketchVideo

SketchVideo的主要功能

视频生成：基于草图和文本生成视频。
视频编辑：在关键帧上画草图修改视频内容。
动态控制：支持运动插值和外推。
细节保留：编辑时保留未修改区域的细节。
高效生成：内存优化，快速生成高质量视频。

SketchVideo的技术原理

草图条件网络：基于DiT（Diffusion-based Transformer）视频生成模型，设计专门的草图条件网络。草图条件网络包含多个草图控制块，预测跳过的DiT块的残差特征。草图控制块均匀分布在DiT块中，在不同层次的特征中注入控制信号。
帧间注意力机制：基于帧间注意力机制，将关键帧上的草图条件传播到所有视频帧。计算所有帧的隐藏特征与控制帧的隐藏特征之间的关系，实现对草图特征的时空传播。
视频插入模块：在视频编辑任务中，设计视频插入模块，分析输入草图与原始视频之间的关系。模块生成与原始视频空间和时间上一致的新内容，确保编辑后的视频与原始视频无缝融合。
潜在融合技术：在推理过程中，基于DDIM（Denoising Diffusion Implicit Models）反演生成输入视频的噪声潜在码。在未编辑区域替换这些潜在码，保留原始视频的细节，确保编辑后的视频在视觉上自然、连贯。
混合训练策略：基于混合训练策略，结合图像和视频数据进行训练。在训练的第一阶段，用图像和视频数据，加速收敛并解决视频数据有限的问题。在第二阶段，用视频数据，进一步优化时间连贯性。