DragAnything – 快手联合浙大等机构开源的可控视频生成方法

最近更新: 2026年6月8日下午10:03

DragAnything是什么

DragAnything 是快手联合浙江大学和新加坡国立大学 Show Lab推出的，基于实体表示的可控视频生成方法，基于简单的轨迹输入实现对视频中任意物体的精确运动控制。DragAnything用扩散模型的潜在特征表示视频中的每个实体，克服传统方法中单纯拖动像素点无法精确控制物体运动的局限性。DragAnything 提供用户友好的交互方式，支持前景、背景及相机运动的灵活控制，在 FID、FVD 和用户研究等评估指标上达到新的最佳性能。

阅读目录

DragAnything是什么
DragAnything的主要功能
DragAnything的技术原理
DragAnything的项目地址
DragAnything的应用场景

DragAnything

DragAnything的主要功能

实体级运动控制：对视频中的任何实体（包括前景和背景）进行精确的运动控制，不仅是像素级别的操作。
多实体独立控制：支持同时对多个物体进行独立的运动控制，每个物体根据用户定义的轨迹进行不同的运动。
用户友好的交互方式：用户基于简单的交互（如选择区域并拖动）实现复杂的运动控制，无需复杂的输入信号（如分割掩码或深度图）。
相机运动控制：除控制视频中的物体，DragAnything 能实现相机的运动控制，如缩放和平移。
高质量视频生成：在保持运动控制精度的同时，生成高质量的视频内容，适用于多种应用场景。

DragAnything的技术原理

实体表示：推出新的实体表示方法，从扩散模型的潜在特征中提取语义信息表征视频中的每个物体。将物体的语义特征与运动轨迹相结合，实现精确的实体级运动控制。
2D 高斯表示：引入 2D 高斯表示，基于高斯分布对物体的中心区域赋予更高的权重，减少边缘像素的影响，实现更自然的运动控制。
扩散模型：基于扩散模型架构（如 Stable Video Diffusion），用强大的生成能力和去噪能力生成高质量的视频内容。扩散模型基于逐步去除噪声重建视频帧，结合用户输入的运动轨迹和实体表示。
轨迹引导的运动控制：用户基于绘制简单的轨迹定义物体的运动路径，DragAnything 将轨迹与实体表示相结合，生成符合用户意图的视频内容，避免直接操作像素点的局限性，实现更自然和精确的运动控制。
损失函数与优化：在训练阶段，用带有掩码的均方误差（MSE）损失函数，专注于优化用户指定区域的运动控制，保持其他区域的生成质量。

DragAnything的项目地址

项目官网：https://weijiawu.github.io/draganything
GitHub仓库：https://github.com/showlab/DragAnything
arXiv技术论文：https://arxiv.org/pdf/2403.07420

DragAnything的应用场景

视频创作与编辑：快速生成动画、调整物体运动轨迹，提升创作效率。
游戏开发：生成角色动作和增强玩家的交互体验。
教育与培训：辅助科学模拟和技能培训，帮助理解复杂运动过程。
广告与营销：制作动态广告和产品展示，突出产品特点。
娱乐与社交：生成互动视频和控制虚拟角色动作，增强趣味性。

GPT‑5.3‑Codex‑Spark – OpenAI推出的轻量级编程模型

STAR – 南大、字节、西南大学联合开源的现实世界视频超分辨率框架

发表评价

DragAnything – 快手联合浙大等机构开源的可控视频生成方法

DragAnything是什么

DragAnything的主要功能

DragAnything的技术原理

DragAnything的项目地址

DragAnything的应用场景

发表评价取消回复

最近更新

GPT‑5.3‑Codex‑Spark – OpenAI推出的轻量级编程模型

GPT‑5.3 Instant – OpenAI 推出的轻量级对话模型

GPT‑5.4 – OpenAI推出面向专业工作的旗舰AI模型

Ming‑Flash‑Omni 2.0 – 蚂蚁开源的全模态大模型

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

DragAnything是什么

DragAnything的主要功能

DragAnything的技术原理

DragAnything的项目地址

DragAnything的应用场景

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复