Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: DragAnything – 快手联合浙大等机构开源的可控视频生成方法
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > DragAnything – 快手联合浙大等机构开源的可控视频生成方法
AIGC 资讯

DragAnything – 快手联合浙大等机构开源的可控视频生成方法

站外新闻
最近更新: 2026年6月8日 下午10:03
SHARE

DragAnything是什么

DragAnything 是快手联合浙江大学和新加坡国立大学 Show Lab推出的,基于实体表示的可控视频生成方法,基于简单的轨迹输入实现对视频中任意物体的精确运动控制。DragAnything用扩散模型的潜在特征表示视频中的每个实体,克服传统方法中单纯拖动像素点无法精确控制物体运动的局限性。DragAnything 提供用户友好的交互方式,支持前景、背景及相机运动的灵活控制,在 FID、FVD 和用户研究等评估指标上达到新的最佳性能。

阅读目录
  • DragAnything是什么
  • DragAnything的主要功能
  • DragAnything的技术原理
  • DragAnything的项目地址
  • DragAnything的应用场景

DragAnything

DragAnything的主要功能

  • 实体级运动控制:对视频中的任何实体(包括前景和背景)进行精确的运动控制,不仅是像素级别的操作。
  • 多实体独立控制:支持同时对多个物体进行独立的运动控制,每个物体根据用户定义的轨迹进行不同的运动。
  • 用户友好的交互方式:用户基于简单的交互(如选择区域并拖动)实现复杂的运动控制,无需复杂的输入信号(如分割掩码或深度图)。
  • 相机运动控制:除控制视频中的物体,DragAnything 能实现相机的运动控制,如缩放和平移。
  • 高质量视频生成:在保持运动控制精度的同时,生成高质量的视频内容,适用于多种应用场景。

DragAnything的技术原理

  • 实体表示:推出新的实体表示方法,从扩散模型的潜在特征中提取语义信息表征视频中的每个物体。将物体的语义特征与运动轨迹相结合,实现精确的实体级运动控制。
  • 2D 高斯表示:引入 2D 高斯表示,基于高斯分布对物体的中心区域赋予更高的权重,减少边缘像素的影响,实现更自然的运动控制。
  • 扩散模型:基于扩散模型架构(如 Stable Video Diffusion),用强大的生成能力和去噪能力生成高质量的视频内容。扩散模型基于逐步去除噪声重建视频帧,结合用户输入的运动轨迹和实体表示。
  • 轨迹引导的运动控制:用户基于绘制简单的轨迹定义物体的运动路径,DragAnything 将轨迹与实体表示相结合,生成符合用户意图的视频内容,避免直接操作像素点的局限性,实现更自然和精确的运动控制。
  • 损失函数与优化:在训练阶段,用带有掩码的均方误差(MSE)损失函数,专注于优化用户指定区域的运动控制,保持其他区域的生成质量。

DragAnything的项目地址

  • 项目官网:https://weijiawu.github.io/draganything
  • GitHub仓库:https://github.com/showlab/DragAnything
  • arXiv技术论文:https://arxiv.org/pdf/2403.07420

DragAnything的应用场景

  • 视频创作与编辑:快速生成动画、调整物体运动轨迹,提升创作效率。
  • 游戏开发:生成角色动作和增强玩家的交互体验。
  • 教育与培训:辅助科学模拟和技能培训,帮助理解复杂运动过程。
  • 广告与营销:制作动态广告和产品展示,突出产品特点。
  • 娱乐与社交:生成互动视频和控制虚拟角色动作,增强趣味性。
PartEdit – KAUST推出的细粒度图像编辑方法
AIGC 起源历程
OpenAI GPT‑5.3 Instant 全面解析:免费、更低幻觉、更自然的轻量级AI对话模型
上海AI Lab开源万亿参数科学大模型Intern-S1-Pro:MoE架构赋能五大科学学科,推动AI4S新范式
Gamma-World – 英伟达推出的多智能体世界模型
分享
Email 复制链接 打印
Share
上一篇 GPT‑5.3‑Codex‑Spark – OpenAI推出的轻量级编程模型
下一篇 STAR – 南大、字节、西南大学联合开源的现实世界视频超分辨率框架
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

普林斯顿×复旦重磅开源:HistAgent,全球首个AI历史研究助手,29种语言+多模态碾压通用大模型
AI 工具 AIGC 资讯
字节跳动发布SeedVR2:单步视频修复模型,以极低成本实现1080p高清画质革新
AI 工具 AIGC 资讯
北大微软联手突破:Next-Frame Diffusion实现30+FPS实时自回归视频生成,扩散模型与因果注意力新范式
AI 工具 AIGC 资讯
美团LLIA框架深度解析:实时音频驱动肖像视频生成,如何实现低延迟高保真交互?
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

Seer – 上海 AI Lab 联合北大等机构推出的端到端操作模型

站外新闻
AIGC 资讯

LangManus – AI自动化框架,多智能体协同完成复杂任务

站外新闻
AIGC 资讯

ImagePulse – 魔搭社区开源的图像理解和生成模型数据集

站外新闻
AI 工具AIGC 资讯

Mercury扩散语言模型深度解析:Inception Labs革新AI生成速度,实现聊天应用极致低延迟

站外新闻
AIGC Inception Labs 并行生成 扩散语言模型
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.