Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Perception-as-Control – 阿里通义实验室推出的图像动画框架
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > Perception-as-Control – 阿里通义实验室推出的图像动画框架
AIGC 资讯

Perception-as-Control – 阿里通义实验室推出的图像动画框架

站外新闻
最近更新: 2026年6月9日 上午10:46
SHARE

Perception-as-Control是什么

Perception-as-Control是阿里巴巴通义实验室推出的图像动画框架,能根据用户意图实现细粒度的运动控制。Perception-as-Control基于构建3D感知运动表示,将相机和物体运动转化为直观、一致的视觉变化,用感知结果作为运动控制信号,支持多种与运动相关的视频合成任务。Perception-as-Control框架基于U-Net架构的扩散模型,结合参考图像的外观信息和运动控制信号的运动信息,生成可控的图像动画。Perception-as-Control推出三阶段训练策略,平衡相机和物体运动控制,促进细粒度运动控制,在多种应用场景中展现出优越的性能。

阅读目录
  • Perception-as-Control是什么
  • Perception-as-Control的主要功能
  • Perception-as-Control的技术原理
  • Perception-as-Control的项目地址
  • Perception-as-Control的应用场景

Perception-as-Control

Perception-as-Control的主要功能

  • 细粒度协同运动控制:实现相机和物体运动的协同控制,支持用户用细粒度的方式控制动画中的各个元素。让用户精确地调整场景中物体的运动及相机的视角变化。
  • 多种运动相关视频合成任务:支持多种与运动相关的视频合成任务,包括基于图像的运动生成、基于视频的运动克隆、运动转移和运动编辑。
    • 运动生成:根据用户输入的参考图像和2D轨迹生成动画。
    • 运动克隆:模仿源视频中的相机和物体运动。
    • 运动转移:将源视频中的局部运动转移到参考图像中的不同位置和尺度的对象上。
    • 运动编辑:用户提供分割掩码,编辑分割掩码内的运动。
  • 3D感知运动表示:基于构建3D感知运动表示,将复杂的3D场景简化为关键对象部分(用单位球表示)和世界包络,实现直观且一致的视觉变化。

Perception-as-Control的技术原理

  • 3D感知运动表示:将3D场景简化为关键对象部分(用单位球表示)和世界包络,基于3D点跟踪和视觉里程计技术捕捉局部物体运动和全局相机运动。
  • 网络架构:基于去噪U-Net架构,用两个轻量级编码器分别编码相机和物体控制信号,避免RGB级别的干扰,融合模块合并编码信号。
  • 参考图像注入:ReferenceNet将参考图像的外观信息注入到生成过程中,确保生成的视频保持参考图像的特定外观。
  • 三阶段训练策略:
    • 第一阶段:仅训练相机编码器,处理仅含相机运动的视频剪辑。
    • 第二阶段:加入物体编码器和融合模块,处理包含相机和物体运动的视频剪辑。
    • 第三阶段:基于稀疏单位球实现细粒度物体运动控制,自适应确定每个渲染点的控制范围。
  • 扩散模型:用图像扩散概率模型的基本原理,使用去噪U-Net架构生成视频,优化目标是最小化预测噪声与实际噪声之间的差异,条件输入包括参考图像和运动控制信号。

Perception-as-Control的项目地址

  • 项目官网:https://chen-yingjie.github.io/projects/Perception-as-Control/
  • GitHub仓库:https://github.com/chen-yingjie/Perception-as-Control
  • arXiv技术论文:https://arxiv.org/pdf/2501.05020

Perception-as-Control的应用场景

  • 电影和视频特效:生成具有特定运动的动画场景,模仿现有视频中的复杂运动,或将一个角色的运动转移到另一个角色上。
  • 游戏开发:为游戏角色和物体生成自然且可控的动画,提升游戏的沉浸感和动态效果。
  • 虚拟现实(VR)和增强现实(AR):在VR环境中生成实时动画反馈,增强用户互动体验;在AR应用中将虚拟物体动画与现实场景融合。
  • 广告和营销:生成吸引人的动态广告和品牌推广动画,提升品牌形象和记忆点。
  • 教育和培训:生成科学实验动画和技能培训模拟动画,帮助学生和学员更好地理解和掌握知识和技能。
story-flicks – AI视频生成工具,一键生成高清故事短视频
StochSync – AI图像生成技术,为360°全景图和3D网格纹理生成高质量图像
拼多多重拳出击!AI押题、数据投毒等灰产被全面封禁,上半年已出台40余项治理措施
InfiniteYou – 字节跳动开源的身份保持图像生成框架
YuLan-OneSim – 人大高瓴AI团队推出的社会模拟器
分享
Email 复制链接 打印
Share
上一篇 Matrix-Game – 昆仑万维开源的工业界首个空间智能大模型
下一篇 Weebo – AI语音聊天机器人,实时响应用户语音指令和问题
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

腾讯清华联手开源SongGeneration 2:4B参数音乐大模型,性能超越Suno v5,1分钟生成完整歌曲
AI 工具 AIGC 资讯
谷歌Gemini Embedding 2重磅发布:首个原生多模态嵌入模型,统一文本图像音频向量空间
AI 工具 AIGC 资讯
港大重磅开源CLI-Anything:一键将GIMP、Blender等软件代码库转为AI Agent原生工具,彻底告别脆弱GUI自动化
AI 工具 AIGC 资讯
Lightricks LTX-2.3 开源发布:220亿参数视频生成模型,支持4K竖屏与音视频同步
AI 工具

相关推荐

AIGC 资讯

rStar-Math – 微软推出的小模型复杂推理与自进化SLMs的创新技术

站外新闻
AIGC 资讯

ART – 微软联合清华和北大等推出的多层透明图像生成技术

站外新闻
AIGC 资讯

FluxSR – 上海交大联合华为等高校推出的图像超分辨率模型

站外新闻
AI 工具AIGC 资讯

Cursor Composer 2模型发布:$2.50/M token逼近GPT-5.4,AI编程Agent性价比新标杆

站外新闻
AI编程 Composer 2 Cursor 大模型 编程Agent
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI绘画 AI编程 AI编程工具 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenClaw OpenRouter Pika prompt stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 强化学习 微软 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 清华大学 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 联想 腾讯 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.