Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: FantasyTalking – 阿里联合北邮推出静态肖像生成可控数字人的框架
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > FantasyTalking – 阿里联合北邮推出静态肖像生成可控数字人的框架
AIGC 资讯

FantasyTalking – 阿里联合北邮推出静态肖像生成可控数字人的框架

站外新闻
最近更新: 2026年6月8日 上午10:51
SHARE

FantasyTalking是什么

FantasyTalking 是阿里巴巴 AMAP 团队和北京邮电大学联合提出的新型框架,用于从单张静态肖像生成逼真的可动画化虚拟形象。基于预训练的视频扩散变换器模型,采用双阶段视听对齐策略,第一阶段通过片段级训练方案建立连贯的全局运动,第二阶段通过唇部追踪掩码在帧级别细化唇部运动,确保与音频信号精确同步。框架引入面部专注的交叉注意力模块来保持面部一致性,通过运动强度调制模块实现对表情和身体运动强度的控制。

阅读目录
  • FantasyTalking是什么
  • FantasyTalking的主要功能
  • FantasyTalking的技术原理
  • FantasyTalking的项目地址
  • FantasyTalking的应用场景

FantasyTalking

FantasyTalking的主要功能

  • 口型同步:能准确识别并同步虚拟角色的口型与输入语音,使角色在说话时的口型与语音内容完全一致,增强了角色的真实感和可信度。
  • 面部动作生成:根据语音内容和情感信息,生成相应的面部动作,如眨眼、皱眉、微笑等,使虚拟角色的表情更加丰富和生动。
  • 全身动作生成:能根据场景和情节需要,生成全身的动作和姿态,如行走、奔跑、跳跃等,使虚拟角色在动画中更加自然和流畅。
  • 运动强度控制:通过运动强度调制模块,用户可以显式控制面部表情和身体运动的强度,实现对肖像运动的可控操纵,不仅限于唇部运动。
  • 多种风格支持:支持多种风格的虚拟形象,写实风格、卡通风格,能生成高质量的对话视频。
  • 多种姿态支持:支持生成具有各种身体范围和朝向的逼真说话视频,包括特写肖像、半身、全身以及正面和侧面姿势。

FantasyTalking的技术原理

  • 双阶段视听对齐策略
    • 片段级训练:在第一阶段,通过片段级训练方案,模型会捕捉音频与整个场景(包括参考肖像、上下文对象和背景)之间的弱相关性,建立全局的视听依赖关系,实现整体特征融合。使模型能学习到与音频相关的非语言线索(如眉毛运动、肩膀动作)和强音频同步的唇部动态。
    • 帧级训练:在第二阶段,模型专注于帧级与音频高度相关的视觉特征细化,特别是唇部动作。通过使用唇部追踪掩码,模型能确保唇部运动与音频信号精确对齐,提高生成视频的质量。
  • 身份保持:传统的参考网络方法通常会限制视频中人物和背景的大范围自然变化。FantasyTalking 采用面部专注的交叉注意力模块,集中建模面部区域,通过交叉注意力机制解耦身份保留与动作生成。更轻量级,能解放对背景和人物自然运动的限制,确保在整个生成的视频序列中保持角色的身份特征。
  • 运动强度调节:FantasyTalking 引入了运动强度调制模块,能显式控制面部表情和身体运动的强度。使用户可以对肖像运动进行可控操纵,不仅限于唇部运动。通过调节运动强度,可以生成更加自然和多样化的动画。
  • 基于预训练的视频扩散变换器模型:FantasyTalking 基于 Wan2.1 视频扩散变换器模型,基于时空建模能力,生成高保真、连贯的说话肖像视频。模型能有效捕捉音频信号与唇部运动、面部表情以及身体动作之间的关系,生成高质量的动态肖像。

FantasyTalking的项目地址

  • 项目官网:https://fantasy-amap.github.io/fantasy-talking/
  • Github仓库:https://github.com/Fantasy-AMAP/fantasy-talking
  • arXiv技术论文:https://arxiv.org/pdf/2504.04842

FantasyTalking的应用场景

  • 游戏开发:在游戏开发中,FantasyTalking 可用于生成游戏角色的对话动画和战斗动画。能根据语音内容生成精准的口型同步、丰富的面部表情和自然的全身动作,使游戏角色更加生动逼真,提升游戏的视觉效果和玩家的沉浸感。
  • 影视制作:在影视制作中,可用于生成虚拟角色的表演动画和特效动画。通过 FantasyTalking 可以快速生成具有复杂表情和动作的虚拟角色,减少传统动画制作中的人力和时间成本,为影视作品增添更多的创意和想象力。
  • 虚拟现实和增强现实:在虚拟现实(VR)和增强现实(AR)应用中,FantasyTalking 可以生成虚拟角色的交互动画和引导动画。
  • 虚拟主播:FantasyTalking 可以用于生成虚拟主播的动画视频。支持多种风格的虚拟形象,虚拟主播可以用于新闻播报、直播带货、在线教育等多种场景,具有较高的实用性和灵活性。
  • 智能教育:在智能教育领域,FantasyTalking 可以生成虚拟教师或虚拟助教的动画视频。
一键鞭打AI!OpenWhip:开源桌面神器,专治Claude Code死循环与卡顿
混元图像2.0 – 腾讯推出的实时AI图片生成大模型
谷歌Gemini Omni Flash深度解析:多模态世界模型如何统一视频生成、编辑与交互
WebThinker – 人民大学联合智源研究院等机构推出的深度研究智能体
OpenVision – 加州大学开源的视觉编码器家族
分享
Email 复制链接 打印
Share
上一篇 X-Dancer – 字节等机构推出音乐驱动的人像舞蹈视频生成框架
下一篇 TripoSR – Stability AI 联合 VAST 开源的 3D 生成模型
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

FlowDirector:无需训练,一文看懂西湖&中南大学如何用ODE革新AI视频编辑,精准指令直达
AI 工具 AIGC 资讯
字节跳动DreamActor-H1:DiT框架革新电商视频生成,3D动作引导+身份保留引领AIGC商业化
AI 工具
Kimi-Dev 72B 开源代码模型登顶SWE-bench!月之暗面发布,超越DeepSeek-R1,编程能力堪比闭源模型
AI 工具 AIGC 资讯
ThinkChain开源框架:实时反馈工具结果,让AI(如Claude)思考更智能、决策更精准
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

FLUX-Text – 阿里推出的多语言场景文本编辑框架

站外新闻
AIGC 资讯

VITRON – Skywork AI 联合新加坡国立、南洋理工推出的像素级视觉大型语言模型

站外新闻
AIGC 资讯

HealthBench – OpenAI推出的开源医疗测试基准

站外新闻
AIGC 资讯

MetaStone-L1-7B – 元石智算推出的轻量级推理模型

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.