Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: FantasyTalking – 阿里联合北邮推出静态肖像生成可控数字人的框架
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > FantasyTalking – 阿里联合北邮推出静态肖像生成可控数字人的框架
AIGC 资讯

FantasyTalking – 阿里联合北邮推出静态肖像生成可控数字人的框架

站外新闻
最近更新: 2026年6月8日 上午10:51
SHARE

FantasyTalking是什么

FantasyTalking 是阿里巴巴 AMAP 团队和北京邮电大学联合提出的新型框架,用于从单张静态肖像生成逼真的可动画化虚拟形象。基于预训练的视频扩散变换器模型,采用双阶段视听对齐策略,第一阶段通过片段级训练方案建立连贯的全局运动,第二阶段通过唇部追踪掩码在帧级别细化唇部运动,确保与音频信号精确同步。框架引入面部专注的交叉注意力模块来保持面部一致性,通过运动强度调制模块实现对表情和身体运动强度的控制。

阅读目录
  • FantasyTalking是什么
  • FantasyTalking的主要功能
  • FantasyTalking的技术原理
  • FantasyTalking的项目地址
  • FantasyTalking的应用场景

FantasyTalking

FantasyTalking的主要功能

  • 口型同步:能准确识别并同步虚拟角色的口型与输入语音,使角色在说话时的口型与语音内容完全一致,增强了角色的真实感和可信度。
  • 面部动作生成:根据语音内容和情感信息,生成相应的面部动作,如眨眼、皱眉、微笑等,使虚拟角色的表情更加丰富和生动。
  • 全身动作生成:能根据场景和情节需要,生成全身的动作和姿态,如行走、奔跑、跳跃等,使虚拟角色在动画中更加自然和流畅。
  • 运动强度控制:通过运动强度调制模块,用户可以显式控制面部表情和身体运动的强度,实现对肖像运动的可控操纵,不仅限于唇部运动。
  • 多种风格支持:支持多种风格的虚拟形象,写实风格、卡通风格,能生成高质量的对话视频。
  • 多种姿态支持:支持生成具有各种身体范围和朝向的逼真说话视频,包括特写肖像、半身、全身以及正面和侧面姿势。

FantasyTalking的技术原理

  • 双阶段视听对齐策略
    • 片段级训练:在第一阶段,通过片段级训练方案,模型会捕捉音频与整个场景(包括参考肖像、上下文对象和背景)之间的弱相关性,建立全局的视听依赖关系,实现整体特征融合。使模型能学习到与音频相关的非语言线索(如眉毛运动、肩膀动作)和强音频同步的唇部动态。
    • 帧级训练:在第二阶段,模型专注于帧级与音频高度相关的视觉特征细化,特别是唇部动作。通过使用唇部追踪掩码,模型能确保唇部运动与音频信号精确对齐,提高生成视频的质量。
  • 身份保持:传统的参考网络方法通常会限制视频中人物和背景的大范围自然变化。FantasyTalking 采用面部专注的交叉注意力模块,集中建模面部区域,通过交叉注意力机制解耦身份保留与动作生成。更轻量级,能解放对背景和人物自然运动的限制,确保在整个生成的视频序列中保持角色的身份特征。
  • 运动强度调节:FantasyTalking 引入了运动强度调制模块,能显式控制面部表情和身体运动的强度。使用户可以对肖像运动进行可控操纵,不仅限于唇部运动。通过调节运动强度,可以生成更加自然和多样化的动画。
  • 基于预训练的视频扩散变换器模型:FantasyTalking 基于 Wan2.1 视频扩散变换器模型,基于时空建模能力,生成高保真、连贯的说话肖像视频。模型能有效捕捉音频信号与唇部运动、面部表情以及身体动作之间的关系,生成高质量的动态肖像。

FantasyTalking的项目地址

  • 项目官网:https://fantasy-amap.github.io/fantasy-talking/
  • Github仓库:https://github.com/Fantasy-AMAP/fantasy-talking
  • arXiv技术论文:https://arxiv.org/pdf/2504.04842

FantasyTalking的应用场景

  • 游戏开发:在游戏开发中,FantasyTalking 可用于生成游戏角色的对话动画和战斗动画。能根据语音内容生成精准的口型同步、丰富的面部表情和自然的全身动作,使游戏角色更加生动逼真,提升游戏的视觉效果和玩家的沉浸感。
  • 影视制作:在影视制作中,可用于生成虚拟角色的表演动画和特效动画。通过 FantasyTalking 可以快速生成具有复杂表情和动作的虚拟角色,减少传统动画制作中的人力和时间成本,为影视作品增添更多的创意和想象力。
  • 虚拟现实和增强现实:在虚拟现实(VR)和增强现实(AR)应用中,FantasyTalking 可以生成虚拟角色的交互动画和引导动画。
  • 虚拟主播:FantasyTalking 可以用于生成虚拟主播的动画视频。支持多种风格的虚拟形象,虚拟主播可以用于新闻播报、直播带货、在线教育等多种场景,具有较高的实用性和灵活性。
  • 智能教育:在智能教育领域,FantasyTalking 可以生成虚拟教师或虚拟助教的动画视频。
颠覆性突破!全球首个多智能体AI科学家Robin 2小时完成900小时科研,登顶Nature
Open Code Review – 阿里开源的 AI 代码审查 CLI 工具
QLIP – 英伟达推出的视觉标记化方法
3.3%幻觉率登顶三大榜单!Baichuan-M4医疗大模型与‘百小医’家庭医生微信生态全解析
2026高考AI防作弊硬核举措:主流大模型限时上锁,精准掐断秒级解题通道
分享
Email 复制链接 打印
Share
上一篇 X-Dancer – 字节等机构推出音乐驱动的人像舞蹈视频生成框架
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

X-Dancer – 字节等机构推出音乐驱动的人像舞蹈视频生成框架
AIGC 资讯
Open-Sora 2.0 – 潞晨科技开源的AI视频生成模型
AIGC 资讯
Umi-OCR – 免费 OCR 文字识别工具,支持截图、批量图片排版解析
AIGC 资讯
DreamO – 字节联合北大推出的图像定制生成框架
AIGC 资讯

相关推荐

AIGC 资讯最新趋势

AI支付革命:蚂蚁集团CEO韩歆毅发布全球首个Token Pay,定义智能体经济新基建

站外新闻
AI支付 Token Pay 支付宝 蚂蚁集团
AIGC 资讯

ImagePulse – 魔搭社区开源的图像理解和生成模型数据集

站外新闻
AIGC 资讯

Eagle 2.5 – 英伟达推出的视觉语言模型

站外新闻
AI 工具AIGC 资讯最新趋势

2026世界杯人机大战引爆!联想携手DeepSeek等顶尖AI大模型,对战亿万球迷预测冠军

站外新闻
AIGC DeepSeek 世界杯预测 联想
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AGI AI AI Agent AIGC AI商业化 AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI生成内容 AI监管 AI绘画 AI编程 AI编程工具 AI编程智能体 AI芯片 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenRouter Pika prompt SpaceX stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多模态 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源大模型 开源工具 开源框架 开源模型 强化学习 微软 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 联想 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.