Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Sonic – 腾讯联合浙大推出的音频驱动肖像动画框架
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > Sonic – 腾讯联合浙大推出的音频驱动肖像动画框架
AIGC 资讯

Sonic – 腾讯联合浙大推出的音频驱动肖像动画框架

站外新闻
最近更新: 2026年6月9日 上午6:59
SHARE

Sonic是什么

Sonic是腾讯和浙江大学推出的音频驱动肖像动画框架,基于全局音频感知生成逼真的面部表情和动作。Sonic基于上下文增强音频学习和运动解耦控制器,分别提取音频片段内的长期时间音频知识和独立控制头部与表情运动,增强局部音频感知能力。Sonic用时间感知位置偏移融合机制,将局部音频感知扩展到全局,解决长视频生成中的抖动和突变问题。Sonic在视频质量、唇部同步精度、运动多样性和时间连贯性方面优于现有的最先进方法,显著提升肖像动画的自然性和连贯性,支持用户对动画的精细调整。

阅读目录
  • Sonic是什么
  • Sonic的主要功能
  • Sonic的技术原理
  • Sonic的实验结果
  • Sonic的生成效果
  • Sonic的项目地址
  • Sonic的应用场景

Sonic

Sonic的主要功能

  • 逼真的唇部同步:精确地将音频与唇部动作对齐,确保说话内容与嘴型高度一致。
  • 丰富的表情和头部动作:生成多样化且自然的面部表情和头部运动,让动画更具生动性和表现力。
  • 长时间稳定生成:在处理长视频时,能保持稳定的输出,避免抖动和突变,确保整体连贯性。
  • 用户可调节性:支持用户基于参数调整控制头部运动、表情强度和唇部同步效果,提供高度的可定制性。

Sonic的技术原理

  • 上下文增强音频学习:提取音频片段内的长期时间音频知识,将音频信号中的语调、语速等信息转化为面部表情和唇部运动的先验知识。Whisper-Tiny模型提取音频特征,基于多尺度理解将特征与空间交叉注意力层结合,指导空间帧的生成。
  • 运动解耦控制器:将头部运动和表情运动解耦,分别用独立的参数控制,增强动画的多样性和自然性。支持用户自定义夸张运动,基于调整运动桶参数(motion-bucket parameters)控制头部和表情运动的幅度。
  • 时间感知位置偏移融合:基于时间感知的滑动窗口策略,将音频片段的局部感知扩展到全局感知,解决长视频生成中的抖动和突变问题。在每个时间步中,模型从新的位置开始处理音频片段,逐步融合全局音频信息,确保长视频的连贯性。
  • 全局音频驱动:Sonic完全依赖音频信号驱动动画生成,避免传统方法中对视觉信号(如运动帧)的依赖,提高生成的自然性和时间一致性。音频信号作为全局信号,为面部表情和头部运动提供隐式的先验信息,让生成的动画更加符合音频内容。

Sonic的实验结果

  • 定量比较:
    • 在 HDTF 和 CelebV-HQ 数据集上,Sonic 在多个评估指标上优于现有的 SOTA 方法,包括 FID(Fréchet Inception Distance)、FVD(Fréchet Video Distance)、唇部同步精度(Sync-C、Sync-D)和视频流畅度(Smoothness)。
    • Sonic 的 FID 和 FVD 分数显著低于其他方法,表明其生成的视频质量更高,与真实数据的一致性更好。
  • 定性比较:Sonic 能生成更自然、更多样的面部表情和头部动作,尤其是在处理复杂背景和不同风格的肖像时,表现出更强的鲁棒性。

Sonic的生成效果

  • 与开源方法对比:Sonic能生成更符合音频的丰富表情,促进更自然的头部运动。

Sonic

  • 与闭源方法对比:
    • 与EMO对比
      • Sonic在面部表情的自然度和眼镜反射的真实感方面表现更好。

Sonic

      • 在歌唱场景中,Sonic展现出更精确的发音和更多样的动作。

Sonic

    • 与即梦对比:
      • 在动漫案例中,Sonic的嘴唇动作和外观更贴近原始输入,并伴有眨眼动作。

Sonic

      • 在长视频生成中,Sonic不受运动帧的限制,避免视频末尾出现伪影。

Sonic

Sonic的项目地址

  • 项目官网:https://jixiaozhong.github.io/Sonic/
  • GitHub仓库:https://github.com/jixiaozhong/Sonic
  • arXiv技术论文:https://arxiv.org/pdf/2411.16331
  • 在线体验Demo:http://demo.sonic.jixiaozhong.online/

Sonic的应用场景

  • 虚拟现实(VR):为虚拟角色生成逼真的表情和口型,增强沉浸感。
  • 影视制作:快速生成角色的口型和表情动画,提高制作效率。
  • 在线教育:将教师语音转化为生动的动画,提升学习趣味性。
  • 游戏开发:生成游戏角色的自然表情和动作,增强真实感。
  • 社交媒体:用户可将语音与照片结合,生成个性化动画视频分享。
MetaStone-L1-7B – 元石智算推出的轻量级推理模型
NotaGen – 中央音乐学院联合北航、清华等推出的音乐生成模型
AI声纹侵权第一案:日本声优起诉TikTok盗用声音,灰色产业链引发版权危机
MIDI – AI 3D场景生成技术,能将单张图像转化为360度3D场景
BizGen – 清华大学联合微软推出的AI信息图生成工具
分享
Email 复制链接 打印
Share
上一篇 DynamicFace – 小红书联合上海交大等推出的视频换脸技术
下一篇 LLaDA – 人大高瓴AI联合蚂蚁推出的扩散大语言模型
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

DataClaw开源发布:一键导出AI对话,自动生成安全训练集,助力大模型微调
AI 工具 AIGC 资讯
OpenSandbox:阿里巴巴开源AI应用安全沙箱平台,为Agent与代码执行构建企业级隔离环境
AI 工具 AIGC 资讯
Goose:Block开源本地AI Agent框架,自主Debug、多模型切换,颠覆传统开发!
AI 工具 AIGC 资讯
阿里通义Fun-CosyVoice3.5重磅发布:一句话控制语气语速,13语种低延迟语音生成
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

WarriorCoder – 微软联合华南理工大学推出的代码生成大模型

站外新闻
AIGC 资讯

WebSSL – Meta联合纽约大学等机构推出的视觉自监督学习系列模型

站外新闻
AIGC 资讯

MiniRAG – 港大推出高效部署小语言模型的新型 RAG 系统

站外新闻
AIGC 资讯

MVoT – 微软联合剑桥和中科院推出的多模态推理可视化框架

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI绘画 AI编程 AI编程工具 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenClaw OpenRouter Pika prompt stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 强化学习 微软 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 清华大学 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 联想 腾讯 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.