Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Sonic – 腾讯联合浙大推出的音频驱动肖像动画框架
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > Sonic – 腾讯联合浙大推出的音频驱动肖像动画框架
AIGC 资讯

Sonic – 腾讯联合浙大推出的音频驱动肖像动画框架

站外新闻
最近更新: 2026年6月9日 上午6:59
SHARE

Sonic是什么

Sonic是腾讯和浙江大学推出的音频驱动肖像动画框架,基于全局音频感知生成逼真的面部表情和动作。Sonic基于上下文增强音频学习和运动解耦控制器,分别提取音频片段内的长期时间音频知识和独立控制头部与表情运动,增强局部音频感知能力。Sonic用时间感知位置偏移融合机制,将局部音频感知扩展到全局,解决长视频生成中的抖动和突变问题。Sonic在视频质量、唇部同步精度、运动多样性和时间连贯性方面优于现有的最先进方法,显著提升肖像动画的自然性和连贯性,支持用户对动画的精细调整。

阅读目录
  • Sonic是什么
  • Sonic的主要功能
  • Sonic的技术原理
  • Sonic的实验结果
  • Sonic的生成效果
  • Sonic的项目地址
  • Sonic的应用场景

Sonic

Sonic的主要功能

  • 逼真的唇部同步:精确地将音频与唇部动作对齐,确保说话内容与嘴型高度一致。
  • 丰富的表情和头部动作:生成多样化且自然的面部表情和头部运动,让动画更具生动性和表现力。
  • 长时间稳定生成:在处理长视频时,能保持稳定的输出,避免抖动和突变,确保整体连贯性。
  • 用户可调节性:支持用户基于参数调整控制头部运动、表情强度和唇部同步效果,提供高度的可定制性。

Sonic的技术原理

  • 上下文增强音频学习:提取音频片段内的长期时间音频知识,将音频信号中的语调、语速等信息转化为面部表情和唇部运动的先验知识。Whisper-Tiny模型提取音频特征,基于多尺度理解将特征与空间交叉注意力层结合,指导空间帧的生成。
  • 运动解耦控制器:将头部运动和表情运动解耦,分别用独立的参数控制,增强动画的多样性和自然性。支持用户自定义夸张运动,基于调整运动桶参数(motion-bucket parameters)控制头部和表情运动的幅度。
  • 时间感知位置偏移融合:基于时间感知的滑动窗口策略,将音频片段的局部感知扩展到全局感知,解决长视频生成中的抖动和突变问题。在每个时间步中,模型从新的位置开始处理音频片段,逐步融合全局音频信息,确保长视频的连贯性。
  • 全局音频驱动:Sonic完全依赖音频信号驱动动画生成,避免传统方法中对视觉信号(如运动帧)的依赖,提高生成的自然性和时间一致性。音频信号作为全局信号,为面部表情和头部运动提供隐式的先验信息,让生成的动画更加符合音频内容。

Sonic的实验结果

  • 定量比较:
    • 在 HDTF 和 CelebV-HQ 数据集上,Sonic 在多个评估指标上优于现有的 SOTA 方法,包括 FID(Fréchet Inception Distance)、FVD(Fréchet Video Distance)、唇部同步精度(Sync-C、Sync-D)和视频流畅度(Smoothness)。
    • Sonic 的 FID 和 FVD 分数显著低于其他方法,表明其生成的视频质量更高,与真实数据的一致性更好。
  • 定性比较:Sonic 能生成更自然、更多样的面部表情和头部动作,尤其是在处理复杂背景和不同风格的肖像时,表现出更强的鲁棒性。

Sonic的生成效果

  • 与开源方法对比:Sonic能生成更符合音频的丰富表情,促进更自然的头部运动。

Sonic

  • 与闭源方法对比:
    • 与EMO对比
      • Sonic在面部表情的自然度和眼镜反射的真实感方面表现更好。

Sonic

      • 在歌唱场景中,Sonic展现出更精确的发音和更多样的动作。

Sonic

    • 与即梦对比:
      • 在动漫案例中,Sonic的嘴唇动作和外观更贴近原始输入,并伴有眨眼动作。

Sonic

      • 在长视频生成中,Sonic不受运动帧的限制,避免视频末尾出现伪影。

Sonic

Sonic的项目地址

  • 项目官网:https://jixiaozhong.github.io/Sonic/
  • GitHub仓库:https://github.com/jixiaozhong/Sonic
  • arXiv技术论文:https://arxiv.org/pdf/2411.16331
  • 在线体验Demo:http://demo.sonic.jixiaozhong.online/

Sonic的应用场景

  • 虚拟现实(VR):为虚拟角色生成逼真的表情和口型,增强沉浸感。
  • 影视制作:快速生成角色的口型和表情动画,提高制作效率。
  • 在线教育:将教师语音转化为生动的动画,提升学习趣味性。
  • 游戏开发:生成游戏角色的自然表情和动作,增强真实感。
  • 社交媒体:用户可将语音与照片结合,生成个性化动画视频分享。
PPTAgent – 中科院推出的自动生成高质量演示文稿框架
Zerox – 开源的OCR工具,零样本识别多种格式文件
美团发布VitaBench:首个生活场景大模型Agent评测基准,66个工具与跨场景任务重新定义AI评测
DevDocs – 开源的技术文档爬取和处理工具
南洋理工等机构发布Sparc3D:突破3D生成瓶颈,实现高保真1024³分辨率建模
分享
Email 复制链接 打印
Share
上一篇 DynamicFace – 小红书联合上海交大等推出的视频换脸技术
下一篇 LLaDA – 人大高瓴AI联合蚂蚁推出的扩散大语言模型
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

OpenAI发布GPT-5.3 Instant:轻量级模型免费用,AI对话更自然、幻觉率显著降低
AI 工具 AIGC 资讯
GPT-5.4重磅发布:OpenAI旗舰模型首次在电脑操作上超越人类,专业工作效率提升83%
AI 工具 AIGC 资讯
蚂蚁集团发布Ming-flash-omni-2.0:开源全模态大模型,引领AI理解与生成一体化新范式
AI 工具 AIGC 资讯
OpenAI发布GPT-5.3-Codex-Spark:1000+ tokens/s实时编程模型,速度提升80%的开发神器
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

LBM – AI图像转换框架,实现可控阴影生成

站外新闻
AIGC 资讯

Pippo – Meta 推出的单图生成多视角高清人像视频模型

站外新闻
AIGC 资讯

OmniCam – 浙大联合上海交大等高校推出的多模态视频生成框架

站外新闻
AIGC 资讯

Seer – 上海 AI Lab 联合北大等机构推出的端到端操作模型

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 知识管理 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.