Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: DICE-Talk – 复旦联合腾讯优图推出的情感化动态肖像生成框架
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > DICE-Talk – 复旦联合腾讯优图推出的情感化动态肖像生成框架
AIGC 资讯

DICE-Talk – 复旦联合腾讯优图推出的情感化动态肖像生成框架

站外新闻
最近更新: 2026年6月7日 下午8:02
SHARE

DICE-Talk是什么

DICE-Talk是复旦大学联合腾讯优图实验室推出的新颖情感化动态肖像生成框架,支持生成具有生动情感表达且保持身份一致性的动态肖像视频。DICE-Talk引入情感关联增强模块,基于情感库捕获不同情感之间的关系,提升情感生成的准确性和多样性。框架设计情感判别目标,基于情感分类确保生成过程中的情感一致性。在MEAD和HDTF数据集上的实验表明,DICE-Talk在情感准确性、对口型和视觉质量方面均优于现有技术。

阅读目录
  • DICE-Talk是什么
  • DICE-Talk的主要功能
  • DICE-Talk的技术原理
  • DICE-Talk的项目地址
  • DICE-Talk的应用场景

DICE-Talk

DICE-Talk的主要功能

  • 情感化动态肖像生成:根据输入的音频和参考图像,生成具有特定情感表达的动态肖像视频。
  • 身份保持:在生成情感化视频时,保持输入参考图像的身份特征,避免身份信息的泄露或混淆。
  • 高质量视频生成:生成的视频在视觉质量、唇部同步和情感表达方面均达到较高水平。
  • 泛化能力:能适应未见过的身份和情感组合,具有良好的泛化能力。
  • 用户控制:用户输入特定的情感目标,控制生成视频的情感表达,实现高度的用户自定义。
  • 多模态输入:支持多种输入模态,包括音频、视频和参考图像。

DICE-Talk的技术原理

  • 解耦身份与情感:基于跨模态注意力机制联合建模音频和视觉情感线索,将情感表示为身份无关的高斯分布。用对比学习(如InfoNCE损失)训练情感嵌入器,确保相同情感的特征在嵌入空间中聚集,不同情感的特征则分散。
  • 情感关联增强:情感库是可学习的模块,存储多种情感的特征表示。用向量量化和基于注意力的特征聚合,学习情感之间的关系。情感库存储单一情感的特征,学习情感之间的关联,帮助模型更好地生成其他情感。
  • 情感判别目标:在扩散模型的生成过程中,基于情感判别器确保生成视频的情感一致性。情感判别器与扩散模型联合训练,确保生成的视频在情感表达上与目标情感一致,保持视觉质量和唇部同步。
  • 扩散模型框架:从高斯噪声开始,逐步去噪生成目标视频。基于变分自编码器(VAE)将视频帧映射到潜在空间,在潜在空间中逐步引入高斯噪声,基于扩散模型逐步去除噪声,生成目标视频。在去噪过程中,扩散模型基于跨模态注意力机制,结合参考图像、音频特征和情感特征,引导视频生成。

DICE-Talk的项目地址

  • 项目官网:https://toto222.github.io/DICE-Talk/
  • GitHub仓库:https://github.com/toto222/DICE-Talk
  • arXiv技术论文:https://arxiv.org/pdf/2504.18087

DICE-Talk的应用场景

  • 数字人与虚拟助手:为数字人和虚拟助手赋予丰富的情感表达,与用户交互时更加自然和生动,提升用户体验。
  • 影视制作:在影视特效和动画制作中,快速生成具有特定情感的动态肖像,提高制作效率,降低制作成本。
  • 虚拟现实与增强现实:在VR/AR应用中,生成与用户情感互动的虚拟角色,增强沉浸感和情感共鸣。
  • 在线教育与培训:创建具有情感反馈的教学视频,让学习内容更加生动有趣,提高学习效果。
  • 心理健康支持:开发情感化虚拟角色,用在心理治疗和情感支持,帮助用户更好地表达和理解情感。
NativeMind:开源本地AI助手,隐私优先的浏览器智能对话、内容分析与写作增强工具
育碧AI队友项目Teammates:用生成式AI重新定义游戏沉浸感与玩家交互体验
全球AI支付里程碑!支付宝AI原生支付突破3亿笔,Token Pay与AI钱包重塑支付未来
Google开源gws:Rust编写、支持AI Agent的Workspace命令行利器,动态API发现引领效率革命
李飞飞团队推出Marble 1.1:AI生成式世界模型革命,一图变3D沉浸式场景
分享
Email 复制链接 打印
Share
上一篇 Llama 4 – Meta 开源的多模态系列AI模型,重夺开源王座
下一篇 ACI.dev – 为AI智能体设计的开源MCP基础设施平台
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

快手OneRec:颠覆传统推荐!端到端生成式AI系统引爆观看时长与GMV
AI 工具 AIGC 资讯
Kimi-Researcher:月之暗面端到端强化学习Agent,深度研究基准测试超Claude 4 Opus
AI 工具 AIGC 资讯
华为盘古大模型5.5震撼发布:7180亿参数Ultra MoE领衔,五大模型重塑产业智能
AI 工具 AIGC 资讯
腾讯清华重磅开源MindOmni:强化学习驱动的多模态推理生成模型,重塑视觉AI边界
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

llmware – 专为企业级应用设计的开源统一框架

站外新闻
AI 工具AIGC 资讯

Kimi CLI:Moonshot AI 推出命令行智能体,让开发者效率倍增的终极编程工具

站外新闻
Kimi CLI Moonshot AI 命令行工具 编程辅助
流光脑波AI大脑占位特色图
AIGC 资讯最新趋势

阿里语音大模型横扫Artificial Analysis三冠:Fun-Realtime-TTS全球第五,ASR、Chat、TTS国产登顶,实时合成技术引领深度智能时代

站外新闻
Artificial Analysis ASR Fun-Realtime-TTS 端到端语音对话 语音大模型
AI 工具AIGC 资讯

阿里重磅开源通义万相Wan2.2:270亿参数MoE架构,消费级显卡畅享电影级AI视频生成

站外新闻
AIGC AI视频生成 MoE架构 通义万相 阿里巴巴
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI绘画 AI编程 AI编程助手 AI编程工具 AI编程模型 AI视频生成 AI音乐生成 Anthropic chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax MoE架构 MoE模型 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 清华大学 知识管理 科大讯飞 端侧AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.