Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: MultiTalk:美团等联合推出AI视频生成框架,音频驱动多人对话,口型精准同步
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > MultiTalk:美团等联合推出AI视频生成框架,音频驱动多人对话,口型精准同步
AI 工具AIGC 资讯

MultiTalk:美团等联合推出AI视频生成框架,音频驱动多人对话,口型精准同步

站外新闻
最近更新: 2026年6月7日 下午8:26
AIGC 扩散模型 美团 音频驱动
SHARE

💡 站外导读:在AIGC浪潮下,AI视频生成技术日新月异,但如何让虚拟角色的口型与音频精准同步,并处理多人互动场景,一直是行业面临的巨大挑战。传统的单人驱动或静态口型方案,已无法满足影视、教育、社交等领域对高拟真、动态交互内容的爆发性需求。MultiTalk框架的诞生,正是为了解决这一核心痛点,它标志着AI视频生成从“单点驱动”迈向“复杂场景智能交互”的关键一步。

MultiTalk是什么

MultiTalk 是中山大学深圳校区、美团和香港科技大学联合推出的新型音频驱动多人对话视频生成框架。框架根据多声道音频输入、参考图像和文本提示,生成包含人物互动且口型与音频一致的视频。框架推出 Label Rotary Position Embedding (L-RoPE) 方法,有效解决多声道音频与人物绑定的问题,借助部分参数训练和多任务训练策略,保留基础模型的指令跟随能力。MultiTalk 在多个数据集上表现出色,展示了强大的视频生成能力,适用生成卡通、歌唱及遵循指令的视频等多种场景。

阅读目录
  • MultiTalk是什么
  • MultiTalk的主要功能
  • MultiTalk的技术原理
  • MultiTalk的项目地址
  • MultiTalk的应用场景
      • 📝 站长洞察 (Editor’s Insight)

MultiTalk

MultiTalk的主要功能

  • 音频驱动的多人对话视频生成:根据多声道音频输入、参考图像和文本提示,生成包含多人互动且口型与音频一致的视频。
  • 解决音频与人物绑定问题:jiyu  Label Rotary Position Embedding (L-RoPE) 方法,有效解决多声道音频与人物绑定的问题,避免音频错误绑定到错误的人物上。
  • 强大的指令跟随能力:基于部分参数训练和多任务训练策略,保留基础模型的指令跟随能力,根据文本提示生成符合要求的视频内容。

MultiTalk的技术原理

  • 音频驱动的视频生成框架:MultiTalk 用基于 Diffusion-in-Transformer (DiT) 的视频扩散模型作为基础架构。架构结合 3D Variational Autoencoder (VAE),对视频的时空维度进行压缩,高效地生成视频内容。基于扩散模型的逆过程,逐步从噪声中重建视频内容。3D VAE用在视频的编码和解码,将视频帧压缩到低维空间,便于模型处理。
  • 音频特征提取:为将音频特征与视频内容相结合,MultiTalk 引入音频交叉注意力机制。基于 Wav2Vec 提取音频特征,对音频特征进行时间维度的压缩,匹配视频的帧率。在每个 DiT 块中添加音频交叉注意力层,让视频生成过程根据音频特征动态调整视频内容。
  • Label Rotary Position Embedding (L-RoPE):为视频中的每个人物和背景分配不同的标签范围。基于旋转位置嵌入技术,将标签信息融入到音频和视频的特征中,确保音频与人物的正确绑定。
  • 自适应人物定位:为动态跟踪视频中每个人物的位置,用自适应人物定位方法。基于参考图像和生成视频的自注意力图,模型自动识别每个人物的位置,实现精准的音频绑定。
  • 训练策略:第一阶段专注于单人动画,第二阶段处理多人动画。部分参数训练只更新音频交叉注意力层和音频适配器的参数,冻结其他网络参数,保留基础模型的指令跟随能力。
  • 多任务训练:结合音频+图像到视频(AI2V)任务和图像到视频(I2V)任务,用不同的数据集进行训练,提升模型的综合性能。

MultiTalk的项目地址

  • 项目官网:https://meigen-ai.github.io/multi-talk/
  • GitHub仓库:https://github.com/MeiGen-AI/MultiTalk
  • HuggingFace模型库:https://huggingface.co/MeiGen-AI/MeiGen-MultiTalk
  • arXiv技术论文:https://arxiv.org/pdf/2505.22647

MultiTalk的应用场景

  • 影视与娱乐:用在动画电影、特效制作、游戏过场动画等,生成多人对话和互动场景,提升制作效率和视觉效果,增强观众的沉浸感。
  • 教育与培训:在在线教育、虚拟课堂、语言学习等领域,创建互动教学视频,模拟真实对话和交流场景,提高学习效果和趣味性。
  • 广告与营销:生成产品演示视频、虚拟客服互动视频等,增强广告吸引力,提升客户服务效率和质量,促进产品推广。
  • 社交媒体与内容创作:制作创意多人对话视频、虚拟直播等,吸引用户关注和分享,提升内容的趣味性和互动性,增加用户粘性。
  • 智能服务:应用在智能客服、虚拟助手等领域,生成自然流畅的交互视频,提供更人性化的服务体验,提高用户满意度。

📝 站长洞察 (Editor’s Insight)

MultiTalk的发布不仅是技术上的突破,更预示着AIGC内容生产范式的深刻变革。其核心创新L-RoPE(标签旋转位置嵌入)巧妙地解决了多人场景中音频与视觉元素的“身份绑定”问题,这是实现高级人机交互的基石。结合部分参数训练保留大模型指令遵循能力的策略,展现了“小数据微调”解决“大场景应用”的工程化思路。从趋势看,该框架将极大降低虚拟人、互动视频、智能客服等场景的创作门槛与成本,推动AIGC从工具属性向生产力引擎进化。美团等产业资本的深度参与,也暗示着该技术将快速在本地生活、电商客服等商业场景中落地,形成技术-商业的闭环飞轮。

微软开源TRELLIS.2:40亿参数3D生成模型,3秒从单图生成高保真3D资产
GlimmeraiAI
CodeElo – 阿里 Qwen 团队推出评估 LLM 编程能力的基准测试
Gemini 2.0 Pro – 谷歌推出的高性能多模态AI模型
Dexter:开源AI金融研究Agent,多Agent架构实现智能任务规划与实时分析
TAGGED:AIGC扩散模型美团音频驱动
分享
Email 复制链接 打印
Share
上一篇 Hugging Face开源SmolVLA:4.5亿参数机器人模型,CPU可运行、消费级GPU可训练
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

Hugging Face开源SmolVLA:4.5亿参数机器人模型,CPU可运行、消费级GPU可训练
AI 工具 AIGC 资讯
字节跳动ContentV开源!80亿参数文生视频模型,轻松生成5秒高清视频
AI 工具 AIGC 资讯
PartCrafter:单图生成多部件3D模型,AI精准重建复杂场景 | 前沿3D生成技术解析
AI 工具 AIGC 资讯
阿里通义实验室MaskSearch:揭秘如何让AI大模型成为顶级信息检索专家,性能暴涨!
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

Eagle 2.5 – 英伟达推出的视觉语言模型

站外新闻
AI 工具AIGC 资讯

FutureHouse Kosmos:一天顶半年!单次解析1500篇论文的AI科学家系统深度解析

站外新闻
AI科学家 FutureHouse 多智能体系统 科学发现 自动化科研
AIGC 资讯

AgentScope 2.0 – 通义实验室开源的多智能体开发框架

站外新闻
AI 工具AIGC 资讯

OPPO开源OAgents框架:GAIA基准测试得分73.93%登顶,揭秘下一代AI Agent的核心技术与应用场景

站外新闻
AI Agent OPPO 大模型应用 开源框架 智能助手
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 MoE模型 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.