Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: ACTalker – 港科大联合腾讯、清华推出的端到端视频扩散框架
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > ACTalker – 港科大联合腾讯、清华推出的端到端视频扩散框架
AIGC 资讯

ACTalker – 港科大联合腾讯、清华推出的端到端视频扩散框架

站外新闻
最近更新: 2026年6月8日 上午1:41
SHARE

ACTalker是什么

ACTalker 是用于生成逼真说话人头部视频的端到端视频扩散框架。支持单信号或多信号控制,如音频、表情等。核心架构包括并行 Mamba 结构,通过多个分支利用不同驱动信号分别控制面部区域,基于门控机制和掩码丢弃策略,实现灵活且自然的视频生成。在 CelebV-HQ 数据集上,ACTalker 的 Sync-C 和 Sync-D 分数表现优异,分别为 5.317 和 7.869,FVD-Inc 分数为 232.374,展现了良好的音频同步和视频质量。

阅读目录
  • ACTalker是什么
  • ACTalker的主要功能
  • ACTalker的技术原理
  • ACTalker的项目地址
  • ACTalker的应用场景

ACTalker

ACTalker的主要功能

  • 多信号控制与单信号控制:ACTalker 支持多信号控制和单信号控制,能用音频、表情等多种信号来驱动说话人头部视频的生成。
  • 自然协调的视频生成:通过 Mamba 结构,使驱动信号能在每个分支中跨时间和空间两个维度操控特征标记,确保受控视频在时间和空间上的自然协调。
  • 高质量的视频生成:实验结果表明,ACTalker 能生成自然、逼真的面部视频,在多信号控制下,Mamba 层能无缝整合多种驱动模态,无冲突地生成视频。

ACTalker的技术原理

  • 并行 Mamba 结构:ACTalker 采用并行 Mamba 结构,包含多个分支,每个分支利用单独的驱动信号(如音频、表情等)来控制特定的面部区域。使不同模态的信号可以同时作用于视频生成过程,互不干扰,实现多信号控制。
  • 门控机制:在所有分支中应用了门控机制,在训练时随机开启或关闭,在推理时可以根据需要手动调整。门控机制为视频生成提供了灵活的控制方式,支持在不同情况下选择使用单一信号或多种信号进行驱动。
  • 掩码丢弃策略(Mask-Drop):ACTalker 引入了掩码丢弃策略,支持每个驱动信号独立控制其对应的面部区域。在训练过程中,策略通过随机丢弃与控制区域无关的特征标记,增强驱动信号的有效性,提高生成内容的质量,防止控制冲突。
  • 状态空间建模(SSM):为了确保受控视频在时间和空间上的自然协调,ACTalker 采用了状态空间建模(SSM)。模型支持驱动信号在每个分支中跨时间和空间两个维度操控特征标记,实现自然的面部动作协调。
  • 视频扩散模型基础:ACTalker 基于视频扩散模型进行构建,在去噪过程中引入多分支控制模块。每个 Mamba 分支处理特定模态信号,通过门控机制动态调整各模态影响权重。

ACTalker的项目地址

  • 项目官网:https://harlanhong.github.io/publications/actalker
  • Github仓库:https://github.com/harlanhong/ACTalker
  • HuggingFace模型库:https://huggingface.co/papers/2504.02542
  • arXiv技术论文:https://arxiv.org/pdf/2504.02542

ACTalker的应用场景

  • 虚拟主播:ACTalker 可以通过音频和面部表情等多种信号控制生成自然流畅的说话头视频,使虚拟主播更加生动逼真,更好地与观众互动,提升观众的观看体验。
  • 远程会议:在远程会议中,ACTalker 可以用音频信号和参会者的表情信号生成自然的说话头视频。可以解决网络延迟导致的口型与声音不同步问题,能让参会者在视频信号不佳时,通过音频和表情信号生成自然的面部视频,增强远程交流的真实感。
  • 在线教育:在线教育场景中,教师可以用 ACTalker 生成自然的说话头视频,通过音频和表情信号的控制,使教学视频更加生动有趣,吸引学生的注意力,提高教学效果。
  • 虚拟现实与增强现实:在虚拟现实(VR)和增强现实(AR)应用中,ACTalker 可以生成与虚拟环境或增强现实场景相匹配的说话头视频。
  • 娱乐与游戏:在娱乐和游戏领域,ACTalker 可以为角色生成自然的说话头视频,增强角色的表现力和代入感。
2023 年人工智能与开源界的风云变幻 [译]
MiniMax M2.1 发布:多语言编程AI模型性能超越Claude Sonnet,全栈开发与办公自动化新时代
LIMO – 上海交大推出的高效推理方法,仅需817条训练样本
Claude Mythos攻克百年数学猜想!Anthropic多智能体协同验证,AI科学发现进入白热化竞争
阿里Qwen3闪电模型上线:性能飙升、百万token上下文、价格屠夫级定价,AIGC普惠化新标杆
分享
Email 复制链接 打印
Share
上一篇 Ming‑Flash‑Omni 2.0 – 蚂蚁开源的全模态大模型
下一篇 MedGemma – 谷歌开源的AI医疗领域模型
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

快手OneRec:颠覆传统推荐!端到端生成式AI系统引爆观看时长与GMV
AI 工具 AIGC 资讯
Kimi-Researcher:月之暗面端到端强化学习Agent,深度研究基准测试超Claude 4 Opus
AI 工具 AIGC 资讯
华为盘古大模型5.5震撼发布:7180亿参数Ultra MoE领衔,五大模型重塑产业智能
AI 工具 AIGC 资讯
腾讯清华重磅开源MindOmni:强化学习驱动的多模态推理生成模型,重塑视觉AI边界
AI 工具 AIGC 资讯

相关推荐

AI 工具AIGC 资讯

阿里Qwen3-Next开源发布:80B参数仅激活3B,混合架构大模型重新定义效率与成本

站外新闻
MoE专家系统 Qwen3-Next 混合架构大模型 长文本处理 阿里通义
AIGC 资讯

FlowGram – 字节跳动开源的可视化工作流搭建引擎

站外新闻
流光脑波AI大脑占位特色图
AIGC 资讯最新趋势

小米三年豪掷600亿押注AI,自研大模型MiMo-V2.5-Pro全球双料登顶,智能化转型全面提速

站外新闻
AI战略 MiMo-V2.5-Pro 小米 智能化转型
AI 工具AIGC 资讯

百度开源ERNIE-4.5-VL多模态大模型:28B参数激活3B,128K超长上下文,2-Bit无损量化领跑文档理解与视频分析

站外新闻
2-Bit量化 ERNIE-4.5-VL 多模态大模型 文心一言 视觉语言理解
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI绘画 AI编程 AI编程助手 AI编程工具 AI编程模型 AI视频生成 AI音乐生成 Anthropic chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax MoE架构 MoE模型 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 清华大学 知识管理 科大讯飞 端侧AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.