Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: ACTalker – 港科大联合腾讯、清华推出的端到端视频扩散框架
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > ACTalker – 港科大联合腾讯、清华推出的端到端视频扩散框架
AIGC 资讯

ACTalker – 港科大联合腾讯、清华推出的端到端视频扩散框架

站外新闻
最近更新: 2026年6月8日 上午1:41
SHARE

ACTalker是什么

ACTalker 是用于生成逼真说话人头部视频的端到端视频扩散框架。支持单信号或多信号控制,如音频、表情等。核心架构包括并行 Mamba 结构,通过多个分支利用不同驱动信号分别控制面部区域,基于门控机制和掩码丢弃策略,实现灵活且自然的视频生成。在 CelebV-HQ 数据集上,ACTalker 的 Sync-C 和 Sync-D 分数表现优异,分别为 5.317 和 7.869,FVD-Inc 分数为 232.374,展现了良好的音频同步和视频质量。

阅读目录
  • ACTalker是什么
  • ACTalker的主要功能
  • ACTalker的技术原理
  • ACTalker的项目地址
  • ACTalker的应用场景

ACTalker

ACTalker的主要功能

  • 多信号控制与单信号控制:ACTalker 支持多信号控制和单信号控制,能用音频、表情等多种信号来驱动说话人头部视频的生成。
  • 自然协调的视频生成:通过 Mamba 结构,使驱动信号能在每个分支中跨时间和空间两个维度操控特征标记,确保受控视频在时间和空间上的自然协调。
  • 高质量的视频生成:实验结果表明,ACTalker 能生成自然、逼真的面部视频,在多信号控制下,Mamba 层能无缝整合多种驱动模态,无冲突地生成视频。

ACTalker的技术原理

  • 并行 Mamba 结构:ACTalker 采用并行 Mamba 结构,包含多个分支,每个分支利用单独的驱动信号(如音频、表情等)来控制特定的面部区域。使不同模态的信号可以同时作用于视频生成过程,互不干扰,实现多信号控制。
  • 门控机制:在所有分支中应用了门控机制,在训练时随机开启或关闭,在推理时可以根据需要手动调整。门控机制为视频生成提供了灵活的控制方式,支持在不同情况下选择使用单一信号或多种信号进行驱动。
  • 掩码丢弃策略(Mask-Drop):ACTalker 引入了掩码丢弃策略,支持每个驱动信号独立控制其对应的面部区域。在训练过程中,策略通过随机丢弃与控制区域无关的特征标记,增强驱动信号的有效性,提高生成内容的质量,防止控制冲突。
  • 状态空间建模(SSM):为了确保受控视频在时间和空间上的自然协调,ACTalker 采用了状态空间建模(SSM)。模型支持驱动信号在每个分支中跨时间和空间两个维度操控特征标记,实现自然的面部动作协调。
  • 视频扩散模型基础:ACTalker 基于视频扩散模型进行构建,在去噪过程中引入多分支控制模块。每个 Mamba 分支处理特定模态信号,通过门控机制动态调整各模态影响权重。

ACTalker的项目地址

  • 项目官网:https://harlanhong.github.io/publications/actalker
  • Github仓库:https://github.com/harlanhong/ACTalker
  • HuggingFace模型库:https://huggingface.co/papers/2504.02542
  • arXiv技术论文:https://arxiv.org/pdf/2504.02542

ACTalker的应用场景

  • 虚拟主播:ACTalker 可以通过音频和面部表情等多种信号控制生成自然流畅的说话头视频,使虚拟主播更加生动逼真,更好地与观众互动,提升观众的观看体验。
  • 远程会议:在远程会议中,ACTalker 可以用音频信号和参会者的表情信号生成自然的说话头视频。可以解决网络延迟导致的口型与声音不同步问题,能让参会者在视频信号不佳时,通过音频和表情信号生成自然的面部视频,增强远程交流的真实感。
  • 在线教育:在线教育场景中,教师可以用 ACTalker 生成自然的说话头视频,通过音频和表情信号的控制,使教学视频更加生动有趣,吸引学生的注意力,提高教学效果。
  • 虚拟现实与增强现实:在虚拟现实(VR)和增强现实(AR)应用中,ACTalker 可以生成与虚拟环境或增强现实场景相匹配的说话头视频。
  • 娱乐与游戏:在娱乐和游戏领域,ACTalker 可以为角色生成自然的说话头视频,增强角色的表现力和代入感。
阶跃星辰开源 Step 3.7 Flash:196B参数MoE架构,400 Tokens/s极速推理,专为智能体生产落地优化
AI生成内容反超人类:互联网一半文章已非人造,我们正面临‘精神断粮’危机
支付宝联手MiniMax、阶跃星辰打造AI原生支付基建,大模型国家队领跑智能体商业化
Qwen3.6-Max-Preview深度评测:六大编程基准登顶,Agent编程能力超越Claude 4.5 Opus
Vercel Labs 推出 find-skill:AI Agent 时代的 Skill 市场入口,一句话搞定开发工具安装
分享
Email 复制链接 打印
Share
上一篇 Ming‑Flash‑Omni 2.0 – 蚂蚁开源的全模态大模型
下一篇 MedGemma – 谷歌开源的AI医疗领域模型
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

MedGemma – 谷歌开源的AI医疗领域模型
AIGC 资讯
Ming‑Flash‑Omni 2.0 – 蚂蚁开源的全模态大模型
AIGC 资讯
GPT-image-1 – OpenAI 推出的最新图像生成模型
AIGC 资讯
FlowGram – 字节跳动开源的可视化工作流搭建引擎
AIGC 资讯

相关推荐

AIGC 资讯

PaddleOCR-VL-1.6 – 百度推出的文档解析视觉语言模型

站外新闻
AI 工具AIGC 资讯

Claude Design系统提示词深度解析:Anthropic如何用AI设计工程师规则终结’AI味’UI

站外新闻
AIGC AI设计 Anthropic Claude 系统提示词
AI 工具AIGC 资讯

AnyClaw 开源发布:专为AI Agent打造的「万能转接头」,一键将传统API、脚本转为MCP/Skills/CLI工具

站外新闻
AI Agent MCP协议 OpenCLI 开源工具 智能转接头
AI 工具AIGC 资讯

阿里Qwen3.6-Plus发布:百万上下文+超低参数量,编码智能体性能直逼Claude 4.5 Opus

站外新闻
Qwen3.6-Plus SWE-Bench 智能体编程 百炼API 阿里通义
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AGI AI AI Agent AIGC AI商业化 AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI生成内容 AI监管 AI绘画 AI编程 AI编程工具 AI编程智能体 AI芯片 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenRouter Pika prompt SpaceX stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多模态 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源大模型 开源工具 开源框架 开源模型 强化学习 微软 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 联想 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.