💡 站外导读:当前AI数字人技术虽前景广阔,却普遍面临生成视频时长短、身份不一致、手部动作僵硬、口型不同步等核心痛点,严重制约其大规模商用。在短视频、在线教育和虚拟客服需求井喷的背景下,行业亟需能稳定输出高质量、长时序、高自然度数字人视频的解决方案。字节跳动与浙江大学联合推出的InfinityHuman模型,正是瞄准这一关键瓶颈,通过创新的技术框架,为AI数字人的实用化落地开辟了新路径。
InfinityHuman是什么
InfinityHuman 是字节跳动与浙江大学联合团队推出的商用级长时序音频驱动人物视频生成模型,开启 AI 数字人实用化新篇章。模型基于 coarse-to-fine 框架,生成低分辨率的动作表示,通过姿态引导细化器逐步生成高分辨率的长时视频。模型引入手部专属奖励机制,优化手部动作的自然性和同步性,有效解决现有方法中常见的身份漂移、画面不稳定和手部动作生硬等问题。在 EMTD 和 HDTF 数据集评估上,InfinityHuman 展示了卓越的性能,为虚拟主播、教育、客服等领域的应用提供新的可能性。

InfinityHuman的主要功能
- 长时视频生成:能生成高分辨率、长时长的人体动画视频,保持视觉一致性和稳定性。
- 自然手部动作:通过手部专属奖励机制,生成自然、准确且与语音同步的手部动作。
- 身份一致性:利用姿态引导细化器和首帧作为视觉锚点,减少累积误差,保持人物身份的长期一致性。
- 口型同步:确保生成的视频中人物的唇部动作与音频高度同步,提升真实感。
- 多样化角色风格:支持不同风格的人物角色生成,满足多种应用场景的需求。
InfinityHuman的技术原理
- 低分辨率动作表示生成:模型通过音频驱动生成与音频同步的低分辨率动作表示(pose),相当于“打底稿”,确保全局节奏、动作和嘴型先对齐。
- 姿态引导细化器(Pose-Guided Refiner):在生成低分辨率动作表示的基础上,模型用姿态引导细化器逐步生成高分辨率的视频。
- 姿态序列:姿态序列作为稳定的中间表示,抵抗时间退化,保持视觉一致性。
- 视觉锚点:首帧为视觉锚点,不断参照校正身份和画面,减少累积误差。
- 手部奖励机制:通过高质量的手部动作数据训练,引入手部专属奖励机制,优化手部动作的自然性和与语音的同步性。
- 多模态条件融合:模型融合多种模态信息,包括参考图像、文本提示和音频,确保生成的视频在视觉和听觉上的一致性和自然性。
InfinityHuman的项目地址
- 项目官网:https://infinityhuman.github.io/
- arXiv技术论文:https://arxiv.org/pdf/2508.20210
InfinityHuman的应用场景
- 虚拟主播:虚拟主播能自然流畅地进行新闻播报、节目主持等,增强观众的观看体验,降低人力成本。
- 在线教育:AI 教师边讲解知识边做出相应的手势,让教学过程更加生动形象,提高学生的学习兴趣和专注度。
- 客服服务:数字客服在语音交流时能自然地做出回应动作,打破传统客服的机械感,提升客户满意度。
- 影视制作:在动画电影、电视剧等影视作品中,快速生成高质量的长时人物动画,减少人工绘制和后期修复的工作量。
- 虚拟社交:为虚拟现实(VR)和增强现实(AR)中的虚拟人物赋予自然的动作和表情,让虚拟社交更加真实和沉浸,增强用户之间的互动性。
📝 站长洞察 (Editor’s Insight)
InfinityHuman的发布标志着AIGC领域正从“能用”向“好用”关键一跃。其创新的coarse-to-fine框架,本质上是将复杂任务解耦,先确保‘节奏对’再追求‘画面美’,这与大模型发展的Scaling Law异曲同工。特别值得注意的是其对手部动作的专项优化——这曾是行业公认的‘恐怖谷’难点,通过引入专属奖励机制来解决,体现了从粗放生成向精细化、人性化控制的范式转变。这预示着未来的竞争将不再是单纯的模型参数比拼,而是对特定场景(如手势、微表情)的深度优化与工程化落地能力。结合字节在内容生态与浙大在基础研究的优势,InfinityHuman有望在短视频、虚拟主播等海量场景率先形成数据飞轮,加速数字人从营销噱头变为生产力工具,为元宇宙和XR内容生态补上关键一环。
