Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 字节&浙大联手:InfinityHuman如何用AI数字人技术彻底改变虚拟主播、教育和客服?
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 字节&浙大联手:InfinityHuman如何用AI数字人技术彻底改变虚拟主播、教育和客服?
AI 工具AIGC 资讯

字节&浙大联手:InfinityHuman如何用AI数字人技术彻底改变虚拟主播、教育和客服?

站外新闻
最近更新: 2026年6月7日 下午8:19
AIGC AI数字人 字节跳动 虚拟主播 音频驱动视频生成
SHARE

💡 站外导读:当前AI数字人技术虽前景广阔,却普遍面临生成视频时长短、身份不一致、手部动作僵硬、口型不同步等核心痛点,严重制约其大规模商用。在短视频、在线教育和虚拟客服需求井喷的背景下,行业亟需能稳定输出高质量、长时序、高自然度数字人视频的解决方案。字节跳动与浙江大学联合推出的InfinityHuman模型,正是瞄准这一关键瓶颈,通过创新的技术框架,为AI数字人的实用化落地开辟了新路径。

InfinityHuman是什么

InfinityHuman 是字节跳动与浙江大学联合团队推出的商用级长时序音频驱动人物视频生成模型,开启 AI 数字人实用化新篇章。模型基于 coarse-to-fine 框架,生成低分辨率的动作表示,通过姿态引导细化器逐步生成高分辨率的长时视频。模型引入手部专属奖励机制,优化手部动作的自然性和同步性,有效解决现有方法中常见的身份漂移、画面不稳定和手部动作生硬等问题。在 EMTD 和 HDTF 数据集评估上,InfinityHuman 展示了卓越的性能,为虚拟主播、教育、客服等领域的应用提供新的可能性。

阅读目录
  • InfinityHuman是什么
  • InfinityHuman的主要功能
  • InfinityHuman的技术原理
  • InfinityHuman的项目地址
  • InfinityHuman的应用场景
      • 📝 站长洞察 (Editor’s Insight)

InfinityHuman

InfinityHuman的主要功能

  • 长时视频生成:能生成高分辨率、长时长的人体动画视频,保持视觉一致性和稳定性。
  • 自然手部动作:通过手部专属奖励机制,生成自然、准确且与语音同步的手部动作。
  • 身份一致性:利用姿态引导细化器和首帧作为视觉锚点,减少累积误差,保持人物身份的长期一致性。
  • 口型同步:确保生成的视频中人物的唇部动作与音频高度同步,提升真实感。
  • 多样化角色风格:支持不同风格的人物角色生成,满足多种应用场景的需求。

InfinityHuman的技术原理

  • 低分辨率动作表示生成:模型通过音频驱动生成与音频同步的低分辨率动作表示(pose),相当于“打底稿”,确保全局节奏、动作和嘴型先对齐。
  • 姿态引导细化器(Pose-Guided Refiner):在生成低分辨率动作表示的基础上,模型用姿态引导细化器逐步生成高分辨率的视频。
    • 姿态序列:姿态序列作为稳定的中间表示,抵抗时间退化,保持视觉一致性。
    • 视觉锚点:首帧为视觉锚点,不断参照校正身份和画面,减少累积误差。
    • 手部奖励机制:通过高质量的手部动作数据训练,引入手部专属奖励机制,优化手部动作的自然性和与语音的同步性。
  • 多模态条件融合:模型融合多种模态信息,包括参考图像、文本提示和音频,确保生成的视频在视觉和听觉上的一致性和自然性。

InfinityHuman的项目地址

  • 项目官网:https://infinityhuman.github.io/
  • arXiv技术论文:https://arxiv.org/pdf/2508.20210

InfinityHuman的应用场景

  • 虚拟主播:虚拟主播能自然流畅地进行新闻播报、节目主持等,增强观众的观看体验,降低人力成本。
  • 在线教育:AI 教师边讲解知识边做出相应的手势,让教学过程更加生动形象,提高学生的学习兴趣和专注度。
  • 客服服务:数字客服在语音交流时能自然地做出回应动作,打破传统客服的机械感,提升客户满意度。
  • 影视制作:在动画电影、电视剧等影视作品中,快速生成高质量的长时人物动画,减少人工绘制和后期修复的工作量。
  • 虚拟社交:为虚拟现实(VR)和增强现实(AR)中的虚拟人物赋予自然的动作和表情,让虚拟社交更加真实和沉浸,增强用户之间的互动性。

📝 站长洞察 (Editor’s Insight)

InfinityHuman的发布标志着AIGC领域正从“能用”向“好用”关键一跃。其创新的coarse-to-fine框架,本质上是将复杂任务解耦,先确保‘节奏对’再追求‘画面美’,这与大模型发展的Scaling Law异曲同工。特别值得注意的是其对手部动作的专项优化——这曾是行业公认的‘恐怖谷’难点,通过引入专属奖励机制来解决,体现了从粗放生成向精细化、人性化控制的范式转变。这预示着未来的竞争将不再是单纯的模型参数比拼,而是对特定场景(如手势、微表情)的深度优化与工程化落地能力。结合字节在内容生态与浙大在基础研究的优势,InfinityHuman有望在短视频、虚拟主播等海量场景率先形成数据飞轮,加速数字人从营销噱头变为生产力工具,为元宇宙和XR内容生态补上关键一环。

Uber AI预算四个月烧光:工程效率飙升背后,企业正陷入’生产率幻觉’危机
Kaoffee
Mistral AI 首席执行官宣布自研芯片计划:成本、算力、生态三大战略解析
腾讯发布CodeBuddy Security,用AI Agent实现更高效的代码审计
DeepSeek-R1 – DeepSeek推出的高性能AI推理模型,性能对标OpenAI o1正式版
TAGGED:AIGCAI数字人字节跳动虚拟主播音频驱动视频生成
分享
Email 复制链接 打印
Share
上一篇 mobile-use:开源AI智能体用自然语言操控手机,重塑移动端自动化体验
下一篇 开源3D AI桌面伴侣Super Agent Party:微信QQ/B站直播全渠道一键部署,集桌宠、智能助手、知识库于一身
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

中科院SpikingBrain-1.0发布:类脑脉冲大模型突破Transformer瓶颈,效率飙升开启自主可控AI新纪元
AI 工具 AIGC 资讯
腾讯混元图像2.1模型开源:2K分辨率、复杂语义理解,革新AI图像生成
AI 工具 AIGC 资讯
腾讯PromptEnhancer开源:思维链+奖励模型,一键提升文生图AI提示词精准度300%
AI 工具 AIGC 资讯
PixVerse V5全面评测:AI视频生成模型性能飙升至全球前三,多风格支持与音画一体功能详解
AI 工具 AIGC 资讯

相关推荐

AI 工具AIGC 资讯

谷歌重磅开源 TranslateGemma:Gemma 3 系列翻译模型,支持 55 种语言与多模态图像翻译

站外新闻
Gemma 3 TranslateGemma 多模态大模型 开源模型 机器翻译
AI 工具

DomainHuntAI

remaker
AI 工具AIGC 资讯最新趋势

DeepSeek-V4 百万上下文大模型发布:Agent代码能力首超闭源,Pro/Flash双版开源引领普惠AI

站外新闻
Agent能力 AI推理优化 DeepSeek-V4 开源大模型 百万上下文大模型
AI 工具

Pitchyouridea.ai

remaker
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI图像生成 AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程模型 AI视频生成 Anthropic chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 NVIDIA openai prompt RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 命令行工具 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 大模型 大模型应用 大语言模型 字节跳动 家居 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 教程 数字人 文本转语音 早报 智谱AI 月之暗面 混合专家模型 清华大学 知识管理 科大讯飞 端侧AI 端侧部署 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 赛博朋克 边缘计算 通义千问 阶跃星辰 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.