Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 阿里联合高校开源Live Avatar:140亿参数实时数字人模型,20FPS流式生成无限时长视频
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 阿里联合高校开源Live Avatar:140亿参数实时数字人模型,20FPS流式生成无限时长视频
AI 工具AIGC 资讯

阿里联合高校开源Live Avatar:140亿参数实时数字人模型,20FPS流式生成无限时长视频

站外新闻
最近更新: 2026年6月7日 下午8:11
AIGC 实时生成 扩散模型 数字人 阿里巴巴
SHARE

💡 站外导读:当前数字人技术虽快速发展,但面临长时生成面部漂移、色彩失真及实时交互延迟等核心痛点。在AIGC浪潮下,电商直播、虚拟主播等应用对稳定、高保真的实时数字人需求激增。阿里巴巴联合多所高校开源的Live Avatar,旨在突破这些瓶颈,为行业提供可落地的解决方案。

Live Avatar是什么

Live Avatar 是阿里巴巴联合多所高校推出的实时数字人模型,能通过音视频驱动生成无限时长的数字人视频。Live Avatar 依托 140 亿参数扩散模型,实现 20FPS 的实时流式生成,支持长达 10000 秒以上稳定输出,避免长时生成中的面部漂移和色彩失真。可用在电商直播、新闻播报、虚拟助手等多种场景,提供高保真、低延迟的交互体验。

阅读目录
  • Live Avatar是什么
  • Live Avatar的主要功能
  • Live Avatar的技术原理
  • Live Avatar的项目地址
  • Live Avatar的应用场景
      • 📝 站长洞察 (Editor’s Insight)

Live Avatar

Live Avatar的主要功能

  • 实时音视频驱动:通过麦克风和摄像头捕捉用户的语音和表情动作,驱动数字人进行口型、表情的同步响应,实现低延迟的面对面交互。
  • 无限时长稳定生成:支持长达 10,000 秒以上的连续视频生成,过程中数字人的面容、肤色、风格等特征保持一致,避免长时生成中的身份漂移和画质下降。
  • 高保真画质:基于 140 亿参数的扩散模型,生成细节丰富、清晰自然的数字人画面。
  • 流式生成:采用流式处理技术,支持实时视频流的连续扩展,适用于直播等实时应用场景。

Live Avatar的技术原理

  • 扩散模型优化:用 140 亿参数的扩散模型,通过 Distribution Matching Distillation(分布匹配蒸馏)技术,将多步双向扩散模型转化为高效的 4 步流式扩散模型,大幅提升生成速度。采用 Timestep-forcing Pipeline Parallelism(时间步强制流水线并行)技术,将去噪阶段解耦并分配到多个设备上,实现线性加速,支持大规模并行计算。
  • 无限时长生成机制:
    • 滚动 RoPE(Relative Positional Encoding):动态更新参考帧的相对位置编码,保持生成帧与参考帧的相对位置关系,避免身份漂移。
    • 自适应注意力池(Adaptive Attention Sink):将初始参考帧替换为生成帧,消除导致分布漂移的持续因素,保持生成帧的分布一致性。
    • 历史干扰机制:向 KV 缓存注入噪声,模拟推理中的误差,引导模型从历史帧中提取运动信息,从参考帧中提取稳定细节,避免误差积累。
  • 实时交互技术:结合麦克风和摄像头输入,通过音频和视频信号实时驱动数字人模型,实现低延迟的交互响应。优化生成速度和延迟,达到 20FPS 的实时生成速度,首帧延迟仅 2.89 秒,确保流畅的交互体验。

Live Avatar的项目地址

  • 项目官网:https://liveavatar.github.io/
  • GitHub仓库:https://github.com/Alibaba-Quark/LiveAvatar
  • HuggingFace模型库:https://huggingface.co/Quark-Vision/Live-Avatar

Live Avatar的应用场景

  • 电商直播:Live Avatar 能实现 7×24 小时不间断产品展示与讲解,降低人力成本,提升直播效率。
  • 新闻播报:模型支持自动生成虚拟主播播报新闻,快速生成多语言视频,提高新闻时效性。
  • 娱乐直播:虚拟偶像通过 Live Avatar 实时互动表演,举办线上演唱会等活动,增强观众参与感。
  • 智能客服:数字人客服可实时回答用户问题,提供 24 小时不间断服务,提升用户体验。
  • 银行柜员:虚拟金融顾问提供标准化业务咨询,辅助人工服务,提升银行运营效率。

📝 站长洞察 (Editor’s Insight)

Live Avatar的发布标志着数字人技术从‘演示可用’迈向‘生产就绪’的关键一步。其140亿参数模型与流式生成架构,结合滚动RoPE、自适应注意力池等创新,系统性解决了长时生成的身份漂移难题,这正是此前许多方案无法商用的核心障碍。20FPS的实时生成能力,使数字人真正具备了实时交互的可能,深度契合电商、客服等场景对即时响应的要求。阿里与高校的联合开源模式,不仅加速技术普惠,更可能催生新一轮数字人应用创新潮。从行业视角看,这预示着数字人正从‘高成本定制’走向‘标准化、实时化、无限时长’的新阶段,为元宇宙、AI Agent的落地提供了关键基础设施。

Wardrobe AI
Taking your Marriage License and Wedding Done Proper
清华联手智谱推出IndexCache:稀疏注意力加速技术,长上下文推理提速近2倍,零性能损失
PrimitiveAnything – 腾讯联合清华大学推出的新型3D形状生成框架
阿里语音大模型横扫Artificial Analysis三冠:Fun-Realtime-TTS全球第五,ASR、Chat、TTS国产登顶,实时合成技术引领深度智能时代
TAGGED:AIGC实时生成扩散模型数字人阿里巴巴
分享
Email 复制链接 打印
Share
上一篇 OpenAI发布GPT Image 1.5:图像生成速度快4倍、API成本降20%,精准编辑功能全面解析
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

OpenAI发布GPT Image 1.5:图像生成速度快4倍、API成本降20%,精准编辑功能全面解析
AI 工具 AIGC 资讯
美团LongCat开源:音频驱动数字人视频生成模型,超逼真口型同步、长视频稳定生成
AI 工具 AIGC 资讯
小米MiMo-V2-Flash开源大模型:150亿参数击败Claude 4.5,推理成本仅2.5%
AI 工具 AIGC 资讯
亚马逊重磅发布Nova 2系列AI模型:四款神器覆盖文本、语音、视频,百万级上下文处理引领多模态革命
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

Dolphin – 清华联合海天瑞声推出的语音识别大模型

站外新闻
AIGC 资讯

Aholo Viewer – 群核科技开源的 3D 高斯浏览器

站外新闻
AI 工具AIGC 资讯

阿里通义Fun-CosyVoice3.5重磅发布:一句话控制语气语速,13语种低延迟语音生成

站外新闻
AIGC 多语种TTS 智能语音 语音生成模型 阿里通义实验室
AIGC 资讯

Aya Vision – Cohere 推出多模态、多语言的视觉模型

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI绘画 AI编程 AI编程工具 AI视频 AI视频生成 AI设计 AI音乐生成 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek Gemini GPT-5.4 GPT-5.5 MCP协议 meta Midjourney MiniMax MoE架构 NVIDIA openai OpenClaw prompt stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 大模型 大模型API 大模型应用 大模型推理 大语言模型 字节跳动 家居 小红书 展台 开源 开源AI工具 开源大模型 开源工具 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 教程 早报 智能体编程 智谱AI 本地AI 海报设计 清华大学 生成式AI 科幻 端侧AI 端侧部署 网络安全 美团 腾讯 腾讯混元 英伟达 蚂蚁集团 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 边缘计算 通义千问 长上下文 阶跃星辰 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.