Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 米哈游蔡浩宇押注!17B参数LPM 1.0:实时全双工、无限时长、跨风格数字人新标杆
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 米哈游蔡浩宇押注!17B参数LPM 1.0:实时全双工、无限时长、跨风格数字人新标杆
AI 工具AIGC 资讯

米哈游蔡浩宇押注!17B参数LPM 1.0:实时全双工、无限时长、跨风格数字人新标杆

站外新闻
最近更新: 2026年5月25日 下午10:29
AI视频生成 LPM 1.0 实时交互 数字人 蔡浩宇
SHARE

💡 站外导读:当前,AIGC视频生成技术正从“内容创作”向“实时交互”演进。行业面临一个关键瓶颈:如何让数字角色在长时间、实时对话中,既保持身份稳定,又具备细腻情感与自然反应?传统方案常需在生成时长、表现力和实时性间妥协。米哈游创始人蔡浩宇的AI公司Anuttacon推出的LPM 1.0,正是瞄准这一痛点,试图以统一的视觉引擎范式,为对话代理、虚拟主播和游戏NPC注入灵魂。

LPM 1.0是什么

LPM 1.0(Large Performance Model)是Anuttacon(蔡浩宇AI公司)推出的17B参数视频角色表演生成模型,支持实时全双工音视频对话。模型可将单图转化为能说话、倾听、反应且带细腻微表情的数字人,保持无限时长身份一致。LPM 1.0适用AI对话、虚拟直播、游戏NPC等场景作为通用视觉引擎。

阅读目录
  • LPM 1.0是什么
  • LPM 1.0的主要功能
  • LPM 1.0的技术原理
  • 如何使用LPM 1.0
  • LPM 1.0的项目地址
  • LPM 1.0的关键信息和使用要求
  • LPM 1.0的核心优势
  • LPM 1.0的同类竞品对比
  • LPM 1.0的应用场景
      • 📝 站长洞察 (Editor’s Insight)

LPM 1.0

LPM 1.0的主要功能

  • 实时全双工对话:支持同时进行说话和倾听的实时互动,双方可随时打断,模型能时生成回应前的停顿、目光转移等自然反应。
  • 无限时长身份一致:基于图像输入保持角色外貌、牙齿、表情纹路、侧脸轮廓等细节在数小时长视频中稳定不变,不会出现”越生成越失真”。
  • 三模态控制:通过文本(控制动作/表情)、音频(驱动口型/节奏)、参考图像(保持身份)联合控制角色表演。
  • 零样本泛化:支持写实人类、2D动漫、3D游戏角色、非人生物等任意风格,无需针对特定领域微调。
  • 情感表演:模型能生成犹豫、思考、呼吸节奏等细腻微表情,支持唱歌时的旋律对齐嘴型。

LPM 1.0的技术原理

  • 数据构建:通过严格质量过滤(保留率<10%)去除剪辑痕迹、美颜滤镜等缺陷,利用改进的LR-ASD模型标注每帧说话/倾听/空闲状态并实现音频分离,同时构建全局外观、多视角身体和面部表情的多粒度身份参考条件,形成大规模多模态数据集。
  • Base LPM:基于14B图像到视频预训练模型增加3B参数交错音频交叉注意力块形成17B扩散Transformer,联合学习语音驱动动态、倾听反应、文本控制和多参考身份保持,训练超17万亿多模态token实现高质量角色表演生成。
  • Online LPM:通过四阶段自回归蒸馏课程将Base LPM转化为因果流式生成器,采用Backbone-Refiner架构分别保持时序潜变量轨迹和恢复高保真细节,实现低延迟实时推理和无限长度身份一致生成。
  • 系统架构:与A2A音频模型即插即用兼容,循环处理倾听、说话、空闲三状态,实时生成对应视频流。

如何使用LPM 1.0

LPM 1.0目前仅作学术交流不对外开放

LPM 1.0的项目地址

  • 项目官网:https://large-performance-model.github.io/
  • arXiv技术论文:https://arxiv.org/pdf/2604.07823

LPM 1.0的关键信息和使用要求

  • 定义:Anuttacon(蔡浩宇AI公司)推出的17B参数视频角色表演模型(Large Performance Model),专注单人全双工音视频对话场景,可将单图转化为能实时说话、倾听、反应的数字人。
  • 核心能力:实时全双工对话(支持打断)、无限时长身份一致(外貌/表情长时稳定)、三模态控制(文本+音频+图像)、零样本泛化(支持写实/动漫/3D/非人生物)、细腻情感表演(微表情/呼吸节奏)。
  • 技术路线:基于严格过滤的多模态数据集训练Base LPM(17B扩散Transformer),经四阶段蒸馏为Online LPM(因果流式架构),采用Backbone-Refiner设计实现实时生成。
  • 应用场景:对话代理、虚拟直播、游戏NPC、AI教育导师、游戏伴侣的通用视觉引擎。
  • 当前状态:不对外开放。无模型权重、源代码、在线演示、API或任何产品,项目页面仅供学术交流。

LPM 1.0的核心优势

  • 解决表演三难困境:业界首个同时实现高表现力、实时推理、长时身份稳定性的视频生成模型,突破传统模型只能兼顾其中两项的限制。
  • 全双工实时交互:支持真正的实时对话,说话与倾听状态可无缝切换,双方能同时说话并随时打断,响应延迟低且具备自然的停顿、眼神转移等微反应。
  • 无限时长身份一致:通过流式架构保持角色外貌、牙齿、表情纹路等细节在数小时长视频中稳定,不会出现其他模型(如Kling-Avatar 2.0/OmniHuman 1.5限30秒)随时间推移的身份漂移。
  • 自然倾听行为:模型能生成真实的倾听反应(点头、眉动、注视),填补现有模型只关注”说”而忽略”听”的空白。
  • 零样本泛化:模型无需微调可支持写实人类、2D动漫、3D游戏角色、非人生物等任意风格,具备极强的角色适配能力。
  • SOTA性能:在首个交互角色表演基准LPM-Bench上全面领先,人工评估中720P版本对Kling-Avatar-2和OmniHuman-1.5的偏好率分别为64.3%和42.5%。

LPM 1.0的同类竞品对比

对比维度 LPM 1.0 Kling-Avatar 2.0 OmniHuman-1.5
时长限制 无限时长,长时身份稳定 最长30秒 最长30秒
交互模式 全双工实时(可同时说/听/打断) 单向说话生成 单向说话生成
倾听能力 原生支持(实时反应、点头、眼神) 不支持 不支持
身份稳定性 数小时保持一致 随时间推移可能漂移 随时间推移可能漂移
人工评估 基准 64.3%用户更偏好LPM 42.5%用户更偏好LPM

LPM 1.0的应用场景

  • 对话式人工智能代理:为AI助手赋予具象化的人类视觉存在感,支持面对面真实互动,用于客户支持、虚拟助理、数字人类。
  • 互动NPC与游戏角色:打造具备语境对话、倾听行为和情感连贯肢体语言的开放世界NPC,无需单独动作捕捉可实现互动叙事。
  • 直播与虚拟主持:实时虚拟流媒体,可在数小时长直播、亚秒延迟下保持身份一致性和视觉质量,支持24小时全天候播出。
  • 教育与个性化辅导:AI导师具备持续视觉存在感,可在长时间教学中保持身份一致,实现从热情讲解到专注倾听的自然切换。
  • 游戏伴侣:实时AI伙伴通过上下文评论、情感鼓励和自然表情响应游戏过程,为单人游戏增加社交互动体验。

📝 站长洞察 (Editor’s Insight)

LPM 1.0的发布,标志着数字人技术从“单向生成”正式迈入“双向实时交互”的深水区。其核心突破在于以17B参数的单一模型,攻克了高表现力、实时推理与长时身份稳定性这一长期存在的“三难困境”。尤其值得关注的是,它通过独创的Online LPM流式架构,将交互延迟压至毫秒级,并实现了跨数小时的身份一致性——这直接击穿了竞品普遍存在的30秒时长枷锁。从趋势看,这不仅是技术迭代,更是对虚拟世界“存在感”定义的重写:NPC不再只是预设脚本,而是具备持续视觉存在、能倾听、会反应的“数字生命”。蔡浩宇从游戏到AI的跃迁,也暗示了下一代交互娱乐的底层设施,正由具身智能与实时生成技术共同构筑。

Zeemo
小米OneVL开源:0.24秒延迟!具身智能团队发布SOTA级自动驾驶VLA世界模型
StockImg AI
不让NVIDIA吃独食!AMD下一代Zen5 AI加速器在路上
阿里通义EAPO框架:30B小模型反超120B闭源大模型的强化学习突破,ACL 2026论文详解
TAGGED:AI视频生成LPM 1.0实时交互数字人蔡浩宇
分享
Email 复制链接 打印
Share
上一篇 明略科技开源Mano-P 1.0:纯视觉GUI智能体模型,OSWorld霸榜,端侧本地部署重塑自动化
下一篇 Webwright 开源:微软发布代码驱动网页智能体,彻底告别传统点击模式
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

支付宝AI支付破3亿笔:全球首个AI原生支付基建落地,Token Pay与AI钱包重塑智能体交易
AI 工具 AIGC 资讯
Claude Code 实战宝典:开源指南含86+技巧与10+工作流对比,从氛围编程到智能体工程
AI 工具 AIGC 资讯
全球AI支付里程碑!支付宝AI原生支付突破3亿笔,Token Pay与AI钱包重塑支付未来
AI 工具 AIGC 资讯
警报:微软Copilot惊现‘幽灵周报’漏洞!AI助手竟成企业数据‘内鬼’
AI 工具 AIGC 资讯

相关推荐

AI 工具

Teach-O-Matic

remaker
AI 工具

智谱AI

remaker
AI 工具

Dog Identifier狗狗品种识别器

remaker
AI 工具

Microsoft Designer

remaker
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI安全 AI工具 AI智能体 AI生成内容 AI绘画 AI编程 AI编程工具 AI视频 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos DALL-E3 DeepSeek Gemini GPT-5.5 meta Midjourney MoE MoE架构 MoE模型 NVIDIA openai Pika prompt runway stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 办公自动化 华为昇腾 咒语 商汤科技 图像生成模型 多模态 多模态大模型 大模型 大模型API 大模型应用 大语言模型 女性 字节跳动 室内设计 家居 展台 建筑 建筑设计 开发者工具 开源 开源大模型 开源工具 开源平台 开源框架 开源模型 强化学习 微摄影 微软 提示词 教程 新加坡 新闻 早报 智能体 智能体编程 月之暗面 水果 海报设计 清华大学 游戏 生成式AI 破碎 科幻 窗 端侧AI 网络安全 背景 腾讯混元 芭比 英伟达 视频编辑 语音合成 赛博朋克 运动 阶跃星辰 阿里通义 阿里通义千问 风景 马斯克
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.