米哈游蔡浩宇押注！17B参数LPM 1.0：实时全双工、无限时长、跨风格数字人新标杆

💡 站外导读：当前，AIGC视频生成技术正从“内容创作”向“实时交互”演进。行业面临一个关键瓶颈：如何让数字角色在长时间、实时对话中，既保持身份稳定，又具备细腻情感与自然反应？传统方案常需在生成时长、表现力和实时性间妥协。米哈游创始人蔡浩宇的AI公司Anuttacon推出的LPM 1.0，正是瞄准这一痛点，试图以统一的视觉引擎范式，为对话代理、虚拟主播和游戏NPC注入灵魂。

LPM 1.0是什么

LPM 1.0（Large Performance Model）是Anuttacon（蔡浩宇AI公司）推出的17B参数视频角色表演生成模型，支持实时全双工音视频对话。模型可将单图转化为能说话、倾听、反应且带细腻微表情的数字人，保持无限时长身份一致。LPM 1.0适用AI对话、虚拟直播、游戏NPC等场景作为通用视觉引擎。

阅读目录

LPM 1.0是什么
LPM 1.0的主要功能
LPM 1.0的技术原理
如何使用LPM 1.0
LPM 1.0的项目地址
LPM 1.0的关键信息和使用要求
LPM 1.0的核心优势
LPM 1.0的同类竞品对比
LPM 1.0的应用场景

📝 站长洞察 (Editor’s Insight)

LPM 1.0

LPM 1.0的主要功能

实时全双工对话：支持同时进行说话和倾听的实时互动，双方可随时打断，模型能时生成回应前的停顿、目光转移等自然反应。
无限时长身份一致：基于图像输入保持角色外貌、牙齿、表情纹路、侧脸轮廓等细节在数小时长视频中稳定不变，不会出现”越生成越失真”。
三模态控制：通过文本（控制动作/表情）、音频（驱动口型/节奏）、参考图像（保持身份）联合控制角色表演。
零样本泛化：支持写实人类、2D动漫、3D游戏角色、非人生物等任意风格，无需针对特定领域微调。
情感表演：模型能生成犹豫、思考、呼吸节奏等细腻微表情，支持唱歌时的旋律对齐嘴型。

LPM 1.0的技术原理

数据构建：通过严格质量过滤（保留率<10%）去除剪辑痕迹、美颜滤镜等缺陷，利用改进的LR-ASD模型标注每帧说话/倾听/空闲状态并实现音频分离，同时构建全局外观、多视角身体和面部表情的多粒度身份参考条件，形成大规模多模态数据集。
Base LPM：基于14B图像到视频预训练模型增加3B参数交错音频交叉注意力块形成17B扩散Transformer，联合学习语音驱动动态、倾听反应、文本控制和多参考身份保持，训练超17万亿多模态token实现高质量角色表演生成。
Online LPM：通过四阶段自回归蒸馏课程将Base LPM转化为因果流式生成器，采用Backbone-Refiner架构分别保持时序潜变量轨迹和恢复高保真细节，实现低延迟实时推理和无限长度身份一致生成。
系统架构：与A2A音频模型即插即用兼容，循环处理倾听、说话、空闲三状态，实时生成对应视频流。

如何使用LPM 1.0

LPM 1.0目前仅作学术交流不对外开放

LPM 1.0的项目地址

项目官网：https://large-performance-model.github.io/
arXiv技术论文：https://arxiv.org/pdf/2604.07823

LPM 1.0的关键信息和使用要求

定义：Anuttacon（蔡浩宇AI公司）推出的17B参数视频角色表演模型（Large Performance Model），专注单人全双工音视频对话场景，可将单图转化为能实时说话、倾听、反应的数字人。
核心能力：实时全双工对话（支持打断）、无限时长身份一致（外貌/表情长时稳定）、三模态控制（文本+音频+图像）、零样本泛化（支持写实/动漫/3D/非人生物）、细腻情感表演（微表情/呼吸节奏）。
技术路线：基于严格过滤的多模态数据集训练Base LPM（17B扩散Transformer），经四阶段蒸馏为Online LPM（因果流式架构），采用Backbone-Refiner设计实现实时生成。
应用场景：对话代理、虚拟直播、游戏NPC、AI教育导师、游戏伴侣的通用视觉引擎。
当前状态：不对外开放。无模型权重、源代码、在线演示、API或任何产品，项目页面仅供学术交流。

LPM 1.0的核心优势

解决表演三难困境：业界首个同时实现高表现力、实时推理、长时身份稳定性的视频生成模型，突破传统模型只能兼顾其中两项的限制。
全双工实时交互：支持真正的实时对话，说话与倾听状态可无缝切换，双方能同时说话并随时打断，响应延迟低且具备自然的停顿、眼神转移等微反应。
无限时长身份一致：通过流式架构保持角色外貌、牙齿、表情纹路等细节在数小时长视频中稳定，不会出现其他模型（如Kling-Avatar 2.0/OmniHuman 1.5限30秒）随时间推移的身份漂移。
自然倾听行为：模型能生成真实的倾听反应（点头、眉动、注视），填补现有模型只关注”说”而忽略”听”的空白。
零样本泛化：模型无需微调可支持写实人类、2D动漫、3D游戏角色、非人生物等任意风格，具备极强的角色适配能力。
SOTA性能：在首个交互角色表演基准LPM-Bench上全面领先，人工评估中720P版本对Kling-Avatar-2和OmniHuman-1.5的偏好率分别为64.3%和42.5%。

LPM 1.0的同类竞品对比

对比维度	LPM 1.0	Kling-Avatar 2.0	OmniHuman-1.5
时长限制	无限时长，长时身份稳定	最长30秒	最长30秒
交互模式	全双工实时（可同时说/听/打断）	单向说话生成	单向说话生成
倾听能力	原生支持（实时反应、点头、眼神）	不支持	不支持
身份稳定性	数小时保持一致	随时间推移可能漂移	随时间推移可能漂移
人工评估	基准	64.3%用户更偏好LPM	42.5%用户更偏好LPM

LPM 1.0的应用场景

对话式人工智能代理：为AI助手赋予具象化的人类视觉存在感，支持面对面真实互动，用于客户支持、虚拟助理、数字人类。
互动NPC与游戏角色：打造具备语境对话、倾听行为和情感连贯肢体语言的开放世界NPC，无需单独动作捕捉可实现互动叙事。
直播与虚拟主持：实时虚拟流媒体，可在数小时长直播、亚秒延迟下保持身份一致性和视觉质量，支持24小时全天候播出。
教育与个性化辅导：AI导师具备持续视觉存在感，可在长时间教学中保持身份一致，实现从热情讲解到专注倾听的自然切换。
游戏伴侣：实时AI伙伴通过上下文评论、情感鼓励和自然表情响应游戏过程，为单人游戏增加社交互动体验。

📝 站长洞察 (Editor’s Insight)

LPM 1.0的发布，标志着数字人技术从“单向生成”正式迈入“双向实时交互”的深水区。其核心突破在于以17B参数的单一模型，攻克了高表现力、实时推理与长时身份稳定性这一长期存在的“三难困境”。尤其值得关注的是，它通过独创的Online LPM流式架构，将交互延迟压至毫秒级，并实现了跨数小时的身份一致性——这直接击穿了竞品普遍存在的30秒时长枷锁。从趋势看，这不仅是技术迭代，更是对虚拟世界“存在感”定义的重写：NPC不再只是预设脚本，而是具备持续视觉存在、能倾听、会反应的“数字生命”。蔡浩宇从游戏到AI的跃迁，也暗示了下一代交互娱乐的底层设施，正由具身智能与实时生成技术共同构筑。

米哈游蔡浩宇押注！17B参数LPM 1.0：实时全双工、无限时长、跨风格数字人新标杆

LPM 1.0是什么

LPM 1.0的主要功能

LPM 1.0的技术原理

如何使用LPM 1.0

LPM 1.0的项目地址

LPM 1.0的关键信息和使用要求

LPM 1.0的核心优势

LPM 1.0的同类竞品对比

LPM 1.0的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价取消回复

最近更新

Claude Opus 5 – Anthropic 最新发布的旗舰级模型

MineExplorer – 美团推出的开放世界分钟级长程任务评测基准

WorkBuddy Bench – 腾讯开源的编码智能体评测套件

[AI生图咒语] 严肃职业肖像摄影提示词 (LinkedIn/商务高管头像)

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

LPM 1.0是什么

LPM 1.0的主要功能

LPM 1.0的技术原理

如何使用LPM 1.0

LPM 1.0的项目地址

LPM 1.0的关键信息和使用要求

LPM 1.0的核心优势

LPM 1.0的同类竞品对比

LPM 1.0的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复