Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 米哈游蔡浩宇押注!17B参数LPM 1.0:实时全双工、无限时长、跨风格数字人新标杆
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 米哈游蔡浩宇押注!17B参数LPM 1.0:实时全双工、无限时长、跨风格数字人新标杆
AI 工具AIGC 资讯

米哈游蔡浩宇押注!17B参数LPM 1.0:实时全双工、无限时长、跨风格数字人新标杆

站外新闻
最近更新: 2026年5月25日 下午10:29
AI视频生成 LPM 1.0 实时交互 数字人 蔡浩宇
SHARE

💡 站外导读:当前,AIGC视频生成技术正从“内容创作”向“实时交互”演进。行业面临一个关键瓶颈:如何让数字角色在长时间、实时对话中,既保持身份稳定,又具备细腻情感与自然反应?传统方案常需在生成时长、表现力和实时性间妥协。米哈游创始人蔡浩宇的AI公司Anuttacon推出的LPM 1.0,正是瞄准这一痛点,试图以统一的视觉引擎范式,为对话代理、虚拟主播和游戏NPC注入灵魂。

LPM 1.0是什么

LPM 1.0(Large Performance Model)是Anuttacon(蔡浩宇AI公司)推出的17B参数视频角色表演生成模型,支持实时全双工音视频对话。模型可将单图转化为能说话、倾听、反应且带细腻微表情的数字人,保持无限时长身份一致。LPM 1.0适用AI对话、虚拟直播、游戏NPC等场景作为通用视觉引擎。

阅读目录
  • LPM 1.0是什么
  • LPM 1.0的主要功能
  • LPM 1.0的技术原理
  • 如何使用LPM 1.0
  • LPM 1.0的项目地址
  • LPM 1.0的关键信息和使用要求
  • LPM 1.0的核心优势
  • LPM 1.0的同类竞品对比
  • LPM 1.0的应用场景
      • 📝 站长洞察 (Editor’s Insight)

LPM 1.0

LPM 1.0的主要功能

  • 实时全双工对话:支持同时进行说话和倾听的实时互动,双方可随时打断,模型能时生成回应前的停顿、目光转移等自然反应。
  • 无限时长身份一致:基于图像输入保持角色外貌、牙齿、表情纹路、侧脸轮廓等细节在数小时长视频中稳定不变,不会出现”越生成越失真”。
  • 三模态控制:通过文本(控制动作/表情)、音频(驱动口型/节奏)、参考图像(保持身份)联合控制角色表演。
  • 零样本泛化:支持写实人类、2D动漫、3D游戏角色、非人生物等任意风格,无需针对特定领域微调。
  • 情感表演:模型能生成犹豫、思考、呼吸节奏等细腻微表情,支持唱歌时的旋律对齐嘴型。

LPM 1.0的技术原理

  • 数据构建:通过严格质量过滤(保留率<10%)去除剪辑痕迹、美颜滤镜等缺陷,利用改进的LR-ASD模型标注每帧说话/倾听/空闲状态并实现音频分离,同时构建全局外观、多视角身体和面部表情的多粒度身份参考条件,形成大规模多模态数据集。
  • Base LPM:基于14B图像到视频预训练模型增加3B参数交错音频交叉注意力块形成17B扩散Transformer,联合学习语音驱动动态、倾听反应、文本控制和多参考身份保持,训练超17万亿多模态token实现高质量角色表演生成。
  • Online LPM:通过四阶段自回归蒸馏课程将Base LPM转化为因果流式生成器,采用Backbone-Refiner架构分别保持时序潜变量轨迹和恢复高保真细节,实现低延迟实时推理和无限长度身份一致生成。
  • 系统架构:与A2A音频模型即插即用兼容,循环处理倾听、说话、空闲三状态,实时生成对应视频流。

如何使用LPM 1.0

LPM 1.0目前仅作学术交流不对外开放

LPM 1.0的项目地址

  • 项目官网:https://large-performance-model.github.io/
  • arXiv技术论文:https://arxiv.org/pdf/2604.07823

LPM 1.0的关键信息和使用要求

  • 定义:Anuttacon(蔡浩宇AI公司)推出的17B参数视频角色表演模型(Large Performance Model),专注单人全双工音视频对话场景,可将单图转化为能实时说话、倾听、反应的数字人。
  • 核心能力:实时全双工对话(支持打断)、无限时长身份一致(外貌/表情长时稳定)、三模态控制(文本+音频+图像)、零样本泛化(支持写实/动漫/3D/非人生物)、细腻情感表演(微表情/呼吸节奏)。
  • 技术路线:基于严格过滤的多模态数据集训练Base LPM(17B扩散Transformer),经四阶段蒸馏为Online LPM(因果流式架构),采用Backbone-Refiner设计实现实时生成。
  • 应用场景:对话代理、虚拟直播、游戏NPC、AI教育导师、游戏伴侣的通用视觉引擎。
  • 当前状态:不对外开放。无模型权重、源代码、在线演示、API或任何产品,项目页面仅供学术交流。

LPM 1.0的核心优势

  • 解决表演三难困境:业界首个同时实现高表现力、实时推理、长时身份稳定性的视频生成模型,突破传统模型只能兼顾其中两项的限制。
  • 全双工实时交互:支持真正的实时对话,说话与倾听状态可无缝切换,双方能同时说话并随时打断,响应延迟低且具备自然的停顿、眼神转移等微反应。
  • 无限时长身份一致:通过流式架构保持角色外貌、牙齿、表情纹路等细节在数小时长视频中稳定,不会出现其他模型(如Kling-Avatar 2.0/OmniHuman 1.5限30秒)随时间推移的身份漂移。
  • 自然倾听行为:模型能生成真实的倾听反应(点头、眉动、注视),填补现有模型只关注”说”而忽略”听”的空白。
  • 零样本泛化:模型无需微调可支持写实人类、2D动漫、3D游戏角色、非人生物等任意风格,具备极强的角色适配能力。
  • SOTA性能:在首个交互角色表演基准LPM-Bench上全面领先,人工评估中720P版本对Kling-Avatar-2和OmniHuman-1.5的偏好率分别为64.3%和42.5%。

LPM 1.0的同类竞品对比

对比维度 LPM 1.0 Kling-Avatar 2.0 OmniHuman-1.5
时长限制 无限时长,长时身份稳定 最长30秒 最长30秒
交互模式 全双工实时(可同时说/听/打断) 单向说话生成 单向说话生成
倾听能力 原生支持(实时反应、点头、眼神) 不支持 不支持
身份稳定性 数小时保持一致 随时间推移可能漂移 随时间推移可能漂移
人工评估 基准 64.3%用户更偏好LPM 42.5%用户更偏好LPM

LPM 1.0的应用场景

  • 对话式人工智能代理:为AI助手赋予具象化的人类视觉存在感,支持面对面真实互动,用于客户支持、虚拟助理、数字人类。
  • 互动NPC与游戏角色:打造具备语境对话、倾听行为和情感连贯肢体语言的开放世界NPC,无需单独动作捕捉可实现互动叙事。
  • 直播与虚拟主持:实时虚拟流媒体,可在数小时长直播、亚秒延迟下保持身份一致性和视觉质量,支持24小时全天候播出。
  • 教育与个性化辅导:AI导师具备持续视觉存在感,可在长时间教学中保持身份一致,实现从热情讲解到专注倾听的自然切换。
  • 游戏伴侣:实时AI伙伴通过上下文评论、情感鼓励和自然表情响应游戏过程,为单人游戏增加社交互动体验。

📝 站长洞察 (Editor’s Insight)

LPM 1.0的发布,标志着数字人技术从“单向生成”正式迈入“双向实时交互”的深水区。其核心突破在于以17B参数的单一模型,攻克了高表现力、实时推理与长时身份稳定性这一长期存在的“三难困境”。尤其值得关注的是,它通过独创的Online LPM流式架构,将交互延迟压至毫秒级,并实现了跨数小时的身份一致性——这直接击穿了竞品普遍存在的30秒时长枷锁。从趋势看,这不仅是技术迭代,更是对虚拟世界“存在感”定义的重写:NPC不再只是预设脚本,而是具备持续视觉存在、能倾听、会反应的“数字生命”。蔡浩宇从游戏到AI的跃迁,也暗示了下一代交互娱乐的底层设施,正由具身智能与实时生成技术共同构筑。

DreamStudio
ClipSketch AI:开源AI视频工具,自动提取B站小红书关键帧生成手绘故事板,免费使用
GPT‑5.3‑Codex‑Spark – OpenAI推出的轻量级编程模型
AutoDroid-V2 – 清华推出的移动端GUI自动化脚本代理
uBrand
TAGGED:AI视频生成LPM 1.0实时交互数字人蔡浩宇
分享
Email 复制链接 打印
Share
上一篇 明略科技开源Mano-P 1.0:纯视觉GUI智能体模型,OSWorld霸榜,端侧本地部署重塑自动化
下一篇 Webwright 开源:微软发布代码驱动网页智能体,彻底告别传统点击模式
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

腾讯混元2.0震撼发布:4060亿参数MoE架构大模型,256K上下文,国内推理能力登顶
AI 工具 AIGC 资讯
美团开源LongCat-Image:6B参数逼平闭源模型,8105汉字渲染+图像编辑全搞定
AI 工具
智谱GLM-4.6V多模态大模型开源:106B参数性能比肩235B,视觉工具调用引领AI Agent新范式
AI 工具 AIGC 资讯
蚂蚁集团开源Ming-Flash-Omni 2.0:100B参数全模态大模型,统一视觉、语音、图像生成的SOTA级AIGC引擎
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

MT-Color – 上海交大联合哔哩哔哩推出的可控图像着色框架

站外新闻
AIGC 资讯

Voila – 开源端到端语音大模型,实现低延迟语音对话

站外新闻
AI 工具AIGC 资讯

字节跳动Mamoda2.5重磅发布:25B参数MoE统一多模态模型,视频生成编辑速度提升12-18倍

站外新闻
MoE稀疏激活 多模态大模型 字节跳动AI 文生视频 视频编辑
AIGC 资讯

NeuralSVG – 文本驱动矢量图形生成技术,转化为有层次结构的矢量图形

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI绘画 AI编程 AI编程工具 AI视频 AI视频生成 AI设计 AI音乐生成 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek Gemini GPT-5.4 GPT-5.5 MCP协议 meta Midjourney MiniMax MoE架构 NVIDIA openai OpenClaw prompt stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 全模态大模型 具身智能 命令行工具 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 大模型 大模型API 大模型应用 大模型推理 大语言模型 字节跳动 家居 小红书 展台 开源 开源AI工具 开源大模型 开源工具 开源框架 开源模型 开源项目 强化学习 微软 教程 早报 智能体编程 智谱AI 月之暗面 本地AI 海报设计 清华大学 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 端侧部署 网络安全 腾讯 腾讯混元 英伟达 蚂蚁集团 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 边缘计算 通义千问 长上下文 阶跃星辰 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.