💡 站外导读:随着AI应用从云端向终端迁移,端侧部署面临计算成本与性能的尖锐矛盾。用户渴望在手机、笔记本上获得流畅、私密的智能体验,但传统大模型动辄数十亿的参数量与高延迟难以逾越。Liquid AI此次开源的LFM2.5,正是瞄准这一核心痛点:它通过创新的稀疏MoE架构,将推理时激活参数压缩至1.5B,同时将上下文窗口扩展至128K并强化抗幻觉能力,为端侧AI的规模化落地提供了关键技术方案,标志着端侧智能正式进入高实用性的新阶段。
人工智能初创公司 Liquid AI 今日正式发布并开源了全新的端侧大模型
这款模型在结构设计上采用了稀疏混合专家(MoE)架构,虽然整体拥有8.3B的参数量,但其稀疏特性意味着生成每个Token时仅需调用其中的1.5B参数。这种高效机制使得模型可以轻松运行在手机或笔记本电脑等本地设备上。

长文本扩展与推理能力升级
相比前代产品,LFM2.5 将上下文窗口从 32K 大幅扩展至 128K 词元,预训练数据量也从 12T 提升至 38T。作为一款纯推理模型,它会在输出最终答案前生成显式的思维链,且其高压缩率的词表能更高效地处理中文、阿拉伯文等九种语言。
针对长推理过程中可能出现的逻辑循环和事实幻觉,研发团队在训练阶段引入了两阶段的强化学习(RL)策略。通过偏好优化,模型在长链条推理中的“死循环”现象得到了显著抑制;同时,专门设计的防幻觉奖励机制,能引导模型在面对知识范围外的问题时,主动选择不回答。
端侧性能强劲与生态全面兼容
在性能表现上,LFM2.5 实现了爆发式增长,其在逻辑推理与反幻觉基准测试中的得分大幅超越前代,甚至在指令遵循上媲美更大参数量的模型。在工具调用方面,模型默认输出高效的 Python 函数调用,并支持在系统提示词中无缝切换为 JSON 格式。
模型一上线就获得了主流推理框架的广泛适配,如llama.cpp、MLX、vLLM和SGLang等。实际硬件测试显示,它在M5 Max芯片上能实现每秒253字节的解码速度,即便在手机端,解码速度也可达每秒约30字节,在保障端侧数据隐私的同时,也确保了出色的运行效率。
📝 站长洞察 (Editor’s Insight)
LFM2.5的发布绝非一次普通开源,它精准击中了端侧大模型商业化的核心命门:如何在有限的功耗与算力下,实现足够强的推理能力与实用性。其“稀疏激活”思路极具前瞻性——这并非简单压缩,而是通过架构设计让模型学会“选择性思考”,这或许是未来端侧AI的主流范式。更值得关注的是其对工具调用与长文本的强化,这意味着它正在从“聊天玩具”转向真正的“生产力代理”,能成为用户手机中随时待命、理解复杂意图并安全执行任务的私人助理。在隐私焦虑与边缘计算趋势并行的当下,Liquid AI用轻量化、高性能、生态全兼容的组合拳,为行业树立了新标杆。下一步竞争将聚焦于如何让这类模型更深度地融入操作系统与APP生态,实现真正的无感智能。
