人工智能初创公司 Liquid AI 今日正式发布并开源了全新的端侧大模型LFM2.5-8B-A1B。该模型专为消费级硬件的工具调用和复杂指令遵循而设计,在保持极低计算成本的同时,显著提升了端侧设备的推理与推理性能。

这款模型在结构设计上采用了稀疏混合专家(MoE)架构,虽然整体拥有8.3B的参数量,但其稀疏特性意味着生成每个Token时仅需调用其中的1.5B参数。这种高效机制使得模型可以轻松运行在手机或笔记本电脑等本地设备上。

image.png

长文本扩展与推理能力升级

相比前代产品,LFM2.5 将上下文窗口从 32K 大幅扩展至 128K 词元,预训练数据量也从 12T 提升至 38T。作为一款纯推理模型,它会在输出最终答案前生成显式的思维链,且其高压缩率的词表能更高效地处理中文、阿拉伯文等九种语言。

针对长推理过程中可能出现的逻辑循环和事实幻觉,研发团队在训练阶段引入了两阶段的强化学习(RL)策略。通过偏好优化,模型在长链条推理中的“死循环”现象得到了显著抑制;同时,专门设计的防幻觉奖励机制,能引导模型在面对知识范围外的问题时,主动选择不回答。

端侧性能强劲与生态全面兼容

在性能表现上,LFM2.5 实现了爆发式增长,其在逻辑推理与反幻觉基准测试中的得分大幅超越前代,甚至在指令遵循上媲美更大参数量的模型。在工具调用方面,模型默认输出高效的 Python 函数调用,并支持在系统提示词中无缝切换为 JSON 格式。

模型一上线就获得了主流推理框架的广泛适配,如llama.cpp、MLX、vLLM和SGLang等。实际硬件测试显示,它在M5 Max芯片上能实现每秒253字节的解码速度,即便在手机端,解码速度也可达每秒约30字节,在保障端侧数据隐私的同时,也确保了出色的运行效率。