在 AI 模型价格战持续升温的背景下,小米旗下 MiMo 大模型于5月27日正式发布公告,对其 MiMo-V2.5系列 API 实施永久性降价,并同步优化了计费体系,旨在通过技术红利进一步降低开发者的调用成本。

1111.png

一、API 价格大幅下调,最高降幅99%

这次价格调整已经在北京时间5月27日零点,面向全球同步生效。它同时覆盖了MiMo-V2.5和MiMo-V2.5Pro这两个主力版本,并且取消了按上下文窗口长度区分的定价方式,整体策略变得更加简洁透明。

模型版本 输入缓存命中价格 最高降幅 输出价格 最高降幅
MiMo-V2.5Pro 0.025元/百万 tokens 99% 6元/百万 tokens 86%
MiMo-V2.5 0.02元/百万 tokens 98% 2元/百万 tokens 93%

二、计费体系升级:加量不加价

除了直接的 API 单价下调,小米还对 Token Plan 计费体系进行了深度优化:

  • 用量额度大幅增加:在维持原有价格水平的基础上,用户实际可使用的Token额度提升到了过去的5到8倍。

  • 规则简化: 引入 Credits(积分) 概念,旨在替代此前复杂的计费方式,使开发者对 Token 的消耗与成本计算更直观、易懂。

222.jpg

三、技术底座:为何能持续降价?

小米方面表示,能够实现如此大幅度的降价,关键在于其在推理系统底层架构方面取得的技术突破:

  1. SWA 推理优化: 基于 SGLang HiCache 完整支持 SWA(滑动窗口注意力机制),使得 KV Cache 在 GPU 显存、CPU 内存及 SSD 之间的多级搬运数据量减少至原来的1/7。

  2. 缓存能力显著增强:可缓存的Token数量相比优化前增长了接近5倍,缓存命中率因此得到大幅提升,从而有效地摊薄了每一次推理的平均成本。

  3. 集群吞吐优化: 通过引入专家并行(MoE)方案与输入长度分桶策略,集群的输入吞吐能力得到质的提升,确保在服务质量保持高水准的同时,持续压低单位 Token 的服务成本。

在行业观察者看来,小米的这一举动是对当前大模型市场竞争白热化的一种积极应对。随着使用成本的进一步下降,MiMo系列模型的高性价比特点将更加突出,有望推动AI能力在各个垂直领域以及开发者日常工作流程中更深入地应用。