💡 站外导读:在AI大模型价格战白热化的当下,开发者普遍面临API调用成本高昂、计费规则复杂难懂的核心痛点,这已成为制约创新应用落地的关键门槛。5月27日,小米旗下MiMo大模型出手了,宣布对其MiMo-V2.5系列API实施永久性降价,并同步升级计费体系,最高降幅达99%。这不仅是一次简单的价格调整,更是其底层推理技术突破(如SWA优化)后,将技术红利直接反哺给开发者的明确信号,旨在推动AI能力在千行百业的深度渗透。
在 AI 模型价格战持续升温的背景下,小米旗下 MiMo 大模型于5月27日正式发布公告,对其 MiMo-V2.5系列 API 实施永久性降价,并同步优化了计费体系,旨在通过技术红利进一步降低开发者的调用成本。

一、API 价格大幅下调,最高降幅99%
这次价格调整已经在北京时间5月27日零点,面向全球同步生效。它同时覆盖了MiMo-V2.5和MiMo-V2.5Pro这两个主力版本,并且取消了按上下文窗口长度区分的定价方式,整体策略变得更加简洁透明。
| 模型版本 | 输入缓存命中价格 | 最高降幅 | 输出价格 | 最高降幅 |
| MiMo-V2.5Pro | 0.025元/百万 tokens | 99% | 6元/百万 tokens | 86% |
| MiMo-V2.5 | 0.02元/百万 tokens | 98% | 2元/百万 tokens | 93% |
二、计费体系升级:加量不加价
除了直接的 API 单价下调,小米还对 Token Plan 计费体系进行了深度优化:
-
用量额度大幅增加:在维持原有价格水平的基础上,用户实际可使用的Token额度提升到了过去的5到8倍。
-
规则简化: 引入 Credits(积分) 概念,旨在替代此前复杂的计费方式,使开发者对 Token 的消耗与成本计算更直观、易懂。

三、技术底座:为何能持续降价?
小米方面表示,能够实现如此大幅度的降价,关键在于其在推理系统底层架构方面取得的技术突破:
-
SWA 推理优化: 基于 SGLang HiCache 完整支持 SWA(滑动窗口注意力机制),使得 KV Cache 在 GPU 显存、CPU 内存及 SSD 之间的多级搬运数据量减少至原来的1/7。
-
缓存能力显著增强:可缓存的Token数量相比优化前增长了接近5倍,缓存命中率因此得到大幅提升,从而有效地摊薄了每一次推理的平均成本。
-
集群吞吐优化: 通过引入专家并行(MoE)方案与输入长度分桶策略,集群的输入吞吐能力得到质的提升,确保在服务质量保持高水准的同时,持续压低单位 Token 的服务成本。
在行业观察者看来,小米的这一举动是对当前大模型市场竞争白热化的一种积极应对。随着使用成本的进一步下降,MiMo系列模型的高性价比特点将更加突出,有望推动AI能力在各个垂直领域以及开发者日常工作流程中更深入地应用。
📝 站长洞察 (Editor’s Insight)
本次MiMo-V2.5的‘断崖式’降价,绝非简单的市场跟风,而是技术驱动商业的典型范本。从其披露的SWA推理优化、缓存效率跃升等细节看,小米在模型推理的底层工程与硬件协同上已构建起深厚的‘成本护城河’。这标志着大模型竞争正从‘参数竞赛’转向‘效能竞赛’——谁能让单位算力的服务成本无限逼近物理极限,谁就能掌握定价权与生态主导权。此举将加速淘汰仅靠营销而非技术立足的玩家,推动行业进入‘性价比为王’的理性发展期。对开发者而言,成本已不再是首要障碍,关键是如何利用近乎‘免费’的算力,去构建真正有价值的AI原生应用。MiMo的这一步,或许正是AI产业化普及浪潮中的一个关键注脚。
