💡 站外导读:当AI行业仍在为多模态融合、长程任务稳定性与高昂的部署成本而纠结时,小米大模型团队投下了一颗重磅炸弹:MiMo-V2.5系列。这不仅仅是一次模型的迭代,更是一次对“全模态原生Agent”能力的彻底重构。它直击当前大模型应用的三大核心痛点:跨模态感知的割裂、复杂任务链的失准、以及海量Token消耗带来的成本焦虑。在GPT、Claude、Kimi等巨头环伺的赛道中,小米携自研的V2.5-Pro以惊人的Token效率和近千轮工具调用的稳定性,向顶级闭源模型发起正面挑战,并宣布全系即将开源,试图重新定义企业级AI部署的性价比基准。
MiMo-V2.5是什么
MiMo-V2.5 是小米大模型团队推出的新一代全模态 Agent 大模型系列,包含 V2.5、V2.5-Pro、V2.5-TTS 及 V2.5-ASR 四个版本。MiMo-V2.5 为原生全模态 Agent,支持图像、音频、视频理解与行动,上下文长达 1M Token;MiMo-V2.5-Pro 专为长程复杂任务设计,可稳定完成近千轮工具调用,在软件工程能力上对标 Claude Opus 4.6 与 GPT-5.4,且 Token 效率提升 42%~50%。MiMo-V2.5全系模型即将开源。

MiMo-V2.5的主要功能
-
MiMo-V2.5
-
原生全模态 Agent:支持同时看、听、读,将理解转化为行动,覆盖图像、音频、视频多模态感知。
-
通用 Agent 场景:胜任日常简单到中等复杂度任务,API 成本较上一代降低约 50%。
-
多模态感知升级:跨模态推理、视频理解、图表分析能力全面超越前代 MiMo-V2-Omni,在 VideoMME、CharXiv、MMMU-Pro 等评测中逼近顶级闭源模型。
MiMo-V2.5-Pro-
长程复杂任务:单次可稳定完成近千轮工具调用的专业级工作,指令遵循与模糊指令理解显著增强。
-
复杂软件工程:支持大型代码库开发、多语言编程、代码调试与性能优化,可独立交付编译器、视频编辑器等项目。
-
自主项目交付:用 Rust 从零实现完整 SysY 编译器(4.3 小时,672 次调用,隐藏测试集 233/233 满分);仅凭简单指令构建可运行的多轨道视频编辑器 Web 应用(8,192 行代码,1,868 次调用,11.5 小时完成)。
语音能力-
V2.5-TTS 系列:语音合成自然度、多语种/方言/音色支持全面升级。
-
V2.5-ASR:语音识别准确率与实时性提升,支持多语种和多方言。
-
如何使用MiMo-V2.5
- 网页端体验:访问 MiMo Studio 官网,注册登录后选择 MiMo-V2.5 模型即可开始对话。
- API 开发接入:访问API开放平台https://platform.xiaomimimo.com/#/token-plan注册开发者账号,创建应用获取 API Key。
MiMo-V2.5的关键信息和使用要求
- 访问方式
-
MiMo Studio 体验:https://aistudio.xiaomimimo.com
-
API 调用:https://platform.xiaomimimo.com
-
-
开源计划:MiMo-V2.5-Pro 和 MiMo-V2.5 即将全球开源。
- 定价与计费
-
MiMo-V2.5:1x Credits(1 Token = 1 Credit)
-
MiMo-V2.5-Pro:2x Credits(1 Token = 2 Credits)
-
- 上下文窗口:全系支持 1M Token(约 75 万字)超长上下文,长文档分析不再额外加价。
MiMo-V2.5的核心优势
- Token 效率革命:在 ClawEval 基准达到相同分数时,V2.5-Pro 比 Kimi K2.6 节省 42% Token,V2.5 比 Muse Spark 节省 50% Token,显著降低大规模部署成本。
- 长程任务稳定性:搭配合适运行框架,可稳定完成单次近千轮工具调用的长程任务,并在超长周期内保持逻辑一致与自我修正(如编译器任务中第 512 轮重构后自行诊断恢复)。
- 全模态原生融合:文本、图像、音频、视频能力集成于单一模型,无需在多模态模型和文本模型之间切换。
- 推理速度:V2.5 平均推理速度 100~150 tokens/s,V2.5-Pro 为 60~80 tokens/s,基础版更适合时延敏感场景。
MiMo-V2.5的项目地址
- 项目官网:https://platform.xiaomimimo.com/docs/news/v2.5-news
- HuggingFace模型库:https://huggingface.co/collections/XiaomiMiMo/mimo-v25
MiMo-V2.5的同类竞品对比
| 维度 | MiMo-V2.5-Pro | Claude Opus 4.6 | GPT-5.4 | Kimi K2.6 |
|---|---|---|---|---|
| 定位 | 长程 Agent / 复杂软件工程 | 顶级推理与 Agent | 通用多模态旗舰 | 开源多模态 Agent |
| SWE-bench Pro | 57.2% | 领先 | 领先 | — |
| MiMo Coding Bench | 73.7 | 77.1 | — | — |
| Token 效率 (ClawEval) | 比 Kimi K2.6 省 42% | — | — | 基准 |
| 上下文窗口 | 1M | 200K | 1M | 1M |
| 全模态原生支持 | Pro 为文本+代码;V2.5 支持全模态 | 支持 | 支持 | 支持 |
| 开源计划 | 即将开源 | 闭源 | 闭源 | 开源 |
| 定价 (每百万 Token) | $1 输入 / $3 输出 | 更高 | 更高 | — |
MiMo-V2.5的应用场景
-
复杂软件开发:自主完成编译器、视频编辑器、Web 应用等大型工程项目的从零构建与调试,可替代人类专家数天至数周的工作量。
-
多模态内容分析:上传冰箱照片获取菜谱建议、解析视频教程生成步骤摘要、录制会议提取待办事项。
-
科研与工程自动化:模拟电路 EDA 设计、性能优化、学术文献长程分析与跨文档推理。
-
智能客服与交互:基于全模态感知(语音+图像+文本)的车载、智能家居、实时交互系统。
-
企业级 Agent 部署:大规模 API 调用场景下,凭借高 Token 效率实现成本可控的自动化工作流。
📝 站长洞察 (Editor’s Insight)
MiMo-V2.5的发布,标志着国产大模型正式从“追赶参数”进入“定义范式”的新阶段。其核心价值并非在于单项指标的微弱领先,而在于它精准地指明了大模型落地的三个关键方向:1)全模态原生融合,终结了“视觉模型”与“语言模型”的拼凑时代,让Agent真正具备统一感知世界的能力;2)工程级长程稳定性,近千轮工具调用的可靠性,为“AI软件工程师”从概念走向现实提供了最坚实的技术基座;3)Token效率的革命,这直接决定了大规模商业化部署的可行性,是衡量模型是否“实用”的黄金指标。在行业竞相追逐“更大更贵”的闭源模型时,小米选择以“更稳更省”并即将开源的方式入局,这不仅是技术自信的体现,更是一种深思熟虑的生态战略——通过降低企业部署门槛,抢占下一代AI Agent基础设施的定义权。这预示着,未来的竞争焦点将从模型能力本身,转向围绕高效、稳定、开源模型所构建的繁荣应用生态。
