小米MiMo-V2.5发布：1T参数全模态Agent，千轮调用+1M上下文，开源在即

💡 站外导读：当AI行业仍在为多模态融合、长程任务稳定性与高昂的部署成本而纠结时，小米大模型团队投下了一颗重磅炸弹：MiMo-V2.5系列。这不仅仅是一次模型的迭代，更是一次对“全模态原生Agent”能力的彻底重构。它直击当前大模型应用的三大核心痛点：跨模态感知的割裂、复杂任务链的失准、以及海量Token消耗带来的成本焦虑。在GPT、Claude、Kimi等巨头环伺的赛道中，小米携自研的V2.5-Pro以惊人的Token效率和近千轮工具调用的稳定性，向顶级闭源模型发起正面挑战，并宣布全系即将开源，试图重新定义企业级AI部署的性价比基准。

MiMo-V2.5是什么

MiMo-V2.5 是小米大模型团队推出的新一代全模态 Agent 大模型系列，包含 V2.5、V2.5-Pro、V2.5-TTS 及 V2.5-ASR 四个版本。MiMo-V2.5 为原生全模态 Agent，支持图像、音频、视频理解与行动，上下文长达 1M Token；MiMo-V2.5-Pro 专为长程复杂任务设计，可稳定完成近千轮工具调用，在软件工程能力上对标 Claude Opus 4.6 与 GPT-5.4，且 Token 效率提升 42%~50%。MiMo-V2.5全系模型即将开源。

阅读目录

MiMo-V2.5是什么
MiMo-V2.5的主要功能
如何使用MiMo-V2.5
MiMo-V2.5的关键信息和使用要求
MiMo-V2.5的核心优势
MiMo-V2.5的项目地址
MiMo-V2.5的同类竞品对比
MiMo-V2.5的应用场景

📝 站长洞察 (Editor’s Insight)

MiMo-V2.5

MiMo-V2.5的主要功能

MiMo-V2.5
- 原生全模态 Agent：支持同时看、听、读，将理解转化为行动，覆盖图像、音频、视频多模态感知。
- 通用 Agent 场景：胜任日常简单到中等复杂度任务，API 成本较上一代降低约 50%。
- 多模态感知升级：跨模态推理、视频理解、图表分析能力全面超越前代 MiMo-V2-Omni，在 VideoMME、CharXiv、MMMU-Pro 等评测中逼近顶级闭源模型。
MiMo-V2.5-Pro
- 长程复杂任务：单次可稳定完成近千轮工具调用的专业级工作，指令遵循与模糊指令理解显著增强。
- 复杂软件工程：支持大型代码库开发、多语言编程、代码调试与性能优化，可独立交付编译器、视频编辑器等项目。
- 自主项目交付：用 Rust 从零实现完整 SysY 编译器（4.3 小时，672 次调用，隐藏测试集 233/233 满分）；仅凭简单指令构建可运行的多轨道视频编辑器 Web 应用（8,192 行代码，1,868 次调用，11.5 小时完成）。
语音能力
- V2.5-TTS 系列：语音合成自然度、多语种/方言/音色支持全面升级。
- V2.5-ASR：语音识别准确率与实时性提升，支持多语种和多方言。

如何使用MiMo-V2.5

网页端体验：访问 MiMo Studio 官网，注册登录后选择 MiMo-V2.5 模型即可开始对话。
API 开发接入：访问API开放平台https://platform.xiaomimimo.com/#/token-plan注册开发者账号，创建应用获取 API Key。

MiMo-V2.5的关键信息和使用要求

访问方式
- MiMo Studio 体验：https://aistudio.xiaomimimo.com
- API 调用：https://platform.xiaomimimo.com
开源计划：MiMo-V2.5-Pro 和 MiMo-V2.5 即将全球开源。
定价与计费
- MiMo-V2.5：1x Credits（1 Token = 1 Credit）
- MiMo-V2.5-Pro：2x Credits（1 Token = 2 Credits）
上下文窗口：全系支持 1M Token（约 75 万字）超长上下文，长文档分析不再额外加价。

MiMo-V2.5的核心优势

Token 效率革命：在 ClawEval 基准达到相同分数时，V2.5-Pro 比 Kimi K2.6 节省 42% Token，V2.5 比 Muse Spark 节省 50% Token，显著降低大规模部署成本。
长程任务稳定性：搭配合适运行框架，可稳定完成单次近千轮工具调用的长程任务，并在超长周期内保持逻辑一致与自我修正（如编译器任务中第 512 轮重构后自行诊断恢复）。
全模态原生融合：文本、图像、音频、视频能力集成于单一模型，无需在多模态模型和文本模型之间切换。
推理速度：V2.5 平均推理速度 100~150 tokens/s，V2.5-Pro 为 60~80 tokens/s，基础版更适合时延敏感场景。

MiMo-V2.5的项目地址

项目官网：https://platform.xiaomimimo.com/docs/news/v2.5-news
HuggingFace模型库：https://huggingface.co/collections/XiaomiMiMo/mimo-v25

MiMo-V2.5的同类竞品对比

维度	MiMo-V2.5-Pro	Claude Opus 4.6	GPT-5.4	Kimi K2.6
定位	长程 Agent / 复杂软件工程	顶级推理与 Agent	通用多模态旗舰	开源多模态 Agent
SWE-bench Pro	57.2%	领先	领先	—
MiMo Coding Bench	73.7	77.1	—	—
Token 效率 (ClawEval)	比 Kimi K2.6 省 42%	—	—	基准
上下文窗口	1M	200K	1M	1M
全模态原生支持	Pro 为文本+代码；V2.5 支持全模态	支持	支持	支持
开源计划	即将开源	闭源	闭源	开源
定价 (每百万 Token)	$1 输入 / $3 输出	更高	更高	—

MiMo-V2.5的应用场景

复杂软件开发：自主完成编译器、视频编辑器、Web 应用等大型工程项目的从零构建与调试，可替代人类专家数天至数周的工作量。
多模态内容分析：上传冰箱照片获取菜谱建议、解析视频教程生成步骤摘要、录制会议提取待办事项。
科研与工程自动化：模拟电路 EDA 设计、性能优化、学术文献长程分析与跨文档推理。
智能客服与交互：基于全模态感知（语音+图像+文本）的车载、智能家居、实时交互系统。
企业级 Agent 部署：大规模 API 调用场景下，凭借高 Token 效率实现成本可控的自动化工作流。

📝 站长洞察 (Editor’s Insight)

MiMo-V2.5的发布，标志着国产大模型正式从“追赶参数”进入“定义范式”的新阶段。其核心价值并非在于单项指标的微弱领先，而在于它精准地指明了大模型落地的三个关键方向：1）全模态原生融合，终结了“视觉模型”与“语言模型”的拼凑时代，让Agent真正具备统一感知世界的能力；2）工程级长程稳定性，近千轮工具调用的可靠性，为“AI软件工程师”从概念走向现实提供了最坚实的技术基座；3）Token效率的革命，这直接决定了大规模商业化部署的可行性，是衡量模型是否“实用”的黄金指标。在行业竞相追逐“更大更贵”的闭源模型时，小米选择以“更稳更省”并即将开源的方式入局，这不仅是技术自信的体现，更是一种深思熟虑的生态战略——通过降低企业部署门槛，抢占下一代AI Agent基础设施的定义权。这预示着，未来的竞争焦点将从模型能力本身，转向围绕高效、稳定、开源模型所构建的繁荣应用生态。

小米MiMo-V2.5发布：1T参数全模态Agent，千轮调用+1M上下文，开源在即

MiMo-V2.5是什么

MiMo-V2.5的主要功能

如何使用MiMo-V2.5

MiMo-V2.5的关键信息和使用要求

MiMo-V2.5的核心优势

MiMo-V2.5的项目地址

MiMo-V2.5的同类竞品对比

MiMo-V2.5的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价取消回复

最近更新

2026年3月美国AI榜单巨变：Claude单月狂飙130%紧追ChatGPT，格局突变信号已现

得物实战揭秘：AI Coding工具如何突破数仓开发’失忆’痛点，Harness工程引领新范式

历史性和解！Meta妥协规避审判，美国首例学校诉社交媒体成瘾案落幕，揭示行业司法风向

Spotify与环球音乐联手：AI翻唱混音工具上线，正版版权终结Suno野蛮生长

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

MiMo-V2.5是什么

MiMo-V2.5的主要功能

如何使用MiMo-V2.5

MiMo-V2.5的关键信息和使用要求

MiMo-V2.5的核心优势

MiMo-V2.5的项目地址

MiMo-V2.5的同类竞品对比

MiMo-V2.5的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复