💡 站外导读:在AI Agent席卷各行各业的当下,深度研究智能体正成为企业竞争的制高点。然而,传统端到端大模型面临训练成本高昂、能力耦合、幻觉严重等核心痛点。理想汽车信息智能体团队发布的MindDR 1.5,正是针对这些挑战提出的突破性解决方案。该框架以约30B参数规模,在DeepResearch Bench基准上取得52.54分,超越众多闭源大模型,且训练成本大幅降低,为中小企业和垂直行业应用提供了极具性价比的路径。
MindDR 1.5是什么
MindDR 1.5 是理想汽车信息智能体团队推出的多智能体深度研究框架,用仅约 30B 参数规模在 DeepResearch Bench 取得 52.54 分,达到业界领先水平。框架采用 Planning、DeepSearch、Report 三智能体协作架构,配合 SFT 冷启动、Search-RL、Report-RL 与偏好对齐四阶段训练管线,跳过昂贵的 mid-training,训练 token 减少 71.4%、卡时降低 60%,已实现低成本高性能的深度研究能力,现已部署于理想同学在线产品。

MindDR 1.5的主要功能
-
智能任务规划:Planning Agent 自动拆解用户查询为独立子任务。
-
深度并行检索:DeepSearch Agent 执行多轮搜索、验证与长程推理。
-
高质量报告生成:Report Agent 整合多源证据,输出结构化长报告。
-
记忆共享与追溯:通过 Extended Chain-of-Thought(XoT)与 Tool Memory 实现跨智能体信息流转与溯源。
-
多工具环境调用:支持 Web、Database、Browser、Python 等统一工具接口。
MindDR 1.5的技术原理
- 多智能体协作架构:将深度研究全流程拆分为 Planning Agent(任务规划)、DeepSearch Agent(深度搜索)与 Report Agent(报告撰写)三个分工明确的智能体,通过 Memory 模块共享 XoT 推理轨迹与工具调用记录,避免单模型长上下文膨胀与能力耦合干扰。
- 四阶段训练管线:
- SFT 冷启动:建立工具调用、格式遵循与多轮推理的基础行为。
- Search-RL:基于真实工具环境进行在线强化学习,采用动态调度奖励(工具调用→格式→PRM→ORM 递进),优化长链路搜索与决策效率。
- Report-RL:以 RACE Rubrics(全面性、洞察力、可读性、指令遵循)为核心奖励,结合引用与格式奖励,优化长报告生成质量。
- 偏好对齐:通过 DPO 与 Self-SFT 解决时态一致性、表格格式等细粒度用户体验问题,对齐人类偏好。
- 数据合成:基于百度百科与英文维基百科构建知识图谱,通过子图采样、多跳 QA 生成、条件混淆与质量过滤,合成高质量复杂推理训练数据;并与真实用户查询混合,弥合分布差距。
MindDR 1.5的关键信息和使用要求
- 开发团队:理想汽车(Li Auto)信息智能体团队自主研发并维护。
- 开源状态:技术报告与论文已公开(arXiv 2604.14518),模型权重与产品接口暂未开源。
- 参数规模:采用约 30B 参数的稠密模型与 MoE 模型双路线,在同规模开源系统中性能领先。
- 训练成本:相较 MindDR 1.0,训练 token 数量减少 71.4%,训练卡时降低 60%,实现显著的效率提升。
- 产品形态:已作为核心能力部署于理想同学(Livis)在线产品,面向真实用户场景提供深度研究服务。
- 评测基准:覆盖 DeepResearch Bench、MindDR Bench、BrowseComp、xbench-DS、WideSearch 等多个深度搜索与研究报告评测体系。
MindDR 1.5的核心优势
- 低成本高性能:用30B 级小模型跳过 mid-training,通过多阶段训练实现业界领先性能,显著降低训练与推理成本。
- 智能体分工明确:三智能体解耦搜索与写作,避免端到端训练的奖励稀疏与能力干扰问题,支持并行子任务执行。
- 动态递进奖励:Search-RL 采用阈值触发的动态奖励调度,从基础工具调用逐步过渡到深层推理优化,模拟”顿悟式”能力跃迁。
- 真实场景对齐:基于 500 条真实用户查询构建 MindDR Bench,评测维度覆盖内容质量与呈现格式,直接对齐用户体验。
- 高效搜索决策:在同等准确率下,工具调用次数与上下文 token 消耗显著低于同规模竞品,实现准确且高效。
MindDR 1.5的项目地址
- HuggingFace模型库:https://huggingface.co/papers/2604.14518
- arXiv技术论文:https://arxiv.org/pdf/2604.14518
MindDR 1.5的同类竞品对比
| 对比维度 | MindDR 1.5 | Gemini 3.1 Pro | OpenAI Deep Research |
|---|---|---|---|
| 开发方 | 理想汽车 | OpenAI | |
| 参数规模 | ~30B | 未公开(大模型) | 未公开(大模型) |
| 架构设计 | 三智能体协作(规划/搜索/报告分离) | 单/多智能体(未公开细节) | 单智能体端到端 |
| 训练策略 | 四阶段管线(跳过 mid-training) | 大规模持续预训练 | 端到端强化学习 |
| DeepResearch Bench | 52.54 | 52.17 | 46.45 |
| BrowseComp-ZH | 45.7 | — | — |
| 核心特点 | 小模型+多阶段 RL,成本极低 | 原生多模态,通用性强 | 闭源产品,体验成熟 |
| 开源程度 | 论文公开,模型未开源 | 闭源 | 闭源 |
MindDR 1.5的应用场景
-
汽车行业深度调研:分析市场竞争格局、价格战策略、技术路线等复杂商业问题。
-
学术科研辅助:自动检索文献、整合多源证据并生成引用规范的研究综述。
-
金融投资研究:对上市公司、行业趋势进行多轮信息验证与结构化报告输出。
-
产品决策支持:基于海量公开数据与用户行为日志,生成可落地的商业分析报告。
-
智能座舱问答:作为理想同学的核心能力,为车主提供高可信度的深度知识问答。
📝 站长洞察 (Editor’s Insight)
站长视角:MindDR 1.5的核心价值在于“用巧劲而非蛮力”,其“三智能体+四阶段RL”架构为AI Agent发展提供了新范式。首先,规划、搜索、报告的解耦设计,是对人类专家研究流程的精准模拟,避免了单体模型在长上下文中“既要又要”导致的能力稀疏,这启示我们:在复杂的任务链上,模块化、流程化的工程设计可能比追求单一的超级智能更可靠、更高效。其次,跳过昂贵的mid-training阶段,直接通过SFT冷启动和动态递进的RL训练,这预示着大模型训练正在从“大力出奇迹”的Scaling Law,向更精细、更符合人类认知演进过程的“顿悟式”能力跃迁过渡。这不仅大幅降低了企业的研发门槛,也预示着未来AI Agent的竞争将更聚焦于训练方法论、任务分解设计和真实场景数据闭环,而非单纯的模型参数规模。对于技术决策者和创业者而言,MindDR 1.5的实践路径极具参考价值:在资源有限的情况下,如何通过精巧的架构设计和对齐训练,实现顶级的垂直应用性能。
