Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 上海交大ML-Master登顶MLE-bench:AI专家Agent如何用“探索-推理融合”范式超越微软、OpenAI?
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 上海交大ML-Master登顶MLE-bench:AI专家Agent如何用“探索-推理融合”范式超越微软、OpenAI?
AI 工具AIGC 资讯

上海交大ML-Master登顶MLE-bench:AI专家Agent如何用“探索-推理融合”范式超越微软、OpenAI?

站外新闻
最近更新: 2026年6月7日 下午8:24
AI专家智能体 ML-Master MLE-bench 上海交通大学 探索-推理深度融合
SHARE

💡 站外导读:在AI竞赛白热化的今天,自动化机器学习工程成为效率瓶颈的关键突破点。上海交大Agents团队推出的ML-Master智能体,在OpenAI权威基准MLE-bench中以29.3%奖牌率力压微软、OpenAI等巨头登顶,其核心技术“探索-推理深度融合”通过模拟人类专家认知,实现了12小时内以一半成本完成测试、性能超人类半数选手的惊人成果。这不仅是技术的胜利,更预示着AI自我演进与工程自动化浪潮的加速到来。

ML-Master是什么

ML-Master是上海交通大学人工智能学院Agents团队推出AI专家智能体。在OpenAI的权威基准测试MLE-bench中表现出色,以29.3%的平均奖牌率位居榜首,超越了微软的RD-Agent和OpenAI的AIDE等竞争对手。ML-Master通过“探索-推理深度融合”的创新范式,模拟人类专家的认知策略,整合广泛探索与深度推理,显著提升了AI在机器学习工程中的表现。采用平衡多轨迹探索和可控推理两大模块,通过自适应记忆机制实现两者的高效协同。

阅读目录
  • ML-Master是什么
  • ML-Master的主要功能
  • ML-Master的技术原理
  • ML-Master的项目地址
  • ML-Master的应用场景
      • 📝 站长洞察 (Editor’s Insight)

ML-Master

ML-Master的主要功能

  • 探索与推理深度融合:ML-Master通过创新的“探索-推理深度融合”范式,模拟人类专家的认知策略,整合广泛探索与深度推理,显著提升AI性能。
  • 卓越的性能表现:
    • 在OpenAI的MLE-bench基准测试中,ML-Master以29.3%的平均奖牌率位居榜首,大幅领先微软的RD-Agent(22.4%)和OpenAI的AIDE(16.9%)。
    • 93.3%的任务提交有效解,44.9%的任务超越半数人类参赛者,展现出强大的泛化能力和稳定性。
    • 计算效率极高,仅用12小时完成测试,计算成本仅为基线方法的一半。
  • 强大的自我演进能力:ML-Master在多轮任务执行过程中持续提升解决方案质量,最终性能相比初始版本提升超过120%。

ML-Master的技术原理

  • 平衡多轨迹探索(Balanced Multi-trajectory Exploration)
    • MCTS启发的树搜索:将AI研发过程建模为决策树,每个节点代表一个AI方案的状态。
    • 并行探索策略:同时探索多个解决方案分支,突破传统串行探索的限制,大幅提升探索效率。
    • 动态优先级调整:根据每个分支的潜在价值动态分配计算资源,避免无效探索。
  • 可控推理(Steerable Reasoning)
    • 自适应记忆机制:精准提取关键信息,避免信息过载,智能筛选历史探索中的有效信息,确保推理过程基于更相关的知识。
    • 情境化决策:结合具体执行反馈和成功案例进行有根据的分析,避免“拍脑袋”决策。
    • 闭环学习系统:探索结果实时反哺推理过程,形成“探索→推理→优化→再探索”的良性循环。
  • 自适应记忆机制(Adaptive Memory)
    • 智能记忆构建:探索模块自动收集执行结果、代码片段和性能指标,同时选择性整合来自父节点和并行兄弟节点的关键信息。
    • 嵌入推理决策:记忆信息直接嵌入到推理模型的决策部分,确保每次推理都基于具体的历史执行反馈和多样化探索的经验。
    • 协同进化机制:推理结果指导后续探索方向,探索经验持续丰富推理过程,实现探索与推理的深度融合。

ML-Master的项目地址

  • 项目官网:https://sjtu-sai-agents.github.io/ML-Master/
  • Github仓库:https://github.com/sjtu-sai-agents/ML-Master
  • arXiv技术论文:https://arxiv.org/pdf/2506.16499

ML-Master的应用场景

  • 机器学习任务自动化:ML-Master通过其“探索-推理深度融合”的技术框架,能自动完成从模型训练、数据准备到实验运行的完整机器学习流程。在OpenAI的MLE-bench基准测试中表现出色,证明在处理复杂机器学习任务中的高效性和准确性。
  • AI开发效率提升:ML-Master通过平衡多轨迹探索和可控推理模块,显著提升了AI开发的效率。适用于需要快速迭代和优化的AI项目。
  • AI自我演进与优化:ML-Master具备强大的自我演进能力,能在多轮任务执行中持续提升解决方案质量。适用于需要长期优化和自我改进的AI系统,例如在复杂环境下的自适应学习和优化任务。
  • 多领域任务覆盖:ML-Master可以扩展到其他需要AI自主优化的领域,如材料科学、医疗诊断、金融交易等。例如,技术框架可以用于材料属性预测、新材料发现以及生产过程优化。
  • 情感分析与文本处理:ML-Master的技术原理也可以应用于自然语言处理领域,例如情感分析和观点挖掘。能对文本进行语义表示,基于此进行情感分类和观点抽取,适用于消费决策和舆情分析等场景。

📝 站长洞察 (Editor’s Insight)

ML-Master的崛起绝非偶然,它精准击中了当前AI研发的三大痛点:探索效率低下、推理与执行脱节、以及自优化能力薄弱。其“平衡多轨迹探索”借鉴AlphaGo的MCTS思想,将传统串行试错升级为并行智能搜索;而“可控推理”模块则通过自适应记忆机制,实现了数据、代码与反馈的闭环学习。这标志着AI Agent从简单任务执行者向具备“专家级认知架构”的自主智能体进化。从行业视角看,此类技术将大幅降低AI开发门槛,加速科研与产业创新周期。尤其在多模态大模型爆发的当下,具备自我演进能力的Agent可能成为下一个技术奇点——它们不仅能解决问题,更能自主发现问题并迭代方案。上海交大团队此次登顶,也为中国在基础AI架构层面的创新注入了强心剂,未来在金融风控、新材料发现等复杂决策场景的落地值得期待。

Fama.one
ACTalker – 港科大联合腾讯、清华推出的端到端视频扩散框架
香港大学开源DeepTutor:基于知识图谱的AI学习助手,多智能体架构助你高效构建个人知识库
YuE – 港科大联合 M-A-P 推出的开源AI音乐生成模型
OpenAI 发布 GPT-5.3-Codex-Spark:轻量级编程模型,推理速度破1000 tokens/秒,定义实时协作新范式
TAGGED:AI专家智能体ML-MasterMLE-bench上海交通大学探索-推理深度融合
分享
Email 复制链接 打印
Share
上一篇 阿里通义ThinkSound:首个CoT音频生成模型,让AI为视频自动配音,音画同步超越6大主流方案
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

阿里通义ThinkSound:首个CoT音频生成模型,让AI为视频自动配音,音画同步超越6大主流方案
AI 工具 AIGC 资讯
谷歌DeepMind发布BlenderFusion:AI+Blender融合,实现精准3D编辑与逼真图像合成
AI 工具 AIGC 资讯
阿里通义MirrorMe:AI音频驱动肖像动画框架,实时生成高保真虚拟人
AI 工具 AIGC 资讯
告别AI答一半就跑!开源神器「寸止」深度解析:智能拦截、记忆管理,打造永不中断的对话体验
AI 工具

相关推荐

AIGC 资讯

Dynamic Workflows – Claude Code 推出的动态工作流

站外新闻
AI 工具

Jounce AI

remaker
AI 工具AIGC 资讯

华为开源openPangu-VL-7B:专为昇腾优化,720P推理仅160ms的多模态视觉大模型

站外新闻
OCR openPangu-VL-7B 华为 多模态大模型 昇腾
AI 工具

一帧秒创

remaker
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程模型 AI视频生成 AI音乐生成 Anthropic chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax MoE架构 MoE模型 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 知识管理 科大讯飞 端侧AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.