💡 站外导读:随着AI从‘对话’迈向‘执行’,智能体(Agent)成为大模型落地的终极形态。企业与开发者面临的核心痛点是:现有模型在复杂、长周期、多步骤的真实任务中,常因能力碎片化、框架依赖性强、执行不连贯而失效。阿里通义此次推出的Qwen3.7-Max,正瞄准这一‘智能体时代’的基座需求,试图以全能、稳定、泛化的核心能力,为AI成为真正的数字员工铺平道路。
Qwen3.7-Max是什么
Qwen3.7-Max 是阿里通义千问团队推出的面向智能体时代的新一代旗舰大模型,定位为全能智能体基座。模型具备前沿编程、办公自动化、长周期自主执行与跨框架泛化四大核心能力,在 SWE-Pro、MCP-Atlas、GPQA Diamond 等数十项编程、智能体与推理基准上取得领先成绩,可无缝集成至 Claude Code、OpenClaw、Qwen Code 等主流智能体框架。
阅读目录

Qwen3.7-Max的主要功能
- 前沿编程智能体:支持从前端原型开发到复杂多文件软件工程的全链路代码编写与调试,在 SWE-Pro、SWE-Multilingual 等编程基准上表现领先。
- 办公生产力助手:通过 MCP 集成与多智能体协作实现工作流自动化,在 SpreadSheetBench-v1 办公自动化基准上得分 87.0,可承接复杂数据分析与文档生成任务。
- 长周期自主执行:具备持续稳定的超长任务执行能力,已在长达 35 小时、超过 1000 次工具调用的全自主内核优化实验中保持连贯推理。
- 跨框架泛化:原生适配 Claude Code、OpenClaw、Qwen Code 等主流智能体框架,无需针对特定框架微调即可稳定发挥。
Qwen3.7-Max的技术原理
- 环境扩展训练:在 Qwen3.5 环境扩展方法基础上大幅扩展智能体训练环境的质量与多样性,使模型能力从多样化环境中实现泛化。
- 解耦式 Rollout 基础设施:将训练实例解耦为任务、运行框架与验证器三个正交组件,支持跨框架与跨验证器的强化学习训练,迫使模型学习泛化解题策略。
- 组合式扩展:同一任务可与不同类型、不同版本的框架及验证器以极低边际成本自由重组,实现训练环境的组合式规模化扩展。
- 长程强化学习优化:通过长周期自主执行中的持续反馈迭代,模型在 30 小时以上仍能发现实质性改进,验证长程优化与自我进化能力。
如何使用Qwen3.7-Max
Qwen3.7-Max计划将通过阿里云百炼提供服务。
Qwen3.7-Max的核心优势
-
智能体基准全面领先:在 MCP-Mark、MCP-Atlas、ClawEval、QwenClawBench 等通用智能体基准上超越或紧追 Claude Opus-4.6 Max。
-
编程能力顶尖:SWE-Pro 60.6、SWE-Multilingual 78.3、Terminal Bench 2.0 69.7,全面领先同类模型。
-
推理与知识深厚:GPQA Diamond 92.4、HMMT 2026 Feb 97.1、HLE 41.4,在高难度 STEM 推理上处于第一梯队。
-
多语言能力一流:WMT24++ 85.8、MAXIFE 89.2、MMLU-Pro 89.6,翻译与跨语言理解质量顶尖。
-
真实生产力闭环:可将需专业团队一至两周的复杂项目压缩至数小时内端到端交付。
-
硬件无关泛化:在训练时未见过的平头哥真武 M890 硬件平台上,能通过自主探索完成深度内核优化。
Qwen3.7-Max的同类竞品对比
| 对比维度 | Qwen3.7-Max | Claude Opus-4.6 Max |
|---|---|---|
| 编程智能体 | SWE-Pro 60.6 / Terminal Bench 69.7 领先 | SWE-Pro 59.0 / SWE-Verified 80.8 略领先 |
| 通用智能体 | MCP-Atlas 76.4 / ClawEval 65.2 领先 | MCP-Atlas 75.8 / ClawEval 70.4 领先 |
| 推理能力 | GPQA Diamond 92.4 / HLE 41.4 领先 | GPQA Diamond 91.3 / HLE 40.0 |
| 办公自动化 | SpreadSheetBench 87.0 | SpreadSheetBench 89.3 略领先 |
| 多语言 | WMT24++ 85.8 / MAXIFE 89.2 领先 | WMT24++ 82.7 |
| 长周期执行 | 35小时/1000+工具调用自主优化,30小时后仍持续改进 | 长上下文稳定,但公开的长程自主优化案例较少 |
| 跨框架泛化 | 原生适配 Claude Code / OpenClaw / Qwen Code 等多框架 | 主要针对 Claude Code 优化 |
| 提供服务 | 阿里云百炼 API(即将上线) | Anthropic API / Claude 应用 |
Qwen3.7-Max的应用场景
- 复杂软件开发:作为 AI 软件工程师,独立完成需求分析、架构设计、多文件编码、调试与性能优化的全周期开发任务。
- 企业工作流自动化:通过 MCP 连接企业工具链,自动执行数据分析、报表生成、跨系统信息整合等高强度办公任务。
- 底层系统优化:在陌生硬件平台上自主进行 GPU 内核编写、编译、性能分析与迭代优化,实现数量级加速。
- 科研与数学推理:承接高复杂度数学证明、科学计算与文献整合任务,辅助科研人员处理高难度推理工作。
- 多语言内容生产:依托顶尖多语言能力,完成高精度翻译、跨语言技术文档撰写与全球化内容适配。
📝 站长洞察 (Editor’s Insight)
Qwen3.7-Max的发布,标志着大模型竞争正式进入‘智能体实战’深水区。其亮点不仅在于基准分数的领先,更在于技术路径的突破:通过‘环境扩展训练’和‘解耦式Rollout’,解决了Agent训练中环境稀缺与框架绑定的核心难题,让模型学会‘泛化解题’而非‘对症下药’。这预示着行业趋势正从追求单一任务性能,转向构建可适配复杂生产环境的‘基座型智能体’。35小时超长自主执行验证了长程强化学习的可行性,为AI自动化完成跨天级别的企业级项目带来想象空间。阿里的打法是:以开源生态(如Qwen Code)和云服务(百炼)为两翼,将顶尖模型能力迅速转化为开发者与企业的生产力。这不仅是技术竞赛,更是生态与落地速度的较量。
