💡 站外导读:当大模型竞赛进入“能力分层”与“场景细分”的深水区,单纯的参数堆叠已无法满足从极限推理到企业级高效部署的复杂需求。阿里通义千问此次推出的Qwen3.7 Preview,以Max和Plus双版本策略,精准切中了当前行业的两大核心痛点:一是如何在特定高难度任务(如软件工程、复杂推理)上追求极致性能;二是如何在百万级长上下文等实际应用场景中实现效果与成本的平衡。这不仅是一次技术迭代,更是对产业智能化落地路径的一次重要探索。
Qwen3.7 Preview是什么
Qwen3.7 Preview 是阿里通义千问团队推出的下一代旗舰大模型预览版,包含Qwen3.7-Max-Preview和Qwen3.7-Plus-Preview两个版本。模型在智能体编程、世界知识和指令遵循方面显著提升,在 LMSYS Chatbot Arena 榜单中助力阿里跃升至文本领域第 6、视觉领域第 5。Max 主打极致复杂推理与编程能力,Plus 侧重百万级长上下文与 Agentic Coding 的均衡体验

Qwen3.7 Preview的主要功能
- Qwen3.7 Max Preview
- 旗舰级复杂推理:在 SWE-bench Pro、Terminal-Bench 等主流编程基准上表现领先,支持高难度软件工程任务与多步骤逻辑推理。
- 世界知识与指令遵循:世界知识覆盖显著增强,可精准理解并执行复杂指令,降低知识幻觉与误执行风险。
- 原生多模态理解:支持文本、图像、视频输入,视觉推理能力跻身全球前五,实现跨模态信息融合。
- 超长上下文处理:支持 256K Token 上下文窗口,可完成代码库级分析与长文档深度理解,无需分段输入。
- 混合推理模式:支持思考模式与非思考模式无缝切换,灵活匹配不同任务复杂度,兼顾深度与效率。
- Qwen3.7 Plus Preview
- 百万 Token 原生上下文:可一次性处理整个代码仓库或超长篇文档,实现端到端的长文本推理与信息提取。
- Agentic Coding 自主编程:在复杂工程环境中自主规划、执行与优化开发任务,支持多轮交互式代码生成与调试。
- 效果与成本均衡:更低推理成本实现接近 Max 版的综合性能,适合高频调用与企业级生产部署场景。
- 多模态原生推理:支持文本、图像、视频混合输入,实现跨模态信息融合与结构化输出,满足内容创作需求。
- 企业级 Agentic AI 优化:支持大规模生产环境部署,与阿里云百炼生态深度集成,提供稳定可靠的商用接入体验。
Qwen3.7 Preview的技术原理
- MoE 混合专家架构:基于混合专家模型架构,以较少激活参数实现高密度模型性能,在同等算力下获得更强推理能力。
- 大规模强化学习优化:训练阶段通过自动扩展测试样例提升代码执行成功率,强化模型在编程与复杂任务中的可靠性。
- 长时序强化学习(Long-Horizon RL):鼓励模型通过多轮交互解决复杂任务,支持持续学习与策略优化,提升 Agent 自主决策能力。
- 思考预算控制机制:支持动态调整推理深度,用户可根据任务需求配置思考 Token 预算,平衡响应质量与速度。
- 保留思维链(Preserve Thinking):在 Agent 任务中保留完整推理过程,确保多轮交互的连续性与可追溯性,便于调试与审计。
如何使用Qwen3.7 Preview
- 访问 Arena 评测平台:访问 Arena 官网 https://arena.ai/,Qwen3.7 Preview 已登陆该平台供公开横向评测。
- 选择模型版本 在 Arena 模型列表中选用 Qwen3.7-Max-Preview(极致推理)或 Qwen3.7-Plus-Preview(均衡体验)。
- 开始对话测试:输入文本问题验证语言理解与指令遵循能力,或通过多模态任务测试视觉能力。
- 横向对比评估:在同一平台与其他顶级模型并行对比。
Qwen3.7 Preview的核心优势
-
双版本并行策略:Max 主攻极致复杂推理与编程,Plus 聚焦百万 Token 长上下文与 Agentic Coding,覆盖分层需求。
-
全球榜单排名:在 LMSYS Chatbot Arena 中助力阿里跃升至文本第 6、视觉第 5,编程与多模态实力获国际认可。
-
编程基准领先:在 SWE-bench Pro、Terminal-Bench 等主流编程评测中表现优异,支持高难度软件工程任务。
-
超长上下文窗口:Max 支持 256K Token,Plus 原生支持百万级 Token,可端到端处理代码仓库与超长文档。
-
混合推理架构:单个模型内无缝切换思考模式与非思考模式,灵活匹配不同任务复杂度与成本需求。
-
原生多模态理解:支持文本、图像、视频混合输入,视觉推理能力跻身全球第一梯队。
Qwen3.7 Preview的同类竞品对比
| 对比维度 | Qwen3.7 Preview | GPT-5.5 | DeepSeek V4 |
|---|---|---|---|
| 模型定位 | 双版本并行(Max/Plus),覆盖极致性能与性价比 | 综合能力最强,实时检索与工具调用领先 | 长上下文性价比之选,开源可本地部署 |
| Arena 排名 | 文本第 6、视觉第 5(阿里实验室) | 文本/视觉头部领先 | 未进入前五 |
| 编程能力 | SWE-bench Pro 等基准国产领先 | 综合编程能力强 | 代码生成与数学推理优秀 |
| 上下文长度 | Max 256K / Plus 1M Token | 标准上下文 | 1M Token(可扩展) |
| 推理模式 | 思考/非思考无缝切换 | 支持深度推理 | 支持 thinking 模式 |
| 实时检索 | 依赖外部工具 | 原生实时网络搜索,准确性高 | 需外部检索工具辅助 |
| 价格策略 | Plus ¥2/百万Token 起,Max 阶梯定价 | $5-30/百万Token,成本较高 | 开源免费/API 低价 |
| 部署方式 | 阿里云百炼/Qwen Studio | OpenAI API/ChatGPT | 开源权重/本地部署/API |
| 多模态支持 | 原生文本/图像/视频 | 全模态支持 | 文本为主,部分多模态 |
Qwen3.7 Preview的应用场景
-
智能软件开发:基于 SWE-bench Pro 领先的编程能力,辅助代码生成、调试与仓库级项目分析,支持高难度软件工程任务。
-
代码仓库级分析:用 Plus 百万 Token 或 Max 256K 上下文窗口,一次性理解整个代码库结构,实现端到端的架构梳理与优化建议。
-
企业知识管理:处理超长合同、研报、技术文档的深度理解与关键信息提取,无需分段输入即可保持全局逻辑连贯性。
-
多模态内容分析:融合文本、图像、视频输入进行跨模态推理,适用于视觉内容理解、视频摘要生成与多媒体资料审核。
-
自动化智能体构建:依托 Agentic Coding 与混合推理模式,构建可自主规划、多轮交互并调用外部工具的复杂业务自动化流程。
📝 站长洞察 (Editor’s Insight)
Qwen3.7 Preview的发布,标志着国产基础大模型的竞争正式从“参数竞赛”转向“架构与场景的精细化博弈”。阿里此次采用的Max/Plus双版本并行策略极具前瞻性:Max版本以MoE架构和强化学习聚焦“深度推理”,直击编程和复杂逻辑任务;Plus版本则以“百万Token长上下文”和Agentic Coding为核心,瞄准企业知识管理和自动化智能体构建的真实需求。更值得关注的是其“思考预算控制”和“保留思维链”等机制,这揭示了下一代AI Agent的核心发展方向——不仅是能力强大,更是过程可解释、成本可控、交互可延续。结合其在LMSYS榜单上的快速攀升,阿里正试图证明,在通往AGI的道路上,除了比拼模型上限,如何将能力产品化、工程化,构建稳定可靠的企业级AI底座,同样是决定胜负的关键战场。这不仅是阿里的战略,也是整个行业从技术demo走向规模化应用的必然选择。
