💡 站外导读:在AI编程助手已成开发者标配的今天,模型对复杂任务的理解力、稳定性和多工具协同能力,正成为区分“能用”与“好用”的关键。智谱AI最新发布的旗舰模型GLM-4.7,正是瞄准这一核心痛点。它不仅在SWE-bench等权威编码基准上刷新开源纪录,更通过引入创新的“思考模式”,试图解决AI在执行长链路、多步骤任务时常见的规划偏差与过程失控问题,为智能体时代下的开发范式提供了新思路。
GLM-4.7是什么
GLM-4.7 是智谱AI推出的开源模型,专注于提升编码能力、推理能力和工具协同。模型在多语言编程、复杂任务规划、前端设计美学等方面表现出色,支持多种编程框架,如Claude Code等。在基准测试中,GLM-4.7的代码能力达到开源领先水平,推理能力显著增强。模型引入交错式、保留式和轮级思考模式,使复杂任务执行更稳定、可控。模型现已通过BigModel提供API服务,在z.ai全栈开发模式中上线Skills模块,为开发者提供高效、智能的编程体验。

GLM-4.7的主要功能
-
核心编码能力:GLM-4.7在多语言编程和终端任务中表现卓越,支持“先思考、再行动”模式,显著提升复杂任务的稳定性和代码质量。
-
前端设计优化:支持生成更现代、美观的网页和幻灯片,提升UI设计质量,减少开发者在样式调整上的时间。
-
工具调用能力:在工具调用和网页浏览任务中表现出色,例如τ²-Bench得分87.4%,BrowseComp得分67.5分,效率和准确性大幅提升。
-
复杂推理能力:数学和推理能力显著增强,HLE基准测试得分42.8%,较前代提升12.4%,能处理复杂逻辑和数学问题。
-
思考模式优化:引入交错式、保留式和轮级思考模式,提升复杂任务的执行稳定性与可控性,适合长程任务和多轮对话。
-
多模态与全栈开发:支持多模态任务协同和全栈开发,集成Skills模块,助力开发者构建交互丰富、体验流畅的应用。
GLM-4.7的性能表现
- 编码能力(Core Coding):
-
SWE-bench Verified:得分73.8%,较GLM-4.6提升5.8个百分点,达到开源模型的SOTA水平。
-
SWE-bench Multilingual:得分66.7%,较GLM-4.6提升12.9个百分点,多语言编程能力显著增强。
-
Terminal Bench 2.0:得分41%,较GLM-4.6提升16.5个百分点,终端任务性能大幅提升。
-
- 工具调用能力(Tool Using):
-
τ²-Bench:得分87.4%,较GLM-4.6提升12.2个百分点,交互式工具调用能力达到开源SOTA水平。
-
BrowseComp(网页浏览):得分52.0%,较GLM-4.6提升6.9个百分点;在启用上下文管理的BrowseComp测试中,得分67.5%,较GLM-4.6提升10.0个百分点,网页浏览与工具链管理表现更优。
-
- 复杂推理能力(Complex Reasoning):
-
HLE(人类最后的考试):得分42.8%,较GLM-4.6提升12.4个百分点,数学与推理能力显著增强。
-
MMLU-Pro:得分84.3%,较GLM-4.6提升1.1个百分点,多领域推理能力表现稳定。
-
GPQA-Diamond:得分85.7%,较GLM-4.6提升4.7个百分点,推理准确性进一步提升。
-

GLM-4.7的项目地址
- 项目官网:https://z.ai/blog/glm-4.7
- GitHub仓库:https://github.com/zai-org/GLM-4.5
- HuggingFace模型库:https://huggingface.co/zai-org/GLM-4.7
GLM-4.7的应用场景
-
编程与软件开发:GLM-4.7能生成高质量多语言代码,作为智能编程助手提升开发效率。
-
前端开发与设计:在网页设计和UI/UX设计中,快速生成现代美观的布局与配色方案,减少前端开发者和设计师的样式调整时间。
-
复杂任务规划与执行:凭借保留式思考和轮级思考模式,GLM-4.7能处理多步骤复杂任务,确保长程任务的准确性和稳定性。
-
教育与学习:GLM-4.7为编程教育提供代码示例和练习,同时通过数学和逻辑问题训练,帮助学生提升思维能力。
-
办公自动化:GLM-4.7能自动生成文档、报告和数据分析代码,减少人工编写和排版时间,提升办公效率。
📝 站长洞察 (Editor’s Insight)
GLM-4.7的发布,标志着开源大模型的竞争已从单纯的“跑分”进入了“工程化能力”与“思维架构”深水区。其亮点不仅在于SWE-bench等编码榜单的登顶,更在于“交错式”、“保留式”和“轮级”思考模式的引入。这并非简单的提示词工程,而是对模型内部“认知过程”的一种结构化设计,旨在让AI像人类开发者一样,在行动中保持上下文、进行阶段性反思与规划。这直接回应了当前AI Agent开发中“过程可控性”这一最大挑战。结合其在工具调用(τ²-Bench)上的SOTA表现,GLM-4.7正在从“代码生成器”向“可信赖的数字工程师”演进。这预示着,未来AI编程工具的竞争核心,将是如何更稳定、更可靠地融入企业复杂的研发流水线与自动化工作流,而不仅仅是回答孤立的技术问题。
