💡 站外导读:当前代码智能体训练面临核心痛点:随着AI从单步任务转向多轮交互的长流程任务(如代码仓库操作、浏览器交互),现有智能体框架(Codex、Claude Code等)难以直接适配传统强化学习接口,导致训练信号丢失。在AI编程工具爆发式增长的行业背景下,如何在不破坏现有工具调用和上下文管理逻辑的前提下,高效训练智能体成为制约性能突破的关键瓶颈。
英伟达研究团队近日发布了一个全新的开源 AI 框架 ——Polar。该框架旨在帮助现有的智能体框架(如 Codex、Claude Code、Qwen Code)接入一种名为广义相对策略优化(GRPO)的训练方法,而不影响其原有的工具调用、上下文组织和补丁提交方式。这一创新将大大提升代码智能体的表现。

GRPO 是一种强化学习优化方法,其核心在于利用奖励信号对模型策略进行动态调整,从而在多步骤决策任务中引导模型习得更优的行为模式。在本次研究中,GRPO 被专门应用于代码智能体的训练过程,目标是使模型能够在真实的工具调用与代码补丁提交场景中,持续优化其执行表现。
研究表明,智能体的强化学习正在逐步从单步任务转向更复杂的长流程任务,例如代码仓库的、浏览器操作以及操作系统的交互。这类任务往往依赖于现有的执行框架,涉及多轮调用、工具使用以及上下文管理等,因此直接将这些框架改写为传统的强化学习环境接口非常困难,可能导致关键训练信号的丢失。
英伟达提出的 Polar 框架采取了一种巧妙的策略,它并非从头重建智能体架构,而是将智能体置于模型 API 的关键接口处,在保留原有执行逻辑的前提下实现增强。该框架在执行环境与推理服务器之间嵌入了模型智能体,能够适配多种请求模式,同时捕获关键运行数据,并将其转换为可用于后续训练的有效信息。
从系统架构来看,Polar 包括了任务提交、会话调度和状态持久化等功能,通过优化初始化、运行和后处理的流程,显著提升了训练效率。根据实验结果,使用 Polar 与 GRPO 训练的智能体在 SWE-Bench Verified 测试中的性能大幅提升,Codex 的 pass@1 分数从 3.8% 提升至 26.4%,增长幅度达 594.74%。
除此之外,该框架在提升效率方面也成果显著,不仅将整体训练时间压缩至原先的约五分之一,还大幅提高了 GPU 的平均使用效率,为未来大规模、高效率的智能体训练奠定了坚实基础。
划重点:
🛠️ 英伟达发布了开源 AI 框架 Polar,助力 Codex 等智能体框架接入新训练方法。
📈 在最新的基准测试中,Codex 的性能实现了飞跃式提升,其 pass@1 指标得分增长了接近 595%。
⚙️ Polar 优化训练效率,显著减少了训练时间与资源消耗。
📝 站长洞察 (Editor’s Insight)
Polar框架的发布标志着AI智能体训练范式的重要转折。它解决了一个被长期忽视的’最后一公里’问题——如何在保持现有复杂框架运行逻辑完整性的同时,注入强化学习能力。GRPO与Polar的组合实质上创造了一种’无侵入式’训练接口,这比彻底重写框架的思路更具工程可行性和产业推广价值。从趋势看,这预示着智能体开发正从’功能实现’阶段进入’性能精调’阶段。未来竞争焦点将转向如何利用更高效的训练方法从既有框架中榨取更多性能。对开发者而言,这意味着无需推翻现有技术栈即可获得数倍性能提升,大幅降低AI编程工具的进化门槛。英伟达此举不仅巩固了其在AI基础设施层的统治地位,更可能催生新一代’训练即服务’的商业模式。
