英伟达研究团队近日发布了一个全新的开源 AI 框架 ——Polar。该框架旨在帮助现有的智能体框架(如 Codex、Claude Code、Qwen Code)接入一种名为广义相对策略优化(GRPO)的训练方法,而不影响其原有的工具调用、上下文组织和补丁提交方式。这一创新将大大提升代码智能体的表现。

image.png

GRPO 是一种强化学习优化方法,其核心在于利用奖励信号对模型策略进行动态调整,从而在多步骤决策任务中引导模型习得更优的行为模式。在本次研究中,GRPO 被专门应用于代码智能体的训练过程,目标是使模型能够在真实的工具调用与代码补丁提交场景中,持续优化其执行表现。

研究表明,智能体的强化学习正在逐步从单步任务转向更复杂的长流程任务,例如代码仓库的、浏览器操作以及操作系统的交互。这类任务往往依赖于现有的执行框架,涉及多轮调用、工具使用以及上下文管理等,因此直接将这些框架改写为传统的强化学习环境接口非常困难,可能导致关键训练信号的丢失。

英伟达提出的 Polar 框架采取了一种巧妙的策略,它并非从头重建智能体架构,而是将智能体置于模型 API 的关键接口处,在保留原有执行逻辑的前提下实现增强。该框架在执行环境与推理服务器之间嵌入了模型智能体,能够适配多种请求模式,同时捕获关键运行数据,并将其转换为可用于后续训练的有效信息。

从系统架构来看,Polar 包括了任务提交、会话调度和状态持久化等功能,通过优化初始化、运行和后处理的流程,显著提升了训练效率。根据实验结果,使用 Polar 与 GRPO 训练的智能体在 SWE-Bench Verified 测试中的性能大幅提升,Codex 的 pass@1 分数从 3.8% 提升至 26.4%,增长幅度达 594.74%。

除此之外,该框架在提升效率方面也成果显著,不仅将整体训练时间压缩至原先的约五分之一,还大幅提高了 GPU 的平均使用效率,为未来大规模、高效率的智能体训练奠定了坚实基础。

划重点:  

🛠️ 英伟达发布了开源 AI 框架 Polar,助力 Codex 等智能体框架接入新训练方法。  

📈 在最新的基准测试中,Codex 的性能实现了飞跃式提升,其 pass@1 指标得分增长了接近 595%。

⚙️ Polar 优化训练效率,显著减少了训练时间与资源消耗。