DeepSWE开源Agent框架发布：基于Qwen3-32B与强化学习，SWE-Bench准确率59%领跑行业

💡 站外导读：软件工程领域正面临AI Agent的深刻变革，开发者亟需高效、可靠的自动化工具来应对日益复杂的代码任务。DeepSWE应运而生，作为Together.ai与Agentica联合推出的开源AI Agent框架，它基于强大的Qwen3-32B模型并采用纯强化学习训练，无需依赖专有模型蒸馏。在权威的SWE-Bench-Verified测试中，其准确率高达59%，一举登顶开源Agent榜首，为解决代码理解、编辑、测试与多步骤推理等核心痛点提供了全新范式。

DeepSWE是什么

DeepSWE是Together.ai联合Agentica开源的AI Agent框架，基于Qwen3-32B模型，用强化学习训练而成。DeepSWE在SWE-Bench-Verified基准测试中表现出色，测试时扩展（TTS）后，准确率高达59.0%，不使用TTS时Pass@1准确率达42.2%，位列开源Agent框架榜首。模型训练数据、代码、训练和评估日志等全部开源，助力开发者学习和改进Agent，推动强化学习在软件工程领域的应用与发展。

阅读目录

DeepSWE是什么
DeepSWE的主要功能
DeepSWE的技术原理
DeepSWE的项目地址
DeepSWE的应用场景

📝 站长洞察 (Editor’s Insight)

DeepSWE-Preview

DeepSWE的主要功能

代码理解和编辑：理解和修改现有代码，解决特定的软件问题或实现新的功能。
问题解决：基于与环境的交互，解决复杂的软件工程问题，如修复GitHub上的问题、实现新代码功能和调试等。
自动化测试和验证：运行shell命令进行代码构建和测试，验证解决方案的有效性，确保修改后的代码不会破坏现有功能。
多步骤推理：在解决任务时，进行多步骤的推理和决策，逐步优化解决方案，直至最终完成任务。

DeepSWE的技术原理

强化学习训练：完全用强化学习（RL）从零开始训练，不依赖于更强的专有教师模型的蒸馏或监督微调（SFT）。基于与环境的交互，学习如何在复杂的软件工程任务中做出最优决策。
rLLM框架：基于rLLM框架进行训练，一个用在语言智能体后期训练的系统，提供高效的数据管理和训练流程，支持大规模的强化学习训练。
稀疏结果奖励模型：基于稀疏结果奖励机制，只有当模型生成的代码补丁通过所有测试时才给予正奖励，否则奖励为零，促使模型学习生成高质量的解决方案。
测试时扩展（TTS）：在测试阶段，生成多个轨迹并选择其中正确解决问题的轨迹，显著提高模型的准确率。结合基于执行的验证器和无执行的验证器的优势，实现性能的大幅提升。
Kubernetes支持：为应对训练过程中的扩展挑战，将Kubernetes支持集成到训练环境中，实现容器的弹性调度和自动缩放，确保训练过程的高效性和稳定性。

DeepSWE的项目地址

HuggingFace模型库：https://huggingface.co/agentica-org/DeepSWE-Preview

DeepSWE的应用场景

代码理解和编辑：DeepSWE能自动理解和修改代码，快速定位修复漏洞、优化性能瓶颈及重构代码结构，显著提升代码的整体质量。
软件问题解决：高效处理GitHub上的问题、实现新功能及将复杂任务分解为可管理的子任务，进而快速解决软件工程领域中的各种难题。
自动化测试和验证：DeepSWE能自动生成测试用例，执行代码构建和自动化测试，进行回归测试，确保软件的稳定性和可靠性，减少人工测试的工作量。
多步骤推理和解决方案优化：基于多步骤推理解决复杂问题，不断迭代优化解决方案，在解决不同问题的过程中积累知识和经验，更好地应对未来的挑战。
开发辅助和协作：DeepSWE为开发人员提供实时代码建议和补全提示，辅助项目管理和任务分配，促进团队成员之间的协作和交流，提高整个开发团队的效率。

📝 站长洞察 (Editor’s Insight)

DeepSWE的发布标志着AI Agent在软件工程领域的实用化迈出了关键一步。其核心价值在于“纯强化学习”训练范式——摒弃了传统对强模型的依赖，通过与环境交互直接优化决策，这更接近人类解决复杂问题的逻辑。高达59%的准确率不仅是数字突破，更预示着Agent正从“辅助工具”向“自主协作者”演进。结合测试时扩展（TTS）等前沿技术，DeepSWE展现了“推理时计算”的巨大潜力。其全开源策略将极大加速社区创新，推动Agent技术从实验室走向真实开发场景。未来，这类框架或将重塑软件开发流程，催生“AI原生”的工程团队新形态。

DeepSWE开源Agent框架发布：基于Qwen3-32B与强化学习，SWE-Bench准确率59%领跑行业

DeepSWE是什么

DeepSWE的主要功能

DeepSWE的技术原理

DeepSWE的项目地址

DeepSWE的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价取消回复

最近更新

MotionCLR – AI动作编辑模型，根据文本提示生成相应的动作序列

DocMind – 司马阅推出的文档智能大模型

DistilQwen2 – 阿里推出基于Qwen2优化的轻量级语言模型

Hunyuan3D-1.0 – 腾讯推出的3D生成模型，支持文生3D和图生3D

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

DeepSWE是什么

DeepSWE的主要功能

DeepSWE的技术原理

DeepSWE的项目地址

DeepSWE的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复