💡 站外导读:当前AI智能体在桌面自动化领域面临数据获取成本高、泛化能力弱的核心痛点。传统方法需要海量高质量标注数据,但人工收集成本高昂且效率低下。上海交通大学联合SII推出的PC Agent-E框架,仅用312条人类标注轨迹,通过创新的数据增强技术实现241%的性能提升,在WindowsAgentArena-V2基准测试中超越Claude 3.7 Sonnet,为开源电脑智能体树立新标杆。
PC Agent-E是什么
PC Agent-E是上海交通大学和SII联合推出的高效智能体训练框架。框架用312条人类标注的计算机使用轨迹,基于Claude 3.7 Sonnet模型合成多样化的行动决策,显著提升数据质量。框架包含轨迹收集、思维链补全、轨迹增强和代理训练四个关键部分。PC Agent-E在WindowsAgentArena-V2基准测试中取得241%的性能提升,超越Claude 3.7 Sonnet的extended thinking模式,成为Windows系统上开源电脑智能体的新一代SOTA。
阅读目录

PC Agent-E的主要功能
- 高效训练:仅需312条人类标注轨迹,基于数据增强显著提升模型性能。
- 跨平台泛化:在OSWorld基准测试中,展示强大的跨平台能力,适用于不同操作系统。
- 任务执行:支持完成多种复杂任务,如文件操作、软件使用、网页浏览等。
- 数据增强:基于合成多样化行动决策,丰富轨迹数据,提升模型泛化能力。
PC Agent-E的技术原理
- 轨迹收集(Trajectory Collection):基于PC Tracker工具记录人类操作轨迹,包括任务描述、屏幕截图和键盘/鼠标操作。用简单的标注过程,收集少量高质量的人类操作轨迹。
- 思维链补全(Thought Completion):基于Claude 3.7 Sonnet模型为每个动作步骤添加背后的思考逻辑。基于提供任务描述、历史动作和当前状态,生成符合人类思维的推理过程。
- 轨迹增强(Trajectory Boost):为轨迹的每一步合成更多的动作决策,捕捉任务的多样性。用Claude 3.7 Sonnet模型,为每一步生成多个合理的动作决策,丰富轨迹数据。
- 代理训练(Agent Training):在开源模型Qwen2.5-VL-72B的基础上进行训练。用简单的端到端训练框架,确保模型能够高效学习并执行任务。
- 评估与验证:在WindowsAgentArena-V2和OSWorld基准测试中验证模型性能。调整合成动作数量,验证轨迹增强方法对性能提升的关键作用。
PC Agent-E的项目地址
- 项目官网:https://gair-nlp.github.io/PC-Agent-E/
- GitHub仓库:https://github.com/GAIR-NLP/PC-Agent-E
- HuggingFace模型库:https://huggingface.co/henryhe0123/PC-Agent-E
- arXiv技术论文:https://arxiv.org/pdf/2505.13909
PC Agent-E的应用场景
- 自动化办公:自动完成文档编辑、数据分析等任务,提高办公效率。
- 软件测试:模拟用户操作,发现软件中的错误和问题,提升软件质量。
- 教育辅助:作为虚拟助教,帮助学生完成计算机操作任务,提供即时指导。
- 辅助残障人士:提供辅助操作功能,方便残障人士使用计算机。
- 跨平台兼容:在不同操作系统之间迁移和执行任务,实现无缝切换。
📝 站长洞察 (Editor’s Insight)
PC Agent-E的发布标志着AI Agent训练范式的重要转变:从’数据规模驱动’转向’数据质量与多样性驱动’。在当前大模型参数竞赛逐渐饱和的背景下,这一框架展示了通过智能数据增强实现小样本高效训练的可行性,这与行业追求’更少数据、更强性能’的趋势高度契合。框架中的思维链补全与轨迹增强技术,本质上是在构建一个’合成数据引擎’,让AI能够自我学习并扩展操作策略。这种技术路径对推动AI Agent在办公自动化、软件测试等真实场景的落地具有重要意义,也为中小企业和研究机构降低了开发门槛。未来,结合多模态理解与跨平台泛化能力,PC Agent-E有望成为下一代桌面AI Agent的重要基础设施。
