PawBench – 阿里通义推出的通用智能体评测基准

最近更新: 2026年6月7日下午6:00

PawBench是什么

PawBench 是通义实验室推出的通用智能体评测基准，面向个人助理与 Agent 场景，将底座模型与运行框架（Harness）纳入同一评测体系。PawBench v1.0 构建了 150 道真实任务、4050 个测试单元的评测集，通过 9 个模型 × 3 个 Harness 的交叉评测，能评估模型+Harness的最佳组合，帮 Harness 开发者精准定位问题并验证优化。

阅读目录

PawBench是什么
PawBench的主要功能
PawBench的技术原理
如何使用PawBench
PawBench的核心优势
PawBench的项目地址
PawBench的同类竞品对比
PawBench的应用场景

PawBench

PawBench的主要功能

联合评测：将底座模型与运行框架（Harness）纳入同一评测体系，评估 LLM × Harness 的联合效果。
真实任务集：构建 150 道真实任务、4050 个测试单元，从 6 个高质量 Agent 评测集抽取并聚合。
五维标签体系：每道题按应用场景、原子能力、复杂度（L1-L3）、输入模态、运行环境进行结构化标注。
混合评分机制：结合自动评分器（规则断言）与 LLM-as-judge（语义质量评估），分数范围 0 到 1。
多切片榜单：支持 Overall（150 题）、Text（124 题）、Multimodal（26 题）三个维度自由切换查看。
全量轨迹保留：所有任务在 Docker 沙箱中运行，执行轨迹、grader 产物和环境快照完整保存。
深度诊断分析：支持按模型规模、模态、任务类型、技能领域等维度切片，定位 Harness 具体行为缺陷。

PawBench的技术原理

交叉评测矩阵：构建 9 个模型 × 3 个 Harness × 150 道任务的三维评测空间，通过控制变量法隔离模型能力与框架能力的贡献。
五维标签体系：从应用场景、原子能力、复杂度、输入模态、运行环境五个维度对任务进行结构化标注，支持多维度切片下钻分析。
混合评分机制：结合确定性规则断言（文件存在性、字段匹配、exit code）与 LLM-as-judge 语义评估，平衡客观性与灵活性。
Docker 沙箱隔离：每个测试单元在独立容器中运行，捕获执行轨迹、workspace 产物及环境快照，确保结果可复现与问题可追溯。
产物级硬校验：通过检查文件是否落盘、diff 是否生成、测试是否通过等实质性指标，避免模型”虚假完工”。

如何使用PawBench

克隆源码：访问 GitHub 仓库 agentscope-ai/PawBench 克隆评测框架。
配置环境：写入待测模型的 API 密钥，并配置 Harness 运行环境。
选择任务：从 150 道任务中选择特定切片（Text/Multimodal）或全量任务启动。
运行评测：在 Docker 沙箱中执行任务，系统自动保留执行轨迹与产物。
获取评分：通过自动评分器与 LLM-as-judge 计算混合权重最终分数。
提交榜单：访问 agentscope-ai.github.io/PawBench 提交结果并查看排名。

PawBench的核心优势

诊断 Harness ：通过 4050 个测试单元的切片分析，精准定位框架在 Skill 加载、路径感知、工具配置等方面的行为缺陷。
真实复现性：基于 Docker 沙箱运行，执行轨迹与环境快照完整保留，失败案例可逐层回溯复盘。
零门槛开箱评测：还原开发者首次 clone 后的默认体验，不追求”配齐所有 API Key 的理论上限”。
持续回归验证：Harness 每次修复后可重新切片跑分，验证优化是否真实对应到问题维度。
Harness 分差量化：首次证明 Harness 差距（最高 6.4 分）堪比一次重大模型版本升级，为小模型反超提供路径。

PawBench的项目地址

项目官网：https://agentscope-ai.github.io/PawBench/
GitHub仓库：https://github.com/agentscope-ai/PawBench

PawBench的同类竞品对比

对比维度	PawBench	SWE-bench	AgentBench
核心定位	评测”模型 + Harness”联合效果	评测模型解决真实代码问题的能力	评测模型作为 Agent 在多环境中的通用能力
Harness/框架评估	✅ 核心能力，明确隔离框架贡献	❌ 否，仅评估模型本身	❌ 否，仅评估模型本身
任务来源	6 个 Agent 评测集聚合（150 道）	真实 GitHub Issue/PR（2000+）	多环境模拟任务（1000+）
典型任务	办公协同、软件工程、自动化脚本、Web 搜索、Skill 调用	代码 Bug 修复、功能实现、测试通过	OS 操作、数据库查询、网页浏览、卡牌游戏、家务决策
评分机制	自动规则断言 + LLM-as-judge 混合	单元测试通过/失败（二元）	环境规则评分（准确率/成功率）
环境隔离	Docker 沙箱 + 工作区产物校验	代码沙箱 + Git 仓库快照	多环境容器（OS/DB/Web 等）
任务标签体系	五维标签（场景/能力/复杂度/模态/环境）	按编程语言/仓库切片	按环境类型切片
榜单维度	Overall / Text / Multimodal 三切片	按 Verified/Multimodal/Full 分榜	按环境（OS/DB/KG/DCG 等）分榜
失败诊断能力	保留执行轨迹、产物快照、环境状态，支持逐层回溯	保留代码补丁与测试日志	保留环境交互日志
零配置评测	还原首次 clone 后的默认体验	需配置代码仓库环境	需配置各环境容器
最佳适用	Harness 开发者优化、模型+框架选型	代码模型能力评估、编程助手研发	通用 Agent 能力评估、多模态决策研究

PawBench的应用场景

Harness 开发者优化：通过切片分析定位框架在 Skill 加载、路径感知、Web 工具默认可用性等方面的具体缺陷。
模型选型参考：帮助用户根据纯文本 / 多模态 / Skill / Web 搜索等任务类型选择最佳模型 + Harness 组合。
基准回归测试：Harness 迭代修复后重新跑分，验证优化是否真实解决对应切片问题。
学术研究：为通用智能体研究提供可复现的交叉评测基准，推动模型与框架协同进化。

分享

MAI-Voice-2 – 微软推出的新一代文本转语音模型

BrowserAct Skills – 开源的 AI Agent 浏览器自动化 CLI 工具

发表评价

发表评价取消回复