Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: PawBench – 阿里通义推出的通用智能体评测基准
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > PawBench – 阿里通义推出的通用智能体评测基准
AIGC 资讯

PawBench – 阿里通义推出的通用智能体评测基准

站外新闻
最近更新: 2026年6月7日 下午6:00
SHARE

PawBench是什么

PawBench 是通义实验室推出的通用智能体评测基准,面向个人助理与 Agent 场景,将底座模型与运行框架(Harness)纳入同一评测体系。PawBench v1.0 构建了 150 道真实任务、4050 个测试单元的评测集,通过 9 个模型 × 3 个 Harness 的交叉评测,能评估模型+Harness的最佳组合,帮 Harness 开发者精准定位问题并验证优化。

阅读目录
  • PawBench是什么
  • PawBench的主要功能
  • PawBench的技术原理
  • 如何使用PawBench
  • PawBench的核心优势
  • PawBench的项目地址
  • PawBench的同类竞品对比
  • PawBench的应用场景

PawBench

PawBench的主要功能

  • 联合评测:将底座模型与运行框架(Harness)纳入同一评测体系,评估 LLM × Harness 的联合效果。
  • 真实任务集:构建 150 道真实任务、4050 个测试单元,从 6 个高质量 Agent 评测集抽取并聚合。
  • 五维标签体系:每道题按应用场景、原子能力、复杂度(L1-L3)、输入模态、运行环境进行结构化标注。
  • 混合评分机制:结合自动评分器(规则断言)与 LLM-as-judge(语义质量评估),分数范围 0 到 1。
  • 多切片榜单:支持 Overall(150 题)、Text(124 题)、Multimodal(26 题)三个维度自由切换查看。
  • 全量轨迹保留:所有任务在 Docker 沙箱中运行,执行轨迹、grader 产物和环境快照完整保存。
  • 深度诊断分析:支持按模型规模、模态、任务类型、技能领域等维度切片,定位 Harness 具体行为缺陷。

PawBench的技术原理

  • 交叉评测矩阵:构建 9 个模型 × 3 个 Harness × 150 道任务的三维评测空间,通过控制变量法隔离模型能力与框架能力的贡献。
  • 五维标签体系:从应用场景、原子能力、复杂度、输入模态、运行环境五个维度对任务进行结构化标注,支持多维度切片下钻分析。
  • 混合评分机制:结合确定性规则断言(文件存在性、字段匹配、exit code)与 LLM-as-judge 语义评估,平衡客观性与灵活性。
  • Docker 沙箱隔离:每个测试单元在独立容器中运行,捕获执行轨迹、workspace 产物及环境快照,确保结果可复现与问题可追溯。
  • 产物级硬校验:通过检查文件是否落盘、diff 是否生成、测试是否通过等实质性指标,避免模型”虚假完工”。

如何使用PawBench

  • 克隆源码:访问 GitHub 仓库 agentscope-ai/PawBench 克隆评测框架。
  • 配置环境:写入待测模型的 API 密钥,并配置 Harness 运行环境。
  • 选择任务:从 150 道任务中选择特定切片(Text/Multimodal)或全量任务启动。
  • 运行评测:在 Docker 沙箱中执行任务,系统自动保留执行轨迹与产物。
  • 获取评分:通过自动评分器与 LLM-as-judge 计算混合权重最终分数。
  • 提交榜单:访问 agentscope-ai.github.io/PawBench 提交结果并查看排名。

PawBench的核心优势

  • 诊断 Harness :通过 4050 个测试单元的切片分析,精准定位框架在 Skill 加载、路径感知、工具配置等方面的行为缺陷。
  • 真实复现性:基于 Docker 沙箱运行,执行轨迹与环境快照完整保留,失败案例可逐层回溯复盘。
  • 零门槛开箱评测:还原开发者首次 clone 后的默认体验,不追求”配齐所有 API Key 的理论上限”。
  • 持续回归验证:Harness 每次修复后可重新切片跑分,验证优化是否真实对应到问题维度。
  • Harness 分差量化:首次证明 Harness 差距(最高 6.4 分)堪比一次重大模型版本升级,为小模型反超提供路径。

PawBench的项目地址

  • 项目官网:https://agentscope-ai.github.io/PawBench/
  • GitHub仓库:https://github.com/agentscope-ai/PawBench

PawBench的同类竞品对比

对比维度 PawBench SWE-bench AgentBench
核心定位 评测”模型 + Harness”联合效果 评测模型解决真实代码问题的能力 评测模型作为 Agent 在多环境中的通用能力
Harness/框架评估 ✅ 核心能力,明确隔离框架贡献 ❌ 否,仅评估模型本身 ❌ 否,仅评估模型本身
任务来源 6 个 Agent 评测集聚合(150 道) 真实 GitHub Issue/PR(2000+) 多环境模拟任务(1000+)
典型任务 办公协同、软件工程、自动化脚本、Web 搜索、Skill 调用 代码 Bug 修复、功能实现、测试通过 OS 操作、数据库查询、网页浏览、卡牌游戏、家务决策
评分机制 自动规则断言 + LLM-as-judge 混合 单元测试通过/失败(二元) 环境规则评分(准确率/成功率)
环境隔离 Docker 沙箱 + 工作区产物校验 代码沙箱 + Git 仓库快照 多环境容器(OS/DB/Web 等)
任务标签体系 五维标签(场景/能力/复杂度/模态/环境) 按编程语言/仓库切片 按环境类型切片
榜单维度 Overall / Text / Multimodal 三切片 按 Verified/Multimodal/Full 分榜 按环境(OS/DB/KG/DCG 等)分榜
失败诊断能力 保留执行轨迹、产物快照、环境状态,支持逐层回溯 保留代码补丁与测试日志 保留环境交互日志
零配置评测 还原首次 clone 后的默认体验 需配置代码仓库环境 需配置各环境容器
最佳适用 Harness 开发者优化、模型+框架选型 代码模型能力评估、编程助手研发 通用 Agent 能力评估、多模态决策研究

PawBench的应用场景

  • Harness 开发者优化:通过切片分析定位框架在 Skill 加载、路径感知、Web 工具默认可用性等方面的具体缺陷。
  • 模型选型参考:帮助用户根据纯文本 / 多模态 / Skill / Web 搜索等任务类型选择最佳模型 + Harness 组合。
  • 基准回归测试:Harness 迭代修复后重新跑分,验证优化是否真实解决对应切片问题。
  • 学术研究:为通用智能体研究提供可复现的交叉评测基准,推动模型与框架协同进化。
Sub2API 开源 AI API 中转网关:多账户管理+精准计费,高效实现 AI 订阅拼车共享
大模型推理能力现原形?美团LongCat团队开源General365基准,实测26款模型仅一款勉强及格
字节港中文等重磅开源OmniShow:12.3B参数统一框架,首个支持RAP2V的端到端人-物交互视频生成模型
渣打银行裁员8000人:AI替代低价值人力,银行业‘冰冷转型’下的人类岗位危机
阿里云百炼CLI全面开源:一行命令编排AI Agent全栈能力,引爆开发者生态
分享
Email 复制链接 打印
Share
上一篇 MAI-Voice-2 – 微软推出的新一代文本转语音模型
下一篇 BrowserAct Skills – 开源的 AI Agent 浏览器自动化 CLI 工具
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

Gemma 4 12B – 谷歌开源的多模态大模型
AIGC 资讯
Science Skills – 谷歌 DeepMind 开源的科研技能工具包
AIGC 资讯
Odysseus – 开源的本地自托管 AI 工作空间
AIGC 资讯
Toonflow – 开源的一站式 AI 短剧创作工具
AIGC 资讯

相关推荐

AI 工具AIGC 资讯

Meta AI 聊天机器人订阅服务正式上线:月费低至7.99美元,高级版仅19.99美元,引领AI消费商业化浪潮

站外新闻
AIGC AI聊天机器人 Meta AI 人工智能商业化 订阅制
AI 工具AIGC 资讯

MindDR 1.5:30B小模型如何以低训练成本超越巨头?深度研究智能体架构全解析

站外新闻
AI Agent 大模型 强化学习 深度研究 理想汽车
量子芯片科技感占位特色图
AI 工具AIGC 资讯

免费开源!Maia 3 AI国际象棋引擎发布:Elo 1800,像人类一样下棋

站外新闻
AI国际象棋 AI陪练 LLaMA架构 Maia 3 开源模型
量子芯片科技感占位特色图
AI 工具AIGC 资讯

Asana 7500万美元收购无代码AI智能体公司StackAI:重塑「人机团队操作系统」

站外新闻
AI Agent Asana StackAI 协同办公 无代码AI
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AGI AI AI Agent AIGC AI商业化 AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI生成内容 AI监管 AI绘画 AI编程 AI编程工具 AI编程智能体 AI芯片 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenRouter Pika prompt SpaceX stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多模态 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源大模型 开源工具 开源框架 开源模型 强化学习 微软 支付宝 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.