Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: PlanningBench – 腾讯混元等开源的大模型规划能力评测框架
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > PlanningBench – 腾讯混元等开源的大模型规划能力评测框架
AIGC 资讯

PlanningBench – 腾讯混元等开源的大模型规划能力评测框架

站外新闻
最近更新: 2026年6月7日 下午5:55
SHARE

PlanningBench是什么

PlanningBench 是腾讯混元团队联合中国人民大学高瓴人工智能学院等机构推出的开源框架,专注于大语言模型的规划能力评测与训练。框架从真实场景出发,构建一套覆盖六大类、30余种规划任务的可验证数据生成体系,通过约束驱动的闭环合成流程,让模型规划结果从看起来合理走向真的可执行。

阅读目录
  • PlanningBench是什么
  • PlanningBench的主要功能
  • PlanningBench的技术原理
  • 如何使用PlanningBench
  • PlanningBench的核心优势
  • PlanningBench的项目地址
  • PlanningBench的同类竞品对比
  • PlanningBench的应用场景

PlanningBench

PlanningBench的主要功能

  • 真实场景覆盖:涵盖日程排布、资源分配、人力排班、路径调度、生产运营、应急服务六大类共30余种具体规划任务。
  • 三层约束体系:将规划难度拆解为基础约束、中等约束和困难约束,实现任务难度的精细化控制。
  • 自动验证机制:每条实例配套可执行checklist,支持Avg-pass和All-pass双指标评测。
  • 闭环数据生成:通过Generator生成问题、Responder尝试解答、Critic验证答案的闭环流程,自动增强数据难度。
  • 训练信号输出:可验证样本可直接用于强化学习训练,为模型提供稳定的规划能力优化信号。

PlanningBench的技术原理

  • 真实场景抽象与约束体系构建:PlanningBench 将由具有规划经验的专业标注人员与算法研究人员协作,从个人通勤、企业排产、医疗应急等真实场景中抽象出可复用的问题结构,最终形成六大规划任务家族与 30 余种具体任务类型,将约束划分为基础约束(时间窗口、资源边界)、中等约束(多目标优化、依赖关系)和困难约束(异常恢复、目标冲突)三个层级,使数据生成在结构化设计空间中组合任务与约束。
  • 约束驱动的闭环合成流程:框架的核心是一个 Generator-Responder-Critic 三角色协作的闭环系统:Generator 根据采样的任务与约束组合生成自包含的规划问题及对应验证清单;Responder 模型尝试生成方案;Critic 依据 checklist 逐项检查答案是否满足全部要求,若通过则提高难度,否则保留为挑战性样本,使 PlanningBench 成为一个能主动寻找模型能力边界的动态数据生成系统。
  • 三层难度约束体系:PlanningBench 将规划难度拆解为任务结构、约束层级、资源紧张度、目标冲突、依赖关系和异常处理等因素,通过控制约束池的采样分布来调控生成数据的难度。基础约束确保方案完整性与可执行性,中等约束引入公平性与负载均衡要求,困难约束则测试模型在不可行识别、最小变更重规划和鲁棒性设计上的能力,使难度提升真正作用于规划推理深度。

如何使用PlanningBench

  • 获取资源:访问 GitHub 仓库克隆代码,或从 HuggingFace 下载数据集。
  • 运行评测:加载PlanningBench评测集,调用模型生成规划方案,使用内置checklist自动计算Avg-pass和All-pass指标。
  • 生成定制数据:配置任务类型与约束层级,运行闭环生成流程,按需产出特定难度和领域的规划训练数据。
  • 训练模型:用生成的可验证样本作为奖励信号,对目标模型进行强化学习训练,迁移到下游规划任务。

PlanningBench的核心优势

  • 可验证性:通过自动checklist精确判定方案是否全局可执行。
  • 难度可控:基于约束层级而非简单增加提示词长度来调控任务难度,更贴近真实规划复杂度。
  • 诊断精准:Avg-pass与All-pass双指标能识别”局部正确但整体不可执行”的模型输出。
  • 训练迁移:仅300条样本即可通过GRPO训练提升模型在外部规划基准和通用指令遵循任务上的表现。
  • 场景真实:任务来源于通勤、排产、医疗调度等实际场景,避免模型在固定题库上过拟合。

PlanningBench的项目地址

  • GitHub仓库:https://github.com/Tencent-Hunyuan/PlanningBench
  • HuggingFace模型库:https://huggingface.co/datasets/tencent/PlanningBench
  • arXiv技术论文:https://arxiv.org/pdf/2605.20873

PlanningBench的同类竞品对比

维度 PlanningBench AgentBench
核心定位 专注于大模型规划能力的评测与训练框架,强调从”看起来合理”到”真的可执行”。 综合性大模型智能体能力评测框架,覆盖推理、决策、工具使用、环境交互等多维度。
任务覆盖 覆盖6大类30余种真实规划任务,包括日程排布、资源分配、人力排班、路径调度、生产运营、应急服务。 覆盖8个交互环境,包括操作系统、数据库、知识图谱、数字卡牌、横向思维、家庭管理、网上购物、网页浏览。
验证机制 每条实例配套结构化checklist,自动逐项验证约束满足情况,精确判定方案是否全局可执行。 基于环境执行反馈与结果匹配判定任务成功,不同环境有独立的验证逻辑。
评测指标 采用Avg-pass(局部约束满足率)与All-pass(全局可执行率)双指标,识别”局部正确但整体不可执行”的输出。 主要采用Success Rate(成功率),按8个环境分别统计,衡量任务最终完成度。
难度控制 通过三层约束体系(基础/中等/困难)与闭环难度增强机制,主动调控约束耦合度和资源冲突强度。 通过多轮交互(5-50轮)和环境复杂度递进提升难度,更侧重交互深度而非约束密度。
环境交互 面向静态规划问题求解,模型在明确输入下生成完整方案,无需与外部环境实时交互。 要求模型与模拟环境(如bash终端、浏览器、数据库)进行实时多轮交互,动态获取反馈。
训练支持 原生支持训练,可验证数据可直接作为GRPO等强化学习的奖励信号,且能迁移到外部基准。 主要用于评测,框架本身不直接提供可扩展的训练数据生成能力。

PlanningBench的应用场景

  • 模型能力诊断:精准识别大模型在约束推理、资源分配、状态跟踪等规划核心能力上的短板。
  • 智能体训练:为AI Agent提供可验证的规划训练数据,提升其在日程安排、物流调度等任务中的可靠性。
  • 学术研究:作为规划能力研究的基准工具,支持可复现、可扩展的模型对比实验。
  • 企业排程优化:基于框架生成特定业务场景(如护士排班、生产排产)的评测数据,评估模型落地可行性。
  • 教育分组与资源分配:用学生分组、物资分发等任务类型,验证模型在多约束条件下的公平性与最优性。
美团LongCat-Next重磅发布:1M超长上下文、10倍解码加速的多模态大模型,LoZA技术突破算力瓶颈
科大讯飞AI眼镜重磅发布:4299元内置龙虾助手GlassClaw,122种语言实时翻译重塑生产力
Spark 2.0 重磅开源!李飞飞团队 Web 端 3D 高斯溅射引擎,突破亿级 splats 实时渲染瓶颈
英伟达开源Lyra 2.0:单图生成可探索3D世界,打造具身智能新引擎
yoyo:200行Rust启动的自我进化AI编程智能体,47天零人类提交破4万行代码|开源MIT
分享
Email 复制链接 打印
Share
上一篇 全息流体渐变通用占位特色图 中国将首发公有云大模型 Token 性能榜,日均调用量已突破 140 万亿次
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

全息流体渐变通用占位特色图
中国将首发公有云大模型 Token 性能榜,日均调用量已突破 140 万亿次
AIGC 资讯
全息流体渐变通用占位特色图
腾讯会议多项AI功能升级,元宝纪要月使用时长增长近5倍
AIGC 资讯
Cloudflare CEO:机器人流量超越人类,网络未来或全面走向“付费抓取”
AIGC 资讯
拍照识别野生蘑菇遭“误判”?豆包紧急回应:AI识别仅供参考,切勿盲目食用
AIGC 资讯

相关推荐

AI 工具AIGC 资讯

商汤开源 SenseNova-Skills:20+ 模块化 AI 办公技能,一键驱动 Agent 完成 PPT/Excel/信息图全流程

站外新闻
AI Agent SenseNova 办公自动化 商汤 开源工具
量子芯片科技感占位特色图
AI 工具AIGC 资讯

OpenClaw 工程师紧急警告:AI 生成代码质量隐患与开发成本危机

站外新闻
AI生成代码 OpenClaw 初创公司 安全隐患 开发成本
AI 工具AIGC 资讯

支付宝AI支付破3亿笔:全球首个AI原生支付基建落地,Token Pay与AI钱包重塑智能体交易

站外新闻
AI原生 AI支付 Token Pay 支付宝
AIGC 资讯

​AI 音乐创作新趋势:杭州男子月入十几万,40 秒生成一首歌

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AGI AI AI Agent AIGC AI商业化 AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI生成内容 AI监管 AI绘画 AI编程 AI编程工具 AI编程智能体 AI芯片 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenRouter Pika prompt SpaceX stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多模态 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源大模型 开源工具 开源框架 开源模型 强化学习 微软 支付宝 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.