Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: PlanningBench – 腾讯混元等开源的大模型规划能力评测框架
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > PlanningBench – 腾讯混元等开源的大模型规划能力评测框架
AIGC 资讯

PlanningBench – 腾讯混元等开源的大模型规划能力评测框架

站外新闻
最近更新: 2026年6月7日 下午5:55
SHARE

PlanningBench是什么

PlanningBench 是腾讯混元团队联合中国人民大学高瓴人工智能学院等机构推出的开源框架,专注于大语言模型的规划能力评测与训练。框架从真实场景出发,构建一套覆盖六大类、30余种规划任务的可验证数据生成体系,通过约束驱动的闭环合成流程,让模型规划结果从看起来合理走向真的可执行。

阅读目录
  • PlanningBench是什么
  • PlanningBench的主要功能
  • PlanningBench的技术原理
  • 如何使用PlanningBench
  • PlanningBench的核心优势
  • PlanningBench的项目地址
  • PlanningBench的同类竞品对比
  • PlanningBench的应用场景

PlanningBench

PlanningBench的主要功能

  • 真实场景覆盖:涵盖日程排布、资源分配、人力排班、路径调度、生产运营、应急服务六大类共30余种具体规划任务。
  • 三层约束体系:将规划难度拆解为基础约束、中等约束和困难约束,实现任务难度的精细化控制。
  • 自动验证机制:每条实例配套可执行checklist,支持Avg-pass和All-pass双指标评测。
  • 闭环数据生成:通过Generator生成问题、Responder尝试解答、Critic验证答案的闭环流程,自动增强数据难度。
  • 训练信号输出:可验证样本可直接用于强化学习训练,为模型提供稳定的规划能力优化信号。

PlanningBench的技术原理

  • 真实场景抽象与约束体系构建:PlanningBench 将由具有规划经验的专业标注人员与算法研究人员协作,从个人通勤、企业排产、医疗应急等真实场景中抽象出可复用的问题结构,最终形成六大规划任务家族与 30 余种具体任务类型,将约束划分为基础约束(时间窗口、资源边界)、中等约束(多目标优化、依赖关系)和困难约束(异常恢复、目标冲突)三个层级,使数据生成在结构化设计空间中组合任务与约束。
  • 约束驱动的闭环合成流程:框架的核心是一个 Generator-Responder-Critic 三角色协作的闭环系统:Generator 根据采样的任务与约束组合生成自包含的规划问题及对应验证清单;Responder 模型尝试生成方案;Critic 依据 checklist 逐项检查答案是否满足全部要求,若通过则提高难度,否则保留为挑战性样本,使 PlanningBench 成为一个能主动寻找模型能力边界的动态数据生成系统。
  • 三层难度约束体系:PlanningBench 将规划难度拆解为任务结构、约束层级、资源紧张度、目标冲突、依赖关系和异常处理等因素,通过控制约束池的采样分布来调控生成数据的难度。基础约束确保方案完整性与可执行性,中等约束引入公平性与负载均衡要求,困难约束则测试模型在不可行识别、最小变更重规划和鲁棒性设计上的能力,使难度提升真正作用于规划推理深度。

如何使用PlanningBench

  • 获取资源:访问 GitHub 仓库克隆代码,或从 HuggingFace 下载数据集。
  • 运行评测:加载PlanningBench评测集,调用模型生成规划方案,使用内置checklist自动计算Avg-pass和All-pass指标。
  • 生成定制数据:配置任务类型与约束层级,运行闭环生成流程,按需产出特定难度和领域的规划训练数据。
  • 训练模型:用生成的可验证样本作为奖励信号,对目标模型进行强化学习训练,迁移到下游规划任务。

PlanningBench的核心优势

  • 可验证性:通过自动checklist精确判定方案是否全局可执行。
  • 难度可控:基于约束层级而非简单增加提示词长度来调控任务难度,更贴近真实规划复杂度。
  • 诊断精准:Avg-pass与All-pass双指标能识别”局部正确但整体不可执行”的模型输出。
  • 训练迁移:仅300条样本即可通过GRPO训练提升模型在外部规划基准和通用指令遵循任务上的表现。
  • 场景真实:任务来源于通勤、排产、医疗调度等实际场景,避免模型在固定题库上过拟合。

PlanningBench的项目地址

  • GitHub仓库:https://github.com/Tencent-Hunyuan/PlanningBench
  • HuggingFace模型库:https://huggingface.co/datasets/tencent/PlanningBench
  • arXiv技术论文:https://arxiv.org/pdf/2605.20873

PlanningBench的同类竞品对比

维度 PlanningBench AgentBench
核心定位 专注于大模型规划能力的评测与训练框架,强调从”看起来合理”到”真的可执行”。 综合性大模型智能体能力评测框架,覆盖推理、决策、工具使用、环境交互等多维度。
任务覆盖 覆盖6大类30余种真实规划任务,包括日程排布、资源分配、人力排班、路径调度、生产运营、应急服务。 覆盖8个交互环境,包括操作系统、数据库、知识图谱、数字卡牌、横向思维、家庭管理、网上购物、网页浏览。
验证机制 每条实例配套结构化checklist,自动逐项验证约束满足情况,精确判定方案是否全局可执行。 基于环境执行反馈与结果匹配判定任务成功,不同环境有独立的验证逻辑。
评测指标 采用Avg-pass(局部约束满足率)与All-pass(全局可执行率)双指标,识别”局部正确但整体不可执行”的输出。 主要采用Success Rate(成功率),按8个环境分别统计,衡量任务最终完成度。
难度控制 通过三层约束体系(基础/中等/困难)与闭环难度增强机制,主动调控约束耦合度和资源冲突强度。 通过多轮交互(5-50轮)和环境复杂度递进提升难度,更侧重交互深度而非约束密度。
环境交互 面向静态规划问题求解,模型在明确输入下生成完整方案,无需与外部环境实时交互。 要求模型与模拟环境(如bash终端、浏览器、数据库)进行实时多轮交互,动态获取反馈。
训练支持 原生支持训练,可验证数据可直接作为GRPO等强化学习的奖励信号,且能迁移到外部基准。 主要用于评测,框架本身不直接提供可扩展的训练数据生成能力。

PlanningBench的应用场景

  • 模型能力诊断:精准识别大模型在约束推理、资源分配、状态跟踪等规划核心能力上的短板。
  • 智能体训练:为AI Agent提供可验证的规划训练数据,提升其在日程安排、物流调度等任务中的可靠性。
  • 学术研究:作为规划能力研究的基准工具,支持可复现、可扩展的模型对比实验。
  • 企业排程优化:基于框架生成特定业务场景(如护士排班、生产排产)的评测数据,评估模型落地可行性。
  • 教育分组与资源分配:用学生分组、物资分发等任务类型,验证模型在多约束条件下的公平性与最优性。
Yuxi-Know – 基于大模型 RAG 知识库的 AI 知识图谱问答平台
高通与字节跳动达成重磅AI芯片协议:数百万颗定制ASIC驱动智能体基础设施,合规下布局2026算力竞赛
OpenAI发布GPT-5.1:自适应推理引擎,让AI思考更像人类
MiniCPM-o 2.6 – 面壁智能开源的多模态大模型,性能媲美GPT-4o
月之暗面Kimi-k2 Thinking深度解析:SOTA级推理、自主Agent与100T/s极速版,重新定义AI复杂任务处理
分享
Email 复制链接 打印
Share
上一篇 全息流体渐变通用占位特色图 中国将首发公有云大模型 Token 性能榜,日均调用量已突破 140 万亿次
下一篇 Magenta RealTime 2 – 谷歌Magenta开源的实时音乐生成模型
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

PreenCut开源AI视频剪辑工具:基于WhisperX与大模型,实现自然语言秒搜定位,高效视频剪辑新革命
AI 工具 AIGC 资讯
阿里达摩院「灵枢」大模型:12种医学影像秒级分析,性能碾压GPT-4.1,开源引爆医疗AI新浪潮
AI 工具 AIGC 资讯
Ring-lite:仅2.75B激活参数,蚂蚁技术开源轻量级推理模型刷新SOTA
AI 工具 AIGC 资讯
港科大、美团联手发布PosterCraft:告别模板,用AI生成高美学海报的统一框架
AI 工具 AIGC 资讯

相关推荐

AI 工具AIGC 资讯

字节跳动开源Coze Loop:一站式AI Agent开发调试平台,全面优化Prompt工程与模型监控

站外新闻
AI Agent Prompt工程 字节跳动 开源平台 模型监控
AI 工具AIGC 资讯

阿里开源Qwen-Image-Layered:AI图像编辑新范式,一键将图片拆分为独立透明图层

站外新闻
AIGC AI图像编辑 Qwen-Image-Layered 图像分层 阿里通义
AIGC 资讯

WebWalker – 阿里推出用于评估LLMs在网页浏览任务中性能的基准工具

站外新闻
AIGC 资讯

CogView4 – 智谱开源的AI文生图模型,支持生成汉字

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI绘画 AI编程 AI编程助手 AI编程工具 AI编程模型 AI视频生成 AI音乐生成 Anthropic chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax MoE架构 MoE模型 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 清华大学 知识管理 科大讯飞 端侧AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.