Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 腾讯CL-bench震撼发布:AI学习能力基准测试,GPT-5.1解决率仅23.7%暴露行业瓶颈
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 腾讯CL-bench震撼发布:AI学习能力基准测试,GPT-5.1解决率仅23.7%暴露行业瓶颈
AI 工具AIGC 资讯最新趋势

腾讯CL-bench震撼发布:AI学习能力基准测试,GPT-5.1解决率仅23.7%暴露行业瓶颈

站外新闻
最近更新: 2026年6月7日 下午8:06
AI基准测试 上下文学习 大语言模型 模型能力评估 腾讯混元
SHARE

💡 站外导读:当前大模型竞赛如火如荼,但一个关键瓶颈正浮出水面:它们真的会学习吗?多数模型依赖海量参数记忆,而非从动态信息中实时推理。腾讯与复旦大学联合发布的CL-bench基准测试,直击这一痛点。它构建了无污染的复杂场景,强制模型从全新上下文中学习,结果显示,即便是顶尖模型GPT-5.1,解决率也仅23.7%。这不仅是性能差距,更揭示了从‘记忆机器’向‘学习系统’演进的根本挑战。

CL-bench是什么

CL-bench是腾讯混元与复旦大学联合推出的Context学习能力评测基准,能衡量大语言模型从全新上下文信息中实时学习、应用知识的能力。CL-bench基准包含500个专家精心构建的复杂场景、1899个任务,涵盖领域知识推理、规则系统应用、程序性任务执行和经验发现与模拟四大类。测试显示,最强模型GPT-5.1解决率仅23.7%,揭示当前AI”不会现场学习”的核心瓶颈,为模型优化指明新方向。

阅读目录
  • CL-bench是什么
  • CL-bench的主要功能
  • CL-bench的技术原理
  • CL-bench的项目地址
  • CL-bench的应用场景
      • 📝 站长洞察 (Editor’s Insight)

CL-bench

CL-bench的主要功能

  • 实时学习能力评测:支持评测大语言模型从全新上下文信息中实时学习、应用知识的能力。
  • 大规模测试集构建:构建包含500个复杂场景、1899个任务和31607个验证标准的测试集,覆盖领域知识推理、规则系统应用、程序性任务执行和经验发现与模拟四类真实世界场景。
  • 无污染数据设计:采用无污染设计确保数据新颖性,通过虚构创作、现有内容修改和整合小众新兴内容,防止模型依靠记忆非学来解决问题。
  • 序列依赖验证:验证模型在序列依赖任务中的多轮次推理能力,51.1%的任务需要基于前期交互结果进行后续推理。
  • 多维度评估体系:提供多维度评估体系,平均每个任务包含16.6个评估标准,从多个角度全面检验模型对Context的理解和应用准确性。

CL-bench的技术原理

  • 自包含Context环境:CL-bench的核心技术原理为构建完全自包含的Context环境,确保解决任务所需的全部信息都显式地提供在Context本身之中,不需要外部检索,不支持隐藏假设。强制模型必须从当前输入的新信息中汲取营养,非调用预训练阶段封存的内部知识,真实反映模型的Context学习能力非记忆能力。
  • 三重无污染策略:为实现无污染评估,CL-bench采用三重技术策略:专家创作完全虚构的内容,如为虚构国家设计完整的法律体系或创建具有独特语法的新编程语言;对现实世界内容进行系统性修改以创建变体,包括更改历史事件、改变科学定义或修改技术文档;纳入在预训练数据集中代表性极低的小众或近期新兴内容,如前沿研究发现和新发布的产品手册。
  • 复杂性与可验证性设计:在任务设计上,CL-bench强调高复杂性和序列依赖性,51.1%的任务设计多轮次交互机制,后续任务的解决方案依赖于前期交互结果,显著增加任务难度、模拟真实工作场景。同时,每个任务都设置完全可验证的评估标准,平均每个Context关联63.2个验证标准,通过多角度评估确保对模型性能的全面检验,避免单一指标带来的评估偏差。

CL-bench的项目地址

  • 项目官网:https://www.clbench.com/
  • GitHub仓库:https://github.com/Tencent-Hunyuan/CL-bench
  • HuggingFace模型库:https://huggingface.co/datasets/tencent/CL-bench

CL-bench的应用场景

  • AI模型能力评估:为研究机构和企业提供标准化的Context学习能力评测工具,精准识别模型在真实场景应用中的能力短板,指导模型优化方向。
  • 新模型研发验证:在大语言模型研发过程中作为核心测试环节,验证新版本模型是否真正具备从动态信息中学习的突破,非仅仅提升参数记忆能力。
  • 行业解决方案选型:帮助企业用户评估不同商用模型在特定业务场景下的Context学习表现,为选择适合自身需求的AI解决方案提供客观依据。
  • 教育培训领域:作为教学案例和实验平台,帮助AI从业者理解Context学习与参数学习的本质区别,培养针对真实应用场景的模型设计和调优能力。
  • 学术研究基准:为学术界提供统一的Context学习研究基准,推动相关领域形成可对比、可复现的研究成果,加速Context学习理论和技术的整体进步。

📝 站长洞察 (Editor’s Insight)

CL-bench的发布,标志着AI评测进入2.0时代:从‘知道多少’转向‘能学多快’。这绝非一次简单的刷榜,而是对当前大模型架构范式的一次严肃拷问。当行业痴迷于参数规模与静态知识库时,腾讯此举将焦点拉回智能的本质——学习与适应。23.7%的解决率是一个警钟,它宣告了‘静态智能’的局限。未来真正的突破,必将属于那些能高效整合新信息、实现在线推理的架构。对于开发者和企业而言,这意味着在模型选型时,除了看跑分,更要看其在动态、真实任务流中的‘现场学习表现’。CL-bench为下一代AI——真正具备持续学习能力的智能体——铺就了第一块试金石。

UniToken – 复旦联合美团等机构推出的统一视觉编码框架
开源桌面AI设计工具Open CoDesign:免费替代Claude Design,支持20+模型BYOK,数据完全本地化
Seed-Coder – 字节跳动开源的代码模型系列
Paper2Coder – 一键将学术论文转为代码库的AI系统
DAM-3B – 英伟达推出的多模态大语言模型
TAGGED:AI基准测试上下文学习大语言模型模型能力评估腾讯混元
分享
Email 复制链接 打印
Share
上一篇 MiniCPM-o 4.5开源发布:9B参数全模态模型,实时看听说,端侧运行超越GPT-4o
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

MiniCPM-o 4.5开源发布:9B参数全模态模型,实时看听说,端侧运行超越GPT-4o
AI 工具 AIGC 资讯
快手可灵3.0模型重磅发布:AI视频生成进入‘All in One’时代,智能分镜、15秒长视频、多语口型同步
AI 工具 AIGC 资讯
上海AI Lab开源万亿参数科学大模型Intern-S1-Pro:MoE架构赋能五大科学学科,推动AI4S新范式
AI 工具 AIGC 资讯
Mistral AI重磅发布Voxtral Transcribe 2:实时语音转文本延迟低至200ms,支持13种语言,性能全面超越GPT-4o mini
AI 工具 AIGC 资讯

相关推荐

AI 工具

Babbl

remaker
AIGC 资讯

OlympicArena – 上海交大联合 AI Lab 等推出的多学科认知推理基准测试框架

站外新闻
AI 工具AIGC 资讯

突破推理长度瓶颈!阿里通义FIPO算法实现Token级精准奖惩,纯RL训练超越o1-mini

站外新闻
FIPO Token级信用分配 大模型推理 强化学习 阿里通义
AIGC 资讯

Context7 – 为大模型和AI编辑器提供最新文档和代码示例的平台

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI绘画 AI编程 AI编程工具 AI视频 AI视频生成 AI设计 AI音乐生成 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 NVIDIA openai OpenClaw OpenRouter Pika prompt stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成 多智能体 多模态 多模态AI 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 小红书 展台 建筑 开源 开源AI工具 开源大模型 开源工具 开源框架 开源模型 强化学习 微软 教程 早报 智能体 智能体编程 智谱AI 本地AI 海报设计 清华大学 生成式AI 科幻 端侧AI 网络安全 腾讯 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 边缘计算 通义千问 长上下文 阶跃星辰 阿里通义 阿里通义千问 面壁智能 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.