Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 腾讯CL-bench震撼发布:AI学习能力基准测试,GPT-5.1解决率仅23.7%暴露行业瓶颈
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 腾讯CL-bench震撼发布:AI学习能力基准测试,GPT-5.1解决率仅23.7%暴露行业瓶颈
AI 工具AIGC 资讯最新趋势

腾讯CL-bench震撼发布:AI学习能力基准测试,GPT-5.1解决率仅23.7%暴露行业瓶颈

站外新闻
最近更新: 2026年6月7日 下午8:06
AI基准测试 上下文学习 大语言模型 模型能力评估 腾讯混元
SHARE

💡 站外导读:当前大模型竞赛如火如荼,但一个关键瓶颈正浮出水面:它们真的会学习吗?多数模型依赖海量参数记忆,而非从动态信息中实时推理。腾讯与复旦大学联合发布的CL-bench基准测试,直击这一痛点。它构建了无污染的复杂场景,强制模型从全新上下文中学习,结果显示,即便是顶尖模型GPT-5.1,解决率也仅23.7%。这不仅是性能差距,更揭示了从‘记忆机器’向‘学习系统’演进的根本挑战。

CL-bench是什么

CL-bench是腾讯混元与复旦大学联合推出的Context学习能力评测基准,能衡量大语言模型从全新上下文信息中实时学习、应用知识的能力。CL-bench基准包含500个专家精心构建的复杂场景、1899个任务,涵盖领域知识推理、规则系统应用、程序性任务执行和经验发现与模拟四大类。测试显示,最强模型GPT-5.1解决率仅23.7%,揭示当前AI”不会现场学习”的核心瓶颈,为模型优化指明新方向。

阅读目录
  • CL-bench是什么
  • CL-bench的主要功能
  • CL-bench的技术原理
  • CL-bench的项目地址
  • CL-bench的应用场景
      • 📝 站长洞察 (Editor’s Insight)

CL-bench

CL-bench的主要功能

  • 实时学习能力评测:支持评测大语言模型从全新上下文信息中实时学习、应用知识的能力。
  • 大规模测试集构建:构建包含500个复杂场景、1899个任务和31607个验证标准的测试集,覆盖领域知识推理、规则系统应用、程序性任务执行和经验发现与模拟四类真实世界场景。
  • 无污染数据设计:采用无污染设计确保数据新颖性,通过虚构创作、现有内容修改和整合小众新兴内容,防止模型依靠记忆非学来解决问题。
  • 序列依赖验证:验证模型在序列依赖任务中的多轮次推理能力,51.1%的任务需要基于前期交互结果进行后续推理。
  • 多维度评估体系:提供多维度评估体系,平均每个任务包含16.6个评估标准,从多个角度全面检验模型对Context的理解和应用准确性。

CL-bench的技术原理

  • 自包含Context环境:CL-bench的核心技术原理为构建完全自包含的Context环境,确保解决任务所需的全部信息都显式地提供在Context本身之中,不需要外部检索,不支持隐藏假设。强制模型必须从当前输入的新信息中汲取营养,非调用预训练阶段封存的内部知识,真实反映模型的Context学习能力非记忆能力。
  • 三重无污染策略:为实现无污染评估,CL-bench采用三重技术策略:专家创作完全虚构的内容,如为虚构国家设计完整的法律体系或创建具有独特语法的新编程语言;对现实世界内容进行系统性修改以创建变体,包括更改历史事件、改变科学定义或修改技术文档;纳入在预训练数据集中代表性极低的小众或近期新兴内容,如前沿研究发现和新发布的产品手册。
  • 复杂性与可验证性设计:在任务设计上,CL-bench强调高复杂性和序列依赖性,51.1%的任务设计多轮次交互机制,后续任务的解决方案依赖于前期交互结果,显著增加任务难度、模拟真实工作场景。同时,每个任务都设置完全可验证的评估标准,平均每个Context关联63.2个验证标准,通过多角度评估确保对模型性能的全面检验,避免单一指标带来的评估偏差。

CL-bench的项目地址

  • 项目官网:https://www.clbench.com/
  • GitHub仓库:https://github.com/Tencent-Hunyuan/CL-bench
  • HuggingFace模型库:https://huggingface.co/datasets/tencent/CL-bench

CL-bench的应用场景

  • AI模型能力评估:为研究机构和企业提供标准化的Context学习能力评测工具,精准识别模型在真实场景应用中的能力短板,指导模型优化方向。
  • 新模型研发验证:在大语言模型研发过程中作为核心测试环节,验证新版本模型是否真正具备从动态信息中学习的突破,非仅仅提升参数记忆能力。
  • 行业解决方案选型:帮助企业用户评估不同商用模型在特定业务场景下的Context学习表现,为选择适合自身需求的AI解决方案提供客观依据。
  • 教育培训领域:作为教学案例和实验平台,帮助AI从业者理解Context学习与参数学习的本质区别,培养针对真实应用场景的模型设计和调优能力。
  • 学术研究基准:为学术界提供统一的Context学习研究基准,推动相关领域形成可对比、可复现的研究成果,加速Context学习理论和技术的整体进步。

📝 站长洞察 (Editor’s Insight)

CL-bench的发布,标志着AI评测进入2.0时代:从‘知道多少’转向‘能学多快’。这绝非一次简单的刷榜,而是对当前大模型架构范式的一次严肃拷问。当行业痴迷于参数规模与静态知识库时,腾讯此举将焦点拉回智能的本质——学习与适应。23.7%的解决率是一个警钟,它宣告了‘静态智能’的局限。未来真正的突破,必将属于那些能高效整合新信息、实现在线推理的架构。对于开发者和企业而言,这意味着在模型选型时,除了看跑分,更要看其在动态、真实任务流中的‘现场学习表现’。CL-bench为下一代AI——真正具备持续学习能力的智能体——铺就了第一块试金石。

CodeConvert AI
C站发布了一个新功能:Civitai AI 图像生成器
小红书FireRedTTS-2:革命性流式TTS系统,实现多语言、多说话人低延迟语音克隆
AIGC 绘图基础
Avatar AI
TAGGED:AI基准测试上下文学习大语言模型模型能力评估腾讯混元
分享
Email 复制链接 打印
Share
上一篇 MiniCPM-o 4.5开源发布:9B参数全模态模型,实时看听说,端侧运行超越GPT-4o
下一篇 ACE-Step 1.5:消费级硬件跑出商业级音乐生成!ACE Studio联合StepFun开源模型,4步推理2秒生成4分钟歌曲
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

流光脑波AI大脑占位特色图
2026年3月美国AI榜单巨变:Claude单月狂飙130%紧追ChatGPT,格局突变信号已现
AIGC 资讯 最新趋势
得物实战揭秘:AI Coding工具如何突破数仓开发’失忆’痛点,Harness工程引领新范式
AI 工具 AIGC 资讯
全息流体渐变通用占位特色图
历史性和解!Meta妥协规避审判,美国首例学校诉社交媒体成瘾案落幕,揭示行业司法风向
AIGC 资讯
量子芯片科技感占位特色图
Spotify与环球音乐联手:AI翻唱混音工具上线,正版版权终结Suno野蛮生长
AI 工具 AIGC 资讯 最新趋势

相关推荐

AI 工具AIGC 资讯

MiniMax M2.7重磅发布:全球首个自我进化AI大模型,软件工程评测56.22%逼近GPT,开源办公能力登顶

站外新闻
Agent协作 MiniMax M2.7 SWE-Pro评测 开源大模型 自我进化AI模型
AI 工具

Scum

remaker
AI 工具AIGC 资讯

Anthropic发布Claude Opus 4.8:代码缺陷率暴跌75%,速度提升2.5倍碾压GPT-5.5

站外新闻
AIGC Anthropic Claude Opus 4.8 智能体编程
AI 工具AIGC 资讯

小米OmniVoice震撼开源:600+语种、40倍实时,定义下一代多语言TTS新标杆

站外新闻
OmniVoice TTS模型 小米AI 开源大模型 语音合成
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 知识管理 美团 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 轻量级模型 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.