Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 大模型推理能力现原形?美团LongCat团队开源General365基准,实测26款模型仅一款勉强及格
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 大模型推理能力现原形?美团LongCat团队开源General365基准,实测26款模型仅一款勉强及格
AI 工具AIGC 资讯

大模型推理能力现原形?美团LongCat团队开源General365基准,实测26款模型仅一款勉强及格

站外新闻
最近更新: 2026年5月24日 上午9:51
AIGC 人工智能基准测试 大模型 推理评测 美团
SHARE

💡 站外导读:当大模型在各类考试中屡创高分,其在真实、复杂日常场景下的通用推理能力却可能被高估。业界亟需一个剥离专业知识、纯粹考验逻辑思维的评测标尺。美团LongCat团队开源的General365基准,正是为了回答一个核心痛点:我们如何客观衡量大模型的“思考”能力,而非其“记忆”能力?

General365是什么

General365 是美团 LongCat 团队开源的通用推理评测基准,包含 365 道原创种子题及 1095 个扩展变体,覆盖八大推理挑战维度。基准将知识范围严格限定在 K-12 水平,解耦大模型的推理能力与专业知识依赖,真实评估模型在日常场景下的通用逻辑推理水平。实测显示,26 款主流大模型中仅 Gemini 3 Pro 达到 62.8% 的准确率,绝大多数模型未过 60% 及格线。

阅读目录
  • General365是什么
  • General365的主要功能
  • General365的技术原理
  • General365的核心优势
  • General365的项目地址
  • General365的同类竞品对比
  • General365的应用场景
      • 📝 站长洞察 (Editor’s Insight)

General365

General365的主要功能

  • 高多样性评测:365 道人工原创种子题 + 1095 个变体,覆盖复杂约束、分支枚举、时空推理、递归回溯、语义干扰、隐式信息、最优策略、概率不确定性八大维度。
  • 推理与知识解耦:将背景知识限定在 K-12 范围内,纯粹衡量逻辑推理能力而非知识检索。
  • 混合评分系统:结合规则评分与模型评分(GPT-4.1),人工验证评分准确率达 99.6%。
  • 公开子集与隐藏测试集:已公开 180 道种子题及变体(共 720 题),剩余题目作为隐藏测试集防止数据污染。
  • 多模型横向评测:支持对 OpenAI、Gemini、Anthropic、DeepSeek、Qwen、GLM、Kimi、LongCat 等 26+ 款模型的推理能力进行标准化评估。

General365的技术原理

  • 八大维度拆解通用推理:将通用推理拆解为 8 个核心挑战类型,每道题至少对应其一,近 70% 题目具备两个以上类别标签。
  • 避免模板化与死记硬背:通过 t-SNE 语义分布验证和 Gemini 3 Pro 推理路径相似度评分,确保题目逻辑独立性,防止模型靠”背模板”得分。
  • 难度过滤与人工审核:全部题目经过难度过滤、多样性扩充、模型扩题与人工审核,形成 1460 道高质量题目。
  • 混合评分框架:数值题用 math-verify 工具解析验证;选择题和文本题使用 GPT-4.1 进行模型评分。

General365的核心优势

  • 聚焦真实推理能力:区别于 AIME、IMO 等学科竞赛评测,General365 专注日常通用逻辑,暴露大模型”高分低能”的短板。
  • 高区分度:SOTA 模型也仅勉强及格,避免现有基准(如 BBH、BBEH)性能饱和、无法区分模型的问题。
  • 经得起检验的多样性:语义分布均匀分散,逻辑独立性远高于 BBH 和 BBEH。
  • 开源可复现:GitHub 仓库提供完整评测代码,支持社区快速接入和复现。

General365的项目地址

  • 项目官网:https://general365.github.io/
  • GitHub仓库:https://github.com/meituan-longcat/General365
  • HuggingFace模型库:https://huggingface.co/datasets/meituan-longcat/General365_Public
  • arXiv技术论文:https://arxiv.org/pdf/2604.11778

General365的同类竞品对比

维度 General365 BBH (Big-Bench Hard) BBEH (Big-Bench Extra Hard)
评测重点 通用推理(K-12 知识) 综合任务推理 高难度综合任务
题目数量 365 种子 + 1095 变体 23 项任务 多项任务扩展
多样性 极高(语义分布均匀,逻辑独立性强) 较低(存在明显聚集现象) 较低(模板化严重)
难度区分度 高(SOTA 仅 62.8%) 低(性能已饱和) 中等
评分方式 混合评分(规则+模型,准确率 99.6%) 规则评分为主 规则评分为主
数据公开策略 半公开(180 题公开 + 隐藏测试集) 全公开 全公开

General365的应用场景

  • 大模型研发评测:帮助模型开发者识别推理能力短板,针对性优化复杂约束、语义干扰、最优策略等薄弱维度。
  • 模型选型参考:为企业用户选择推理能力更强的商用或开源模型提供客观数据支撑。
  • 学术研究:为通用推理领域提供标准化评测工具,推动 LLM 从”学科专家”向”通用推理者”进化。
  • 推理效率分析:支持分析模型准确率与输出 token 数的关系,评估推理效率。

📝 站长洞察 (Editor’s Insight)

General365的发布标志着AI评测进入“祛魅”新阶段。当主流基准(如BBH)出现性能饱和,行业需要更高区分度的工具。美团此举精准切中要害:将知识限制在K-12水平,强制模型进行纯粹逻辑推演,这直指当前大模型“知识库强大,推理链脆弱”的结构性矛盾。其混合评分与隐藏测试集设计,体现了对抗数据污染、追求评测纯净度的前沿思考。从趋势看,通用推理能力将成为下一阶段模型竞争的核心战场,而General365这类基准将帮助行业从“比谁知识多”转向“比谁更会思考”,驱动模型架构与训练范式的深层创新。

砸下 10 亿英镑!英国打响AI芯片“保卫战”,全力拦截本土企业流向美国
Agent Squad – 开源的多 Agents 对话编排框架
Syllaby
GPT‑5.3‑Codex‑Spark – OpenAI推出的轻量级编程模型
Ming‑Flash‑Omni 2.0 – 蚂蚁开源的全模态大模型
TAGGED:AIGC人工智能基准测试大模型推理评测美团
分享
Email 复制链接 打印
Share
上一篇 全息流体渐变通用占位特色图 马斯克千亿资本腾挪:SpaceX低息贷款置换高息债,年省10亿美元利息
下一篇 9Router深度评测:开源AI编程路由神器,智能调度100+模型,Token成本直降40% | 开发者必备工具
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

腾讯混元Tencent-HY-MT1.5开源翻译模型:1.8B端侧量化仅需1GB,33种语言离线秒译
AI 工具
AutoMV: 多智能体协作开源AI系统,一键将歌曲生成节奏同步的音乐视频(附项目地址)
AI 工具 AIGC 资讯
阿里通义重磅开源Qwen3-VL-Reranker:跨模态检索精度飙升,多模态AI应用新引擎
AI 工具 AIGC 资讯
香港大学开源DeepTutor:基于知识图谱的AI学习助手,多智能体架构助你高效构建个人知识库
AI 工具

相关推荐

AI 工具

The Agency 开源 AI Agent 角色库:144+ 专家团队,一键部署实现开发到营销全流程 AI 协作

站外新闻
AI Agent prompt 开源项目 虚拟团队 角色库
AI 工具AIGC 资讯

MiniMax Music 2.6深度评测:20秒极速生成、14种结构控制,AI音乐创作进入可控时代

站外新闻
AI Agent AIGC AI音乐生成 MiniMax 音乐大模型
AI 工具AIGC 资讯

谷歌Gemma 4开源发布:2B参数跑手机、31B性能超Qwen 397B,Apache 2.0真商用

站外新闻
Gemma 4 多模态大模型 开源大模型 端侧AI 谷歌大模型
AIGC 资讯

Evo 2 – Acr研究所联合英伟达、斯坦福等推出的生物学AI模型

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI绘画 AI编程 AI编程工具 AI视频 AI视频生成 AI设计 AI音乐生成 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek Gemini GPT-5.4 GPT-5.5 MCP协议 Midjourney MiniMax Mistral AI MoE MoE架构 NVIDIA openai OpenClaw prompt SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 大模型 大模型API 大模型应用 大模型推理 大语言模型 字节跳动 家居 小红书 展台 开源 开源AI工具 开源大模型 开源工具 开源框架 开源模型 开源项目 强化学习 微软 教程 早报 昆仑万维 智能体编程 智谱AI 月之暗面 本地AI 海报设计 清华大学 生成式AI 知识管理 科大讯飞 科幻 端侧AI 端侧大模型 端侧部署 网络安全 腾讯 腾讯混元 英伟达 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 边缘计算 通义千问 长上下文 阶跃星辰 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.