Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 大模型推理能力现原形?美团LongCat团队开源General365基准,实测26款模型仅一款勉强及格
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 大模型推理能力现原形?美团LongCat团队开源General365基准,实测26款模型仅一款勉强及格
AI 工具AIGC 资讯

大模型推理能力现原形?美团LongCat团队开源General365基准,实测26款模型仅一款勉强及格

站外新闻
最近更新: 2026年5月24日 上午9:51
AIGC 人工智能基准测试 大模型 推理评测 美团
SHARE

💡 站外导读:当大模型在各类考试中屡创高分,其在真实、复杂日常场景下的通用推理能力却可能被高估。业界亟需一个剥离专业知识、纯粹考验逻辑思维的评测标尺。美团LongCat团队开源的General365基准,正是为了回答一个核心痛点:我们如何客观衡量大模型的“思考”能力,而非其“记忆”能力?

General365是什么

General365 是美团 LongCat 团队开源的通用推理评测基准,包含 365 道原创种子题及 1095 个扩展变体,覆盖八大推理挑战维度。基准将知识范围严格限定在 K-12 水平,解耦大模型的推理能力与专业知识依赖,真实评估模型在日常场景下的通用逻辑推理水平。实测显示,26 款主流大模型中仅 Gemini 3 Pro 达到 62.8% 的准确率,绝大多数模型未过 60% 及格线。

阅读目录
  • General365是什么
  • General365的主要功能
  • General365的技术原理
  • General365的核心优势
  • General365的项目地址
  • General365的同类竞品对比
  • General365的应用场景
      • 📝 站长洞察 (Editor’s Insight)

General365

General365的主要功能

  • 高多样性评测:365 道人工原创种子题 + 1095 个变体,覆盖复杂约束、分支枚举、时空推理、递归回溯、语义干扰、隐式信息、最优策略、概率不确定性八大维度。
  • 推理与知识解耦:将背景知识限定在 K-12 范围内,纯粹衡量逻辑推理能力而非知识检索。
  • 混合评分系统:结合规则评分与模型评分(GPT-4.1),人工验证评分准确率达 99.6%。
  • 公开子集与隐藏测试集:已公开 180 道种子题及变体(共 720 题),剩余题目作为隐藏测试集防止数据污染。
  • 多模型横向评测:支持对 OpenAI、Gemini、Anthropic、DeepSeek、Qwen、GLM、Kimi、LongCat 等 26+ 款模型的推理能力进行标准化评估。

General365的技术原理

  • 八大维度拆解通用推理:将通用推理拆解为 8 个核心挑战类型,每道题至少对应其一,近 70% 题目具备两个以上类别标签。
  • 避免模板化与死记硬背:通过 t-SNE 语义分布验证和 Gemini 3 Pro 推理路径相似度评分,确保题目逻辑独立性,防止模型靠”背模板”得分。
  • 难度过滤与人工审核:全部题目经过难度过滤、多样性扩充、模型扩题与人工审核,形成 1460 道高质量题目。
  • 混合评分框架:数值题用 math-verify 工具解析验证;选择题和文本题使用 GPT-4.1 进行模型评分。

General365的核心优势

  • 聚焦真实推理能力:区别于 AIME、IMO 等学科竞赛评测,General365 专注日常通用逻辑,暴露大模型”高分低能”的短板。
  • 高区分度:SOTA 模型也仅勉强及格,避免现有基准(如 BBH、BBEH)性能饱和、无法区分模型的问题。
  • 经得起检验的多样性:语义分布均匀分散,逻辑独立性远高于 BBH 和 BBEH。
  • 开源可复现:GitHub 仓库提供完整评测代码,支持社区快速接入和复现。

General365的项目地址

  • 项目官网:https://general365.github.io/
  • GitHub仓库:https://github.com/meituan-longcat/General365
  • HuggingFace模型库:https://huggingface.co/datasets/meituan-longcat/General365_Public
  • arXiv技术论文:https://arxiv.org/pdf/2604.11778

General365的同类竞品对比

维度 General365 BBH (Big-Bench Hard) BBEH (Big-Bench Extra Hard)
评测重点 通用推理(K-12 知识) 综合任务推理 高难度综合任务
题目数量 365 种子 + 1095 变体 23 项任务 多项任务扩展
多样性 极高(语义分布均匀,逻辑独立性强) 较低(存在明显聚集现象) 较低(模板化严重)
难度区分度 高(SOTA 仅 62.8%) 低(性能已饱和) 中等
评分方式 混合评分(规则+模型,准确率 99.6%) 规则评分为主 规则评分为主
数据公开策略 半公开(180 题公开 + 隐藏测试集) 全公开 全公开

General365的应用场景

  • 大模型研发评测:帮助模型开发者识别推理能力短板,针对性优化复杂约束、语义干扰、最优策略等薄弱维度。
  • 模型选型参考:为企业用户选择推理能力更强的商用或开源模型提供客观数据支撑。
  • 学术研究:为通用推理领域提供标准化评测工具,推动 LLM 从”学科专家”向”通用推理者”进化。
  • 推理效率分析:支持分析模型准确率与输出 token 数的关系,评估推理效率。

📝 站长洞察 (Editor’s Insight)

General365的发布标志着AI评测进入“祛魅”新阶段。当主流基准(如BBH)出现性能饱和,行业需要更高区分度的工具。美团此举精准切中要害:将知识限制在K-12水平,强制模型进行纯粹逻辑推演,这直指当前大模型“知识库强大,推理链脆弱”的结构性矛盾。其混合评分与隐藏测试集设计,体现了对抗数据污染、追求评测纯净度的前沿思考。从趋势看,通用推理能力将成为下一阶段模型竞争的核心战场,而General365这类基准将帮助行业从“比谁知识多”转向“比谁更会思考”,驱动模型架构与训练范式的深层创新。

WorkplaceAI
10-16 AIGC 早报
SheetAI.app
PromptDrive.ai
CustomerIQ
TAGGED:AIGC人工智能基准测试大模型推理评测美团
分享
Email 复制链接 打印
Share
上一篇 全息流体渐变通用占位特色图 马斯克千亿资本腾挪:SpaceX低息贷款置换高息债,年省10亿美元利息
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

全息流体渐变通用占位特色图
马斯克千亿资本腾挪:SpaceX低息贷款置换高息债,年省10亿美元利息
AIGC 资讯
量子芯片科技感占位特色图
谷歌 Gemini 算力计费引爆全球用户怒火!紧急宣布额度永久翻 3 倍补偿
AI 工具 AIGC 资讯
ELF:何恺明团队革命性扩散语言模型,32步生成、数据效率提升10倍,终结自回归时代?
AI 工具 AIGC 资讯
OpenMontage: 全球首个开源Agentic视频制作系统,12条生产线+52工具,零成本AI全流程自动成片
AI 工具 AIGC 资讯

相关推荐

AI 工具

Knowing.dev

remaker
AI 工具

Syne XR

remaker
AI 工具

VOGE

remaker
AI 工具

ImageCreator for PS

remaker
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

3D AI AI Agent AIGC AI人像 AI工具 AI换脸 AI智能体 AI海报设计 AI生成视频 AI绘画 AI编程 AI编程工具 AI视频 AI设计 Andrej Karpathy app图标 b站 chatgpt DALL-E3 excel meta Midjourney openai Pika prompt runway SDXL Stability AI stable diffusion UI设计 世界模型 丛林 乐高 人像 人工智能 人物 办公自动化 动物 吉卜力 咒语 图像生成 图标设计 壁纸 多模态大模型 大模型 大模型API 大模型应用 大语言模型 女性 字节跳动 室内设计 家居 局部重绘 展台 帅哥 建筑 建筑设计 开源工具 开源平台 开源模型 微摄影 微软 怪物 提示词 摄影 教程 新闻 日本排放核污水 早报 智能体 智谱AI 水果 海报 海报设计 游戏 游戏美术 玻璃 矢量插画 破碎 科幻 穿搭 窗 美食 背景 腾讯混元 芭比 花 表情包 视频编辑 语音合成 赛博朋克 超现实主义 运动 阿里通义 阿里通义千问 风景 食物 香水 马斯克
Prompt 语宙Prompt 语宙
Follow US
© 2009-2023 Prompt 语宙. Paooo.com. All Rights Reserved.