SuperGPQA – 豆包大模型联合 M-A-P 开源的知识推理基准测试集

最近更新: 2026年6月8日下午5:49

SuperGPQA是什么

SuperGPQA 是字节跳动豆包大模型团队联合 M-A-P 推出的全面覆盖 285 个研究生级学科、包含 26529 道专业题目的知识推理基准测试集。解决传统评测基准学科覆盖不全、题目质量存疑和评测维度单一的问题，基于专家与大语言模型协同构建，确保题目的高质量和高难度。SuperGPQA 包含 STEM 和非 STEM 学科，42.33% 的题目需要数学计算或严谨推理，能有效衡量大语言模型的泛化能力和真实推理水平。

阅读目录

SuperGPQA是什么
SuperGPQA的主要功能
SuperGPQA的技术原理
SuperGPQA的项目地址
SuperGPQA的应用场景

SuperGPQA

SuperGPQA的主要功能

全面评估大语言模型（LLM）的泛化能力：覆盖 285 个研究生级学科（包括长尾学科），SuperGPQA 能全面衡量 LLM 在不同领域的知识储备和推理能力。
揭示模型的真实推理能力：42.33% 的题目需要数学计算或形式推理，确保测试集有效评估模型在复杂任务中的表现，不仅仅是知识记忆能力。
提供跨学科分析框架：SuperGPQA 的学科覆盖广泛，涵盖 STEM（科学、技术、工程、数学）和非 STEM（哲学、文学、历史等）领域，为研究模型在不同学科的表现提供统一的评估工具。
填补长尾学科评估空白：传统评测集对长尾学科（如轻工业、农业、服务科学等）覆盖不足，SuperGPQA 基于全面的学科覆盖，弥补这一缺陷。
为模型优化提供参考：基于在 SuperGPQA 上的评测结果，发现模型的不足之处，优化模型架构和训练方法。

SuperGPQA的技术原理

专家-LLM 协同构建：
- 来源筛选：专家从可信来源（如教科书、权威练习网站）筛选和收集原始问题，避免众包标注的低质量风险。
- 转录与规范化：专家对原始问题进行语言规范化和格式转换，确保所有问题具备统一的学术语言和标准多项选择题格式。
- 质量检验：通过基于规则的初步过滤、基于 LLM 的质量检测（如有效性、领域相关性评估）和专家复审，确保题目的高质量和高区分度。
多模型协作验证：在质量检验阶段，用多个先进的 LLM（如 GPT-4、Gemini-flash 等）进行多维度检测，降低数据泄漏风险，提升题目的可靠性和区分度。
跨学科语义结构设计：基于 t-SNE 等可视化技术分析题目语义结构，确保不同学科领域的语言特色得以保留，在工程和科学类问题中保持语义相似性。
高难度任务设计：42.33% 的题目需要数学计算或严谨推理，确保测试集有效评估模型在复杂任务中的表现，不仅仅是知识记忆能力。

SuperGPQA的项目地址

项目官网：https://supergpqa.github.io/
GitHub仓库：https://github.com/SuperGPQA/SuperGPQA
HuggingFace模型库：https://huggingface.co/datasets/m-a-p/SuperGPQA
arXiv技术论文：https://arxiv.org/pdf/2502.14739

SuperGPQA的应用场景

模型性能评估：全面衡量大语言模型在多学科领域的知识和推理能力。
模型优化指导：帮助研究人员发现模型不足，优化训练策略。
跨学科分析：支持不同学科对模型能力的对比研究。
教育研究：用于开发智能教育工具和研究 AI 在教育中的应用。
行业应用测试：为智能客服、医疗辅助等行业应用提供测试工具。

分享

BitsAI-CR – 字节跳动推出的自动化代码审查工具

Miracle F1 – 美图 WHEE 推出的 AI 图像生成模型

发表评价

发表评价取消回复