Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 北大开源One-Eval:告别繁琐配置,自然语言驱动大模型评测,NL2Eval实现全链路自动化
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 北大开源One-Eval:告别繁琐配置,自然语言驱动大模型评测,NL2Eval实现全链路自动化
AI 工具AIGC 资讯

北大开源One-Eval:告别繁琐配置,自然语言驱动大模型评测,NL2Eval实现全链路自动化

站外新闻
最近更新: 2026年5月24日 上午2:29
Agent驱动 NL2Eval 北大OpenDCAI 大模型评测 自动化评测框架
SHARE

💡 站外导读:随着大语言模型(LLM)的井喷式发展,模型能力评估已成为选型、研发与部署的关键瓶颈。传统评测流程往往依赖手动配置、脚本编写和复杂调试,耗时耗力且易出错。北京大学OpenDCAI团队开源的One-Eval框架,以‘NL2Eval’为核心理念,彻底解决了这一痛点。用户仅需用自然语言描述评测目标,系统便能自动驱动Agent完成从基准选择、数据下载、模型推理到报告生成的全链路工作,将复杂的工程流程简化为一次对话,显著提升了评测的效率、可复现性与可访问性。

One-Eval是什么

One-Eval 是北京大学 OpenDCAI 团队开源的自动化 Agent 驱动大模型评测框架,基于 DataFlow 与 LangGraph 构建,主打 NL2Eval(自然语言转评测)能力。用户只需用自然语言描述评测目标,系统可自动完成基准推荐、数据下载、推理执行、指标匹配、打分及多维度报告生成,实现从需求到报告的全链路自动化。

阅读目录
  • One-Eval是什么
  • One-Eval的主要功能
  • One-Eval的技术原理
  • 如何使用One-Eval
  • One-Eval的关键信息和使用要求
  • One-Eval的核心优势
  • One-Eval的项目地址
  • One-Eval的同类竞品对比
  • One-Eval的应用场景
      • 📝 站长洞察 (Editor’s Insight)

One-Eval

One-Eval的主要功能

  • NL2Eval 智能解析:用户输入自然语言需求,Agent 自动解析意图并规划评测路径。
  • Bench Gallery 基准库:内置 GSM8K、MATH、MMLU、C-Eval、IFEval、HumanEval 等主流评测基准的元信息管理。
  • 端到端自动执行:自动完成数据下载、模型推理、答案评分、统计分析与报告生成。
  • 人机协同干预:支持在关键节点中断、审查、编辑与重跑,实时调整评测策略。
  • 异构数据统一接口:通过 DataFlow 引擎标准化不同数据集的格式与列映射。

One-Eval的技术原理

  • Agent 图编排架构:基于 LangGraph 构建状态机工作流,将评测拆解为 NL2Bench → BenchResolve → Metrics & Reporting 三大阶段。
  • DataFlow 算子系统:底层采用 DataFlow 引擎处理数据准备与流式计算,实现异构数据集的统一接入与转换。
  • Local-first + HuggingFace 双源解析:优先加载本地预置配置,缺失时自动调用 HuggingFace 工具搜索、下载并结构化数据集元信息。
  • 可追踪状态管理:每一步执行状态持久化,支持断点恢复、回溯重跑与失败数据分析。

如何使用One-Eval

  • 环境准备:通过 Conda 或 uv 创建虚拟环境并执行 pip install -e . 安装依赖。
  • 启动后端:运行 uvicorn one_eval.server.app:app --host 0.0.0.0 --port 8000 启动 FastAPI 服务。
  • 启动前端:进入 one-eval-web 目录执行 npm install && npm run dev,访问 localhost:5173。
  • 配置参数:在 Web 界面设置 API Key、目标模型及 HuggingFace Token,保存后可开始交互式评测。
  • 发起评测:在输入框用自然语言描述需求,如”评测模型在数学推理任务上的表现”,Agent 自动执行并生成报告。
  • 开发者模式:直接运行 python -m one_eval.graph.workflow_all "评测目标" 通过命令行触发完整工作流。

One-Eval的关键信息和使用要求

  • 开发团队:北京大学 OpenDCAI 实验室。
  • 开源协议:完全开源,代码托管于 GitHub 可直接获取。
  • 技术栈:后端基于 Python 3.11 与 FastAPI,前端采用 React + Vite,核心工作流依赖 LangGraph 进行图编排,底层数据处理由 DataFlow 算子系统驱动。
  • 支持模型:兼容任意提供 OpenAI 标准接口的服务商,包括 OpenRouter、硅基流动、火山引擎以及自部署的 vLLM 等。
  • 硬件要求:本地运行仅需常规开发机配置即可,实际推理阶段的计算与 Token 消耗完全取决于用户所选用的外部模型 API。
  • 使用门槛:使用前需配置有效的 API Key 用于模型调用,同时需要 HuggingFace Token 以下载与加载部分评测数据集。

One-Eval的核心优势

  • 零脚本评测:告别手动下载数据与编写配置,自然语言可发起全链路评测。
  • 可扩展架构:基于 DataFlow 算子与 LangGraph 状态管理,私有数据集与自定义指标可轻松接入。
  • 人机闭环:关键节点支持人工审查与干预,兼顾自动化与可控性。
  • 多维度报告:自动生成分数统计、模型排名、失败案例分析与可操作建议。
  • 全链路追踪:评测过程完全可追溯,每个节点的输入输出与状态变更均可审计。

One-Eval的项目地址

  • GitHub仓库:https://github.com/OpenDCAI/One-Eval
  • arXiv技术论文:https://arxiv.org/pdf/2603.09821

One-Eval的同类竞品对比

对比维度 One-Eval OpenCompass EleutherAI LM Harness
开发团队 北京大学 OpenDCAI 实验室 上海人工智能实验室 EleutherAI 社区
核心定位 Agent 驱动、NL2Eval 自动化评测 中文社区主流、配置驱动评测 海外老牌、脚本化评测工具
使用方式 自然语言描述 + Web UI 交互 + 代码调用 YAML 配置文件 + 命令行脚本 Python 脚本 + CLI 命令行
上手门槛 低,一句话即可发起评测 中,需编写配置文件 中,需编写代码与脚本
人机协同 支持,关键节点可中断、审查与干预 不支持,纯自动化执行 不支持,纯自动化执行
前端界面 内置 React + Vite 可视化工作流 有结果展示页面,无交互式前端 无前端界面
中文生态 原生支持 C-Eval、CMMLU 等 极强,中文基准覆盖完善 较弱,需自行配置中文数据集
异构数据支持 DataFlow 算子系统统一接入 较完善 较完善,但配置复杂度较高
Agent/Sandbox 评测 规划中(未来支持 SWE-bench 等) 部分支持 不支持
适用场景 快速选型、工程验收、学术实验 深度定制、大规模批量评测 英文基准研究、代码级灵活定制

One-Eval的应用场景

  • 模型选型初筛:快速对比多个候选模型在数学、推理、代码、指令遵循等维度的表现。
  • 私有化模型验收:对自部署或微调后的模型进行标准化能力验收与回归测试。
  • 基准调研:通过 Bench Gallery 快速检索与配置适合特定任务类型的评测集。
  • 学术研究:为论文实验提供可复现、可追踪的自动化评测流水线。
  • Agent 能力评估:评测 LLM 在工具调用、规划与复杂任务执行中的表现(未来支持 SWE-bench 等场景)。

📝 站长洞察 (Editor’s Insight)

作为AI领域的深度观察者,One-Eval的发布标志着大模型评测正式迈入‘意图驱动’的新阶段。其核心价值不仅在于自动化,更在于其背后的Agent与状态图编排架构。它巧妙地将LangGraph的流程控制与DataFlow的数据处理能力结合,实现了评测工作流的模块化与可扩展性。这预示着,未来的AI开发与评估将越来越‘平民化’,研究员和工程师可以从繁琐的工程细节中解放,更专注于模型本身的设计与优化。同时,其‘人机协同’的设计哲学也极具前瞻性,在全自动与完全手动之间取得了精妙平衡,符合企业级应用对可控性的严苛要求。可以预见,此类框架将加速AI技术的工程化落地,并可能催生出新的‘评测即服务’(EaaS)商业模式。

月之暗面 Kimi K2.6 开源旗舰模型发布:性能对标GPT-5.4,支持300个Agent并行协作与5天自主运行
Flair AI
MonsterClaw:本地AI执行系统,隐私安全与自动化兼得
腾讯混元开源HY-WU:实时生成个性化LoRA参数,破解AI大模型定制化难题
Kaoffee
TAGGED:Agent驱动NL2Eval北大OpenDCAI大模型评测自动化评测框架
分享
Email 复制链接 打印
Share
上一篇 科大讯飞星火X2-Flash MoE大模型发布:30B参数对标万亿级性能,Agent时代性价比之王
下一篇 全息流体渐变通用占位特色图 腾讯重拳出击!《三角洲行动》AI视觉外挂遭封号十年+刑事追诉,游戏反作弊进入’AI反制AI’时代
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

上海AI Lab重磅开源:Yume1.5交互式世界模型,单卡实时生成可探索虚拟世界
AI 工具 AIGC 资讯
腾讯混元Tencent-HY-MT1.5开源翻译模型:1.8B端侧量化仅需1GB,33种语言离线秒译
AI 工具
AutoMV: 多智能体协作开源AI系统,一键将歌曲生成节奏同步的音乐视频(附项目地址)
AI 工具 AIGC 资讯
阿里通义重磅开源Qwen3-VL-Reranker:跨模态检索精度飙升,多模态AI应用新引擎
AI 工具 AIGC 资讯

相关推荐

AI 工具

ChatGPT Website Builder

remaker
AI 工具

Kodif

remaker
流光脑波AI大脑占位特色图
AIGC 资讯最新趋势

Zoom投资Anthropic回报超13亿美元!AI浪潮下企业战略布局深度解析

站外新闻
AI投资 Anthropic Claude大模型 Zoom Ventures 联邦式AI架构
AI 工具

Transvribe

remaker
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI绘画 AI编程 AI编程工具 AI视频 AI视频生成 AI设计 AI音乐生成 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek Gemini GPT-5.4 GPT-5.5 MCP协议 Midjourney MiniMax Mistral AI MoE MoE架构 NVIDIA openai OpenClaw prompt SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 大模型 大模型API 大模型应用 大模型推理 大语言模型 字节跳动 家居 小红书 展台 开源 开源AI工具 开源大模型 开源工具 开源框架 开源模型 开源项目 强化学习 微软 教程 早报 昆仑万维 智能体编程 智谱AI 月之暗面 本地AI 海报设计 清华大学 生成式AI 知识管理 科大讯飞 科幻 端侧AI 端侧大模型 端侧部署 网络安全 腾讯 腾讯混元 英伟达 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 边缘计算 通义千问 长上下文 阶跃星辰 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.