One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

本文介绍了 One-Eval,一个能够将自然语言评估请求自动转化为可执行、可追溯且可定制的评估工作流的智能体系统,旨在通过集成基准规划、数据获取与归一化、任务感知指标选择及人机协作机制,解决大语言模型评估中依赖人工操作、难以复现及缺乏可解释性等挑战。

Chengyu Shen, Yanheng Hou, Minghui Pan, Runming He, Zhen Hao Wong, Meiyi Qiang, Zhou Liu, Hao Liang, Peichao Lai, Zeang Sheng, Wentao Zhang

发布于 Wed, 11 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一个名为 One-Eval 的新系统,你可以把它想象成是大语言模型(LLM)领域的"全自动智能测评管家"。

为了让你更容易理解,我们可以把“评估一个大模型”这件事,比作"给一位新来的厨师(大模型)做面试和考核"。

1. 以前的痛点:像让老板亲自去菜市场买菜

在 One-Eval 出现之前,如果你想测试一个厨师(模型)做得好不好,通常得由你(开发者或研究人员)亲自操刀:

  • 找菜谱(找基准): 你得自己去翻书、上网,找各种各样的菜谱(基准测试,比如数学题、逻辑题、常识题)。
  • 配食材(配数据): 你得去不同的超市(数据集平台)买食材,还要把不同包装的食材(不同格式的数据)拆包、清洗、切好,统一成你能用的样子。
  • 定标准(设指标): 你得自己决定是看“咸淡”(准确率)还是看“摆盘”(格式),甚至要自己写代码来打分。
  • 写报告(出结果): 最后,你还要把一堆数字整理成报告,告诉老板这个厨师哪里好、哪里不好。

这太累了! 而且一旦中间哪个环节出错(比如食材买错了,或者菜谱找错了),整个考核就废了。

2. One-Eval 是什么?:你的“全能智能管家”

One-Eval 就是一个AI 管家。你只需要用大白话告诉它你想干什么,剩下的它全包了。

你的指令: “我想看看这个厨师的数学推理能力怎么样,顺便看看他讲不讲真话,给我出个能直接用来做决定的报告。”

One-Eval 的三步走战略(就像管家的工作流程):

第一步:听懂人话,定制菜单 (NL2Bench)

  • 管家怎么做: 它听懂了你的“数学”和“真话”需求。它脑子里有一个巨大的“菜谱库”(基准测试库),它会自动去翻,找出最合适的“数学题菜谱”(比如 GSM8K)和“真假话测试菜谱”(比如 TruthfulQA)。
  • 人性化设计: 如果它选的菜谱你不喜欢,或者你觉得不够全面,你可以随时插话:“再加个逻辑题吧!”它会立刻调整,直到你满意为止。

第二步:自动采购与备菜 (BenchResolve)

  • 管家怎么做: 确定了菜谱后,它自动去“超市”(HuggingFace 等平台)下载食材。
  • 解决麻烦: 不同的超市,食材包装不一样(有的叫“问题”,有的叫“题目”)。管家会自动把它们统一处理,把“问题”都贴上“输入”的标签,把“答案”都贴上“目标”的标签。
  • 结果: 不管原来的食材多乱,到了它手里,都变成了整齐划一、随时可以下锅(运行)的状态。

第三步:专业打分与写报告 (Metrics & Reporting)

  • 管家怎么做: 厨师做完菜,管家不仅会算“做对了几道题”(分数),还会写一份深度体检报告
    • 宏观视角: 厨师的整体能力雷达图。
    • 微观诊断: 为什么这道菜做砸了?是“幻觉”(瞎编乱造)还是“逻辑错误”?
    • 行动建议: “建议加强数学训练,或者在提示词里增加格式要求。”
  • 不再只有冷冰冰的数字: 以前的报告可能只告诉你“得分 85 分”,One-Eval 会告诉你“他在处理复杂应用题时容易出错,但在简单计算上很稳”。

3. 它的核心亮点:像“自动驾驶”一样靠谱

  • 可追溯(Traceable): 就像黑匣子,每一步它做了什么、选了哪个菜谱、下载了哪个食材,都记得清清楚楚。如果结果有问题,你可以随时“回滚”(Rollback),检查是哪一步出了问题。
  • 人机协作(Human-in-the-loop): 它不是那种“黑盒”操作。在关键节点(比如选菜谱、定标准时),它会停下来问:“老板,这个方案行吗?”你可以确认、修改或否决。既保留了自动化的效率,又保留了人类的控制权。
  • 工业级实用: 它不只是在实验室里跑跑分,而是专门为企业落地设计的。它能直接告诉产品经理或工程师:“这个模型可以上线了”或者“这个模型在安全方面有风险,不能上线”。

总结

One-Eval 就是把“给大模型做考试”这件事,从“手工作坊”升级成了“全自动智能流水线”。

你只需要像跟朋友聊天一样说出你的需求,剩下的找题、配题、考试、阅卷、写评语,全由这个 AI 管家搞定,而且它还会把整个过程记录得明明白白,让你随时可以复查。这让大模型的评估变得简单、透明、且真正有用