One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一个名为 One-Eval 的新系统，你可以把它想象成是大语言模型（LLM）领域的"全自动智能测评管家"。

为了让你更容易理解，我们可以把“评估一个大模型”这件事，比作"给一位新来的厨师（大模型）做面试和考核"。

1. 以前的痛点：像让老板亲自去菜市场买菜

在 One-Eval 出现之前，如果你想测试一个厨师（模型）做得好不好，通常得由你（开发者或研究人员）亲自操刀：

找菜谱（找基准）： 你得自己去翻书、上网，找各种各样的菜谱（基准测试，比如数学题、逻辑题、常识题）。
配食材（配数据）： 你得去不同的超市（数据集平台）买食材，还要把不同包装的食材（不同格式的数据）拆包、清洗、切好，统一成你能用的样子。
定标准（设指标）： 你得自己决定是看“咸淡”（准确率）还是看“摆盘”（格式），甚至要自己写代码来打分。
写报告（出结果）： 最后，你还要把一堆数字整理成报告，告诉老板这个厨师哪里好、哪里不好。

这太累了！ 而且一旦中间哪个环节出错（比如食材买错了，或者菜谱找错了），整个考核就废了。

2. One-Eval 是什么？：你的“全能智能管家”

One-Eval 就是一个AI 管家。你只需要用大白话告诉它你想干什么，剩下的它全包了。

你的指令： “我想看看这个厨师的数学推理能力怎么样，顺便看看他讲不讲真话，给我出个能直接用来做决定的报告。”

One-Eval 的三步走战略（就像管家的工作流程）：

第一步：听懂人话，定制菜单 (NL2Bench)

管家怎么做： 它听懂了你的“数学”和“真话”需求。它脑子里有一个巨大的“菜谱库”（基准测试库），它会自动去翻，找出最合适的“数学题菜谱”（比如 GSM8K）和“真假话测试菜谱”（比如 TruthfulQA）。
人性化设计： 如果它选的菜谱你不喜欢，或者你觉得不够全面，你可以随时插话：“再加个逻辑题吧！”它会立刻调整，直到你满意为止。

第二步：自动采购与备菜 (BenchResolve)

管家怎么做： 确定了菜谱后，它自动去“超市”（HuggingFace 等平台）下载食材。
解决麻烦： 不同的超市，食材包装不一样（有的叫“问题”，有的叫“题目”）。管家会自动把它们统一处理，把“问题”都贴上“输入”的标签，把“答案”都贴上“目标”的标签。
结果： 不管原来的食材多乱，到了它手里，都变成了整齐划一、随时可以下锅（运行）的状态。

第三步：专业打分与写报告 (Metrics & Reporting)

管家怎么做： 厨师做完菜，管家不仅会算“做对了几道题”（分数），还会写一份深度体检报告：
- 宏观视角： 厨师的整体能力雷达图。
- 微观诊断： 为什么这道菜做砸了？是“幻觉”（瞎编乱造）还是“逻辑错误”？
- 行动建议： “建议加强数学训练，或者在提示词里增加格式要求。”
不再只有冷冰冰的数字： 以前的报告可能只告诉你“得分 85 分”，One-Eval 会告诉你“他在处理复杂应用题时容易出错，但在简单计算上很稳”。

3. 它的核心亮点：像“自动驾驶”一样靠谱

可追溯（Traceable）： 就像黑匣子，每一步它做了什么、选了哪个菜谱、下载了哪个食材，都记得清清楚楚。如果结果有问题，你可以随时“回滚”（Rollback），检查是哪一步出了问题。
人机协作（Human-in-the-loop）： 它不是那种“黑盒”操作。在关键节点（比如选菜谱、定标准时），它会停下来问：“老板，这个方案行吗？”你可以确认、修改或否决。既保留了自动化的效率，又保留了人类的控制权。
工业级实用： 它不只是在实验室里跑跑分，而是专门为企业落地设计的。它能直接告诉产品经理或工程师：“这个模型可以上线了”或者“这个模型在安全方面有风险，不能上线”。

总结

One-Eval 就是把“给大模型做考试”这件事，从“手工作坊”升级成了“全自动智能流水线”。

你只需要像跟朋友聊天一样说出你的需求，剩下的找题、配题、考试、阅卷、写评语，全由这个 AI 管家搞定，而且它还会把整个过程记录得明明白白，让你随时可以复查。这让大模型的评估变得简单、透明、且真正有用。

One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

1. 以前的痛点：像让老板亲自去菜市场买菜

2. One-Eval 是什么？：你的“全能智能管家”

第一步：听懂人话，定制菜单 (NL2Bench)

第二步：自动采购与备菜 (BenchResolve)

第三步：专业打分与写报告 (Metrics & Reporting)

3. 它的核心亮点：像“自动驾驶”一样靠谱

总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

核心架构组件

关键机制：人机回环 (Human-in-the-Loop)

3. 主要贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与影响 (Significance)

One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

1. 以前的痛点：像让老板亲自去菜市场买菜

2. One-Eval 是什么？：你的“全能智能管家”

第一步：听懂人话，定制菜单 (NL2Bench)

第二步：自动采购与备菜 (BenchResolve)

第三步：专业打分与写报告 (Metrics & Reporting)

3. 它的核心亮点：像“自动驾驶”一样靠谱

总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

核心架构组件

关键机制：人机回环 (Human-in-the-Loop)

3. 主要贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与影响 (Significance)

类似论文

Image Captioning via Compact Bidirectional Architecture

Correspondence Analysis and PMI-Based Word Embeddings: A Comparative Study

Connecting Voices: LoReSpeech as a Low-Resource Speech Parallel Corpus

ThinkQE: Query Expansion via an Evolving Thinking Process

AgentCoMa: A Compositional Benchmark Mixing Commonsense and Mathematical Reasoning in Real-World Scenarios