One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

本論文は、自然言語の指示から実行可能で追跡可能な評価ワークフローを自動的に生成し、大規模言語モデルの評価における手作業の負担を軽減し、再現性と透明性を向上させるアージェントシステム「One-Eval」を提案するものである。

Chengyu Shen, Yanheng Hou, Minghui Pan, Runming He, Zhen Hao Wong, Meiyi Qiang, Zhou Liu, Hao Liang, Peichao Lai, Zeang Sheng, Wentao Zhang

公開日 Wed, 11 Ma
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

One-Eval: AI の「評価」を自動化する賢いアシスタント

この論文は、**「One-Eval(ワン・エヴァル)」**という新しいシステムについて紹介しています。

簡単に言うと、これは**「AI(大規模言語モデル)がどれだけ優秀か、人間が手作業で調べる必要をなくすための『自動化された評価アシスタント』」**です。

以下に、専門用語を排して、身近な例え話を使って解説します。


🏗️ 今までの問題点:「DIY 家具」のような評価作業

今までの AI 評価は、まるで**「説明書のない家具を、自分で工具を探して組み立てる」**ようなものでした。

  1. どのテストを使うか迷う: 「数学が得意な AI を知りたい!」と言っても、世界中に無数のテスト(ベンチマーク)があり、どれが適切か探すのが大変。
  2. 準備が大変: テストのデータを集めたり、ファイルの形式を合わせたり、プログラムを動かす環境を整えたりする「下準備」に、専門知識と時間が必要でした。
  3. 結果が単調: 評価が終わっても、「正解率 80%」という数字が出るだけ。なぜ間違えたのか、どこが弱いのかはよく分かりません。

このように、評価自体が「専門家しかできない高価で面倒な作業」になっていました。


🚀 One-Eval の仕組み:「注文から完成まで」を任せるスマートキッチン

One-Eval は、これを**「高級レストランのオーダーから料理提供までを全てこなす賢いシェフ」**のように変えました。

ユーザーはただ「数学と論理思考ができる AI をチェックしたい」と自然な言葉で伝えるだけ。その後は、以下の 3 つのステップで全てを自動処理します。

1. 注文の受け取りとメニュー選定(NL2Bench)

  • 役割: ユーザーの「数学が得意な AI を見たい」という言葉を聞いて、「あ、これは『GSM8K(小学生レベルの算数)』や『MATH(難問)』というテストが適しているね」と最適なテストメニューを提案します。
  • 人間との関わり: もしユーザーが「いや、もっと簡単な算数で」と言ったら、メニューを即座に修正します。

2. 食材の調達と調理準備(BenchResolve)

  • 役割: 選んだテストに必要な「データ(食材)」を自動的にインターネットからダウンロードし、調理しやすい形に整えます
  • すごいところ: 世界中のデータは形(フォーマット)がバラバラですが、One-Eval はそれを「統一されたお皿」に乗せ、どんなデータでも同じように処理できるように変換します。これで、人間が手作業でファイル形式を直す必要がなくなります。

3. 料理の提供と「味付け」の解説(Metrics & Reporting)

  • 役割: 評価が終わると、単なる「点数」だけでなく、「なぜその点数になったのか」を詳しく分析したレポートを作ります。
  • 例: 「計算ミスは少ないけど、問題文の読み取りでつまずいている」「特定のタイプの問題に弱い」といった**「改善のためのアドバイス」**まで含めてくれます。

🛡️ 重要な特徴:「人間がチェックできる」安心感

One-Eval は完全に AI に任せるだけでなく、**「人間が確認するポイント」**を設けています。

  • 途中確認: 「このテストでいいですか?」「データはこれで合っていますか?」と、重要なステップで人間に確認を求めます。
  • 巻き戻し機能: もし間違えていたら、前の段階に戻ってやり直すことができます。
  • 証拠の保存: 「なぜこのテストを選んだのか」「どんなデータを使ったのか」という**全ての履歴(証拠)**が残るため、後から「本当に公平に評価されたか?」を証明できます。

💡 まとめ:なぜこれが重要なのか?

One-Eval は、「AI の評価」を、専門家だけの特別な作業から、誰でも簡単に実行できる日常業務に変えるものです。

  • 時間節約: 数日かかっていた準備が、数分で終わります。
  • 再現性: 同じ手順を誰がやっても同じ結果が出ます。
  • 実用的な判断: 単なる点数ではなく、「この AI は実務に使えるか?」という意思決定に役立つ具体的なアドバイスが得られます。

つまり、One-Eval は**「AI の品質管理を、誰でも行えるようにする『魔法のツール』」**なのです。これにより、企業や開発者は、より安全で信頼できる AI を、より早く世に出せるようになります。