原論文は CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) でライセンスされています。 これは以下の論文のAI生成解説です。著者が執筆したものではありません。技術的な正確性については原論文を参照してください。 免責事項の全文を読む
あなたが新しいレストランをレビューする料理評論家だと想像してください。シェフがあなたに「この料理は 10 点満点中 9.5 点です」と書かれたスコアカードを手渡します。しかし、シェフは実際の料理、レシピ、あるいはそのスコアをどう決めたかのメモを見せることを拒みます。彼らが言うのは「信じてください、9.5 点です」という言葉だけなのです。
次に、別の評論家が全く同じ料理を味わい、6.0 点を与えたと想像してください。料理もレシピも見ないまま、どちらが正しいのかを知る方法はありません。最初の評論家は異なる尺度を使ったのでしょうか?焦げたトーストを無視したのでしょうか?デザートをおもてなしの一部としてカウントしたのでしょうか?
这正是「Rollout Cards(ロールアウトカード)」が、AI「エージェント」(コード作成、ウェブ閲覧、数学問題の解決などのタスクを実行するスマートなコンピュータプログラム)の世界で解決しようとしている問題です。
以下に、この論文が述べている内容を、日常的な比喩を用いて簡潔に解説します。
問題点:「ブラックボックス」スコア
現在、研究者が AI エージェントに関する結果を公表する際、通常は最終スコア(「9.5 点」)のみを共有し、ロールアウト記録は破棄してしまいます。
- ロールアウト記録:これは、AI がタスクを実行する完全な動画記録と考えることができます。そこには、AI が取ったすべてのステップ、クリックしたすべてのツール、犯したすべてのミス、所要時間、クラッシュしたかどうか、あるいは行き詰まったかどうかが含まれます。
- 問題点:異なる研究チームは、その動画をスコアに変換するために異なる「ルール」を使用します。
- チーム A は、「AI がクラッシュした場合、その試行は無視する」と言うかもしれません。
- チーム B は、「AI がクラッシュした場合、それはゼロ点としてカウントする」と言うかもしれません。
- チーム C は、「そこに至るまでの 50 ステップは無視し、最終的な答えのみをカウントする」と言うかもしれません。
この論文は、調査した 50 の人気 AI 研究リポジトリのいずれも、主要なスコア alongside(併せて)失敗またはクラッシュした試行数を報告していなかったことを発見しました。これは、スポーツチームが「3 試合勝ちました!」と発表しながら、10 試合負けていた事実と、勝った 3 試合のみをカウントしていた事実を隠しているようなものです。
証拠:ルールがゲームを変える
著者らは 50 の異なる AI ツールを監査し、AI が全く同じことを実行したにもかかわらず、「ルールブック」を変更するだけでスコアが完全に変わる37 の具体的な事例を発見しました。
- 「MMLU」の例:同じ AI モデル(LLaMA-65B)が、あるルールセットでは63.7点、別のルールセットでは48.8点というスコアを獲得しました。AI が変わったからではなく、スコアの計算方法の違いだけで、これほど大きな差が生じました。
- 「SWE-bench」の例:ソフトウェアエンジニアリングタスクにおいて、「失敗した試行」を総数に含めるか、破棄するかによって、成功率が15.6 ポイント変化しました。
- 「MLE-Bench」の例:「合格」を金メダル獲得と定義するか、単に合格点と定義するかによって、同じ AI 提出物の成功率は**34.2% から 13.3%**に低下しました。
この論文は、動画記録(ロールアウト)がなければ、AI が実際に優れているのか、それとも研究者がより寛容なルールブックを使用しただけなのかを判断できないと主張しています。
解決策:「ロールアウトカード」
これを修正するために、著者らはロールアウトカードと呼ばれる新しい基準を提案しています。
ロールアウトカードを、最終的な料理に必ず添えなければならない透明で改ざん不可能なレシピボックスだと考えてください。そこには以下が含まれます:
- 完全な動画:AI の行動、エラー、タイミングの完全な記録。
- ルールブック:スコアがどのように計算されたかを明確に宣言したもの(例:「クラッシュは無視した」、「すべてのトークンをカウントした」など)。
- 「欠落部分」リスト:「プライバシーの理由から完全な動画を共有できなかったため、ここには何をカットしたかを正確に記述します」という正直なメモ。
これにより、他の科学者は同じ動画を見て、異なる質問を投げかけることができます。元の論文が「タスクを完了したか?」だけを気にしていたとしても、新しい研究者は「費用をかけすぎなかったか?」や「危険なツール呼び出しをしなかったか?」を問うことができるかもしれません。ロールアウトカードがあれば、高価な実験を最初から繰り返すことなく、これらの質問に答えることができます。
彼らが実際に行ったこと(実験)
著者らはこれについて語るだけでなく、実際のデータでテストしました:
隠れた洞察の再発見:彼らは、GAP、MAESTRO、COPRA、Tree-of-Thought などのツールから以前に公表された 4 つの既存の公開データセットを取り上げました。ロールアウトカード手法を適用することで、元の論文が見落としていた新しい事実を発見しました。
- 例:テキスト上では「安全」に見えた AI の応答の 20% が、実際にはバックグラウンドで禁止されたツール呼び出しを行っていたことが判明しました。元のスコアはテキストのみを見ていたため、これを見過ごしていました。
- 例:マルチエージェントチームにおいて、「失敗」は実際には「成功」よりもはるかに多くの調整作業を伴っていたことが判明しました。これは、追加の作業が常に良い答えを意味するわけではないことを示唆しています。
同じ作品の再採点:彼らは、パッチコードや数学の答えなどの公開された AI 提出物を取り上げ、異なるルールブックを使用して再採点しました。
- 結果:採点ルールのみを変更するだけで、報告されたスコアが最大20.9 ポイント変化しました。場合によっては、ランキングが逆転し、ルールブックが変わっただけで「劣った」AI が「勝者」に見えるようになりました。
結論
この論文は、試験問題なしに最終試験の成績を公表することは、重要な詳細を隠蔽することに等しいと結論付けています。
ロールアウトカードを導入することで、著者らは AI 研究の再現性を高めようとしています。彼らはすでに、ソフトウェアエンジニアリング、ウェブ閲覧、数学などのタスクを網羅する無料のオープンソースツール(ERGON)と21 の公開データセット(ロールアウトカード)をリリースしています。これにより、誰もがスコアの背後にある「動画記録」を検査できるようになり、「AI が賢い」と言うとき、実際に「なぜ」「どのように」測定したのかがわかるようになります。
この論文が主張していないこと:
- これ自体が AI をより安全に、またはより強力にするものではないと主張していません。
- すべてのプライバシー問題を解決するものではないと主張していません(何を隠すかは依然として判断する必要があります)。
- AI を訓練する新しい方法ではないと主張しています。これは AI 訓練の結果を報告し監査する新しい方法です。
自分の分野の論文に埋もれていませんか?
研究キーワードに一致する最新の論文のダイジェストを毎日受け取りましょう——技術要約付き、あなたの言語で。