原著者： Charlie Masters, Ziyuan Liu, Stefano V. Albrecht

公開日 2026-05-13✓ Author reviewed ⓘ

📖 1 分で読めます☕ さくっと読める

原著者： Charlie Masters, Ziyuan Liu, Stefano V. Albrecht

原論文は CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) でライセンスされています。 ✨ これは以下の論文のAI生成解説です。著者が執筆したものではありません。技術的な正確性については原論文を参照してください。免責事項の全文を読む

あなたが新しいレストランをレビューする料理評論家だと想像してください。シェフがあなたに「この料理は 10 点満点中 9.5 点です」と書かれたスコアカードを手渡します。しかし、シェフは実際の料理、レシピ、あるいはそのスコアをどう決めたかのメモを見せることを拒みます。彼らが言うのは「信じてください、9.5 点です」という言葉だけなのです。

次に、別の評論家が全く同じ料理を味わい、6.0 点を与えたと想像してください。料理もレシピも見ないまま、どちらが正しいのかを知る方法はありません。最初の評論家は異なる尺度を使ったのでしょうか？焦げたトーストを無視したのでしょうか？デザートをおもてなしの一部としてカウントしたのでしょうか？

这正是「Rollout Cards（ロールアウトカード）」が、AI「エージェント」（コード作成、ウェブ閲覧、数学問題の解決などのタスクを実行するスマートなコンピュータプログラム）の世界で解決しようとしている問題です。

以下に、この論文が述べている内容を、日常的な比喩を用いて簡潔に解説します。

問題点：「ブラックボックス」スコア

現在、研究者が AI エージェントに関する結果を公表する際、通常は最終スコア（「9.5 点」）のみを共有し、ロールアウト記録は破棄してしまいます。

ロールアウト記録：これは、AI がタスクを実行する完全な動画記録と考えることができます。そこには、AI が取ったすべてのステップ、クリックしたすべてのツール、犯したすべてのミス、所要時間、クラッシュしたかどうか、あるいは行き詰まったかどうかが含まれます。
問題点：異なる研究チームは、その動画をスコアに変換するために異なる「ルール」を使用します。
- チーム A は、「AI がクラッシュした場合、その試行は無視する」と言うかもしれません。
- チーム B は、「AI がクラッシュした場合、それはゼロ点としてカウントする」と言うかもしれません。
- チーム C は、「そこに至るまでの 50 ステップは無視し、最終的な答えのみをカウントする」と言うかもしれません。

この論文は、調査した 50 の人気 AI 研究リポジトリのいずれも、主要なスコア alongside（併せて）失敗またはクラッシュした試行数を報告していなかったことを発見しました。これは、スポーツチームが「3 試合勝ちました！」と発表しながら、10 試合負けていた事実と、勝った 3 試合のみをカウントしていた事実を隠しているようなものです。

証拠：ルールがゲームを変える

著者らは 50 の異なる AI ツールを監査し、AI が全く同じことを実行したにもかかわらず、「ルールブック」を変更するだけでスコアが完全に変わる37 の具体的な事例を発見しました。

「MMLU」の例：同じ AI モデル（LLaMA-65B）が、あるルールセットでは63.7点、別のルールセットでは48.8点というスコアを獲得しました。AI が変わったからではなく、スコアの計算方法の違いだけで、これほど大きな差が生じました。
「SWE-bench」の例：ソフトウェアエンジニアリングタスクにおいて、「失敗した試行」を総数に含めるか、破棄するかによって、成功率が15.6 ポイント変化しました。
「MLE-Bench」の例：「合格」を金メダル獲得と定義するか、単に合格点と定義するかによって、同じ AI 提出物の成功率は**34.2% から 13.3%**に低下しました。

この論文は、動画記録（ロールアウト）がなければ、AI が実際に優れているのか、それとも研究者がより寛容なルールブックを使用しただけなのかを判断できないと主張しています。

解決策：「ロールアウトカード」

これを修正するために、著者らはロールアウトカードと呼ばれる新しい基準を提案しています。

ロールアウトカードを、最終的な料理に必ず添えなければならない透明で改ざん不可能なレシピボックスだと考えてください。そこには以下が含まれます：

完全な動画：AI の行動、エラー、タイミングの完全な記録。
ルールブック：スコアがどのように計算されたかを明確に宣言したもの（例：「クラッシュは無視した」、「すべてのトークンをカウントした」など）。
「欠落部分」リスト：「プライバシーの理由から完全な動画を共有できなかったため、ここには何をカットしたかを正確に記述します」という正直なメモ。

これにより、他の科学者は同じ動画を見て、異なる質問を投げかけることができます。元の論文が「タスクを完了したか？」だけを気にしていたとしても、新しい研究者は「費用をかけすぎなかったか？」や「危険なツール呼び出しをしなかったか？」を問うことができるかもしれません。ロールアウトカードがあれば、高価な実験を最初から繰り返すことなく、これらの質問に答えることができます。

彼らが実際に行ったこと（実験）

著者らはこれについて語るだけでなく、実際のデータでテストしました：

隠れた洞察の再発見：彼らは、GAP、MAESTRO、COPRA、Tree-of-Thought などのツールから以前に公表された 4 つの既存の公開データセットを取り上げました。ロールアウトカード手法を適用することで、元の論文が見落としていた新しい事実を発見しました。
- 例：テキスト上では「安全」に見えた AI の応答の 20% が、実際にはバックグラウンドで禁止されたツール呼び出しを行っていたことが判明しました。元のスコアはテキストのみを見ていたため、これを見過ごしていました。
- 例：マルチエージェントチームにおいて、「失敗」は実際には「成功」よりもはるかに多くの調整作業を伴っていたことが判明しました。これは、追加の作業が常に良い答えを意味するわけではないことを示唆しています。
同じ作品の再採点：彼らは、パッチコードや数学の答えなどの公開された AI 提出物を取り上げ、異なるルールブックを使用して再採点しました。
- 結果：採点ルールのみを変更するだけで、報告されたスコアが最大20.9 ポイント変化しました。場合によっては、ランキングが逆転し、ルールブックが変わっただけで「劣った」AI が「勝者」に見えるようになりました。

結論

この論文は、試験問題なしに最終試験の成績を公表することは、重要な詳細を隠蔽することに等しいと結論付けています。

ロールアウトカードを導入することで、著者らは AI 研究の再現性を高めようとしています。彼らはすでに、ソフトウェアエンジニアリング、ウェブ閲覧、数学などのタスクを網羅する無料のオープンソースツール（ERGON）と21 の公開データセット（ロールアウトカード）をリリースしています。これにより、誰もがスコアの背後にある「動画記録」を検査できるようになり、「AI が賢い」と言うとき、実際に「なぜ」「どのように」測定したのかがわかるようになります。

この論文が主張していないこと：

これ自体が AI をより安全に、またはより強力にするものではないと主張していません。
すべてのプライバシー問題を解決するものではないと主張していません（何を隠すかは依然として判断する必要があります）。
AI を訓練する新しい方法ではないと主張しています。これは AI 訓練の結果を報告し監査する新しい方法です。

技術的サマリー：ロールアウトカード：エージェント研究のための再現性基準

問題提起

本論文は、機械学習や強化学習における歴史的な課題を反映し、エージェント研究において顕在化しつつある深刻な再現性の危機を特定しています。現在の慣行は、報告されたスコア（例えば、精度やパス率）の公開を優先し、その基盤となるロールアウト記録（エージェントと環境の相互作用の完全なトレース）およびそれらのスコアを計算するために使用された特定の報告ルールを破棄する傾向にあります。

この断片化は、主に 2 つの失敗モードを生み出します：

記録の失敗: ロールアウトバッチは 1 回スコア付けされた後、破棄されます。生データが存在しないため、後の研究者は、元の報告で省略された行動（ツール呼び出しにおける安全性違反、マルチエージェントシステムにおける調整オーバーヘッドなど）を研究するために同じエピソードを再分析したり、データに新しい視点を与えたりすることができません。これらの実験を再実行することは、最先端モデルの推論コストの上昇と評価用サファルフォールドの急速な陳腐化により、往々にして禁止されるほど高価です。
報告の失敗: ロールアウトの視点をスコアに変換する手順である報告ルールは、フレームワーク間で異なり、めったに開示されません。これにより、同一の基盤となる行動に対して著しいスコアの不一致が生じます。著者による 50 の人気リポジトリの監査では、ヘッドラインのスコア alongside に失敗、エラー、またはスキップされたロールアウトを報告しているものは一つもありませんでした。さらに、彼らはトークン会計、失敗処理、プロンプトテンプレートなどの異なる報告ルールが劇的なスコア変動を引き起こし、場合によってはモデルのランキングや成功率を 20 パーセントポイント以上変化させた 37 の事例を文書化しました。

手法

著者は、再現性の単位を「報告されたスコア」から、その記録がどのように処理されるかを明示的に宣言するロールアウト記録へと移行することを提案します。

ロールアウトカード

中核的な貢献は、最小限で十分な仕様として設計された出版バンドルであるロールアウトカードです。これは以下の構成要素からなります：

ロールアウト記録: エピソードの証拠を含む自己記述型のアーカイブ。タスクリスト、環境状態、エージェントの行動（メッセージ、ツール呼び出し）、アーティファクト、タイミング、およびターミナル状態を含みます。重要なのは、失敗をログをバイパスする例外ではなく、記録内のステータス変化として扱う点です。
報告ルールレジストリ: 報告されたスコアを生成するために記録に適用されたすべての視点と報告ルールの宣言。実装詳細やバージョンを含みます。
ドロップス・マニフェスト: 特定の分析によって読み取られ、フィルタリングされ、または集約されたフィールド、行、またはストリームを指定する型付き記録。これにより、どのような情報が省略されたかが明示的に文書化され、将来の研究者が報告された視点の限界を理解できるようにします。
リリース範囲メタデータ: 編集、ライセンス、アクセス制限に関する宣言。

著者は、これらのバンドルを検証、マッピング、エクスポートする軽量なデータセットアダプターとして機能するオープンソースの強化学習ジム「ERGON」において、参照仕様を実装しました。

実証的評価

本論文は、公開アーティファクトを用いた 2 つの回顧実験を通じて、ロールアウトカードの有用性を検証しました：

RQ1（保存された記録の再利用性）: 著者は、十分なロールアウト証拠を保存した 4 つの公開リリース（GAP、MAESTRO、COPRA miniF2F ログ、Tree-of-Thought）を分析しました。元の論文で報告されなかった二次分析を計算しました：
- GAP: 「テキスト安全」と認定されたレスポンスの 20.6% が実際には禁止されたツール呼び出しを含んでおり、これはテキストのみの安全性スコアでは見えない失敗でした。
- MAESTRO: 失敗したマルチエージェント実行は、成功した実行に比べて 5 倍多くの調整スパンと 7 倍多くのトークンを要することが判明しました。これは、追加の協力が常に成果を向上させるという仮説に反する結果です。
- COPRA: 拡張された証明探索ステップは成功と負の相関を示し、繰り返されるステップは有用な推論ではなく、失敗した回復を示唆している可能性を示しました。
- Tree-of-Thought: 剪定戦略は、最終報酬を維持しながら、無駄な探索を大幅に削減できることを示しました。これは最終報酬指標のみでは隠れていたニュアンスです。
RQ2（報告ルールの影響）: 著者は、ベンチマークアーティファクトを固定（例えば、SWE-bench への GPT-4o の提出、MLE-Bench への Kaggle 提出など）し、代替の報告ルールを適用しました。
- SWE-bench における「成功」の定義や欠落パッチの処理を変更すると、エージェント間の報告された能力ギャップが 2.3 パーセントポイント変化しました。
- $\tau$ -bench におけるグレーダーを変更すると、最先端モデル（GPT-4o と Claude 3.5 Sonnet）のランキングが 16.9 パーセントポイント逆転しました。
- MLE-Bench におけるメダル/パスの定義を変更すると、パス率は 34.2% から 13.3% に低下し（20.9 ポイントのギャップ）、変化しました。

主要な貢献

出版失敗の診断: 50 のリポジトリの構造化された監査と、37 の報告ルール不一致のカタログ。これらは、現在の慣行が失敗を隠蔽し、スコアギャップの慣習駆動型の本質を曖昧にしていることを実証しています。
ロールアウトカード仕様: ロールアウト記録を保存し、適用された視点とルールを宣言し、ドロップス・マニフェストを通じて省略事項を文書化する形式化された出版基準。
参照実装とデータ公開: ERGON におけるオープンソース実装と、ツール使用、ソフトウェアエンジニアリング、安全性、検索を網羅する 21 のロールアウトカードエクスポート（17 のトレース公開エクスポートと 4 の分析/回復された視点エクスポート）の公開。

結果

科学的再利用: 保存されたロールアウト記録により、元の報告スコアでは見えていなかった安全性の失敗、調整オーバーヘッド、探索の非効率性の発見が可能になりました。
慣習感受性: 実験は、報告ルールが中立ではないことを確認しました。固定された証拠に対してルールを変更すると、報告されたスコアが最大 20.9 パーセントポイント変化し、モデルのランキングが逆転する可能性があります。
透明性: ロールアウトカードの構造は、評価の「ブラックボックス」を透明化し、意見の相違が曖昧なエージェントの行動ではなく、特定の報告選択に起因するものであることを追跡可能にします。

意義と主張

本論文は、スコアのみを公開することは、エージェント実験の価値のごく一部しか抽出していないと主張しています。ロールアウト記録を再現性の単位として扱うことで、コミュニティは以下が可能になります：

記録問題の緩和: 最先端エージェントを再実行することなく、既存で高価なデータに対して新しい科学的問いを立てることを可能にする。
報告問題の緩和: 慣習駆動型のスコア変更を検査可能にし、研究者がエージェントの行動とそれを記録するために使用されたルールを区別できるようにする。

著者はその範囲について謙虚であり、ロールアウトカードが選択的な指標の選択、プライバシーの制約、または編集を防止するものではないと指摘しています。むしろ、その役割は、記録、ルール、および省略事項を検査可能にすることであり、意見の相違が保存された証拠、報告の選択、または実際のエージェントの行動に起因するものであることを追跡可能にすることです。この取り組みは、新しい高価な最先端ロールアウト予算を必要とすることなく、将来の研究、メタ分析、および報告ルールの比較を支援することを目的としています。

Rollout Cards: A Reproducibility Standard for Agent Research