Ursprüngliche Autoren: Charlie Masters, Ziyuan Liu, Stefano V. Albrecht

Veröffentlicht 2026-05-13✓ Author reviewed ⓘ

📖 6 Min. Lesezeit🧠 Tiefgang

Ursprüngliche Autoren: Charlie Masters, Ziyuan Liu, Stefano V. Albrecht

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Stellen Sie sich vor, Sie sind ein Gastronomiekritiker, der ein neues Restaurant bewertet. Der Küchenchef überreicht Ihnen eine Bewertungskarte mit der Aufschrift: „Dieses Menü ist eine 9,5 von 10." Doch der Chef verweigert es, Ihnen das tatsächliche Essen, das Rezept oder die Notizen zu zeigen, wie er zu dieser Bewertung gelangt ist. Er sagt lediglich: „Vertrauen Sie mir, es ist eine 9,5."

Stellen Sie sich nun einen anderen Kritiker vor, der exakt dasselbe Menü probiert, ihm aber eine 6,0 gibt. Ohne das Essen oder das Rezept zu sehen, haben Sie keine Möglichkeit zu wissen, wer recht hat. Hat der erste Kritiker eine andere Skala verwendet? Hat er den verbrannten Toast ignoriert? Hat er das Dessert als Teil des Hauptgangs gezählt?

Genau dieses Problem wollen Rollout Cards (Durchlaufkarten) in der Welt der KI-Agenten (intelligente Computerprogramme, die Aufgaben wie das Schreiben von Code, das Durchsuchen des Webs oder das Lösen von Matheaufgaben übernehmen) lösen.

Hier ist eine einfache Aufschlüsselung dessen, was die Arbeit sagt, unter Verwendung alltäglicher Analogien:

Das Problem: Die „Black-Box"-Bewertung

Derzeit teilen Forscher, wenn sie Ergebnisse über KI-Agenten veröffentlichen, in der Regel nur die Endbewertung (die „9,5") mit. Sie werfen den Durchlaufdatensatz (Rollout Record) weg.

Der Durchlaufdatensatz: Denken Sie daran als die komplette Videoaufnahme der KI, wie sie die Aufgabe ausführt. Er enthält jeden Schritt, den sie unternahm, jedes Werkzeug, auf das sie klickte, jeden Fehler, den sie machte, wie lange sie brauchte und ob sie abstürzte oder stecken blieb.
Das Problem: Unterschiedliche Forschungsteams verwenden unterschiedliche „Regeln", um aus diesem Video eine Bewertung zu machen.
- Team A könnte sagen: „Wenn die KI abstürzt, ignorieren wir diesen Versuch."
- Team B könnte sagen: „Wenn die KI abstürzt, zählt das als Null."
- Team C könnte sagen: „Wir zählen nur die endgültige Antwort und ignorieren die 50 Schritte, die nötig waren, um dorthin zu gelangen."

Die Arbeit ergab, dass keines der 50 populären KI-Forschungs-Repositories, die sie prüften, angab, wie viele Versuche fehlgeschlagen oder abgestürzt waren, neben ihrer Hauptbewertung. Es ist, als würde ein Sportteam sagen: „Wir haben 3 Spiele gewonnen!", aber verschweigt, dass sie 10 Spiele verloren haben und nur die 3 gewonnenen gezählt wurden.

Die Beweise: Regeln verändern das Spiel

Die Autoren auditierten 50 verschiedene KI-Tools und fanden 37 spezifische Fälle, in denen eine Änderung des „Regelwerks" die Bewertung vollständig veränderte, obwohl die KI exakt dasselbe tat.

Das „MMLU"-Beispiel: Dasselbe KI-Modell (LLaMA-65B) erhielt unter einem Regelsatz eine Bewertung von 63,7 und unter einem anderen eine von 48,8. Das ist ein riesiger Unterschied, nur aufgrund der Art und Weise, wie die Bewertung berechnet wurde, nicht weil sich die KI verändert hat.
Das „SWE-bench"-Beispiel: Bei Softwareentwicklungs-Aufgaben änderte sich die Erfolgsrate um 15,6 Prozentpunkte, je nachdem, ob man „gescheiterte Versuche" als Teil des Gesamten zählte oder wegwarf.
Das „MLE-Bench"-Beispiel: Je nachdem, ob man einen „Erfolg" als Gewinn einer Goldmedaille oder nur als bestandene Note definiert, sank die Erfolgsrate derselben KI-Einreichungen von 34,2 % auf 13,3 %.

Die Arbeit argumentiert, dass wir ohne die Videoaufnahme (den Durchlauf) nicht sagen können, ob die KI tatsächlich besser ist oder ob der Forscher einfach ein nachsichtigeres Regelwerk verwendet hat.

Die Lösung: Die „Rollout Card"

Um dies zu beheben, schlagen die Autoren einen neuen Standard vor, der Rollout Card genannt wird.

Stellen Sie sich eine Rollout Card wie eine durchsichtige, manipulationssichere Rezeptbox vor, die Sie Ihrem fertigen Gericht beilegen müssen. Sie enthält:

Das vollständige Video: Die vollständige Aufzeichnung der Aktionen, Fehler und Zeitangaben der KI.
Das Regelwerk: Eine klare Erklärung, genau wie die Bewertung berechnet wurde (z. B. „Wir haben Abstürze ignoriert" oder „Wir haben jedes Token gezählt").
Die Liste der „fehlenden Teile": Ein ehrlicher Hinweis mit der Aussage: „Wir konnten das vollständige Video nicht teilen, wegen des Datenschutzes, also hier ist genau das, was wir herausgeschnitten haben."

Dies ermöglicht es anderen Wissenschaftlern, dasselbe Video anzusehen und andere Fragen zu stellen. Vielleicht interessierte sich das Originalpapier nur für „Hat es die Aufgabe abgeschlossen?", aber ein neuer Forscher möchte fragen: „Hat es zu viel Geld verbraucht?" oder „Hat es gefährliche Werkzeugaufrufe getätigt?" Mit der Rollout Card können sie diese Fragen beantworten, ohne das teure Experiment noch einmal durchführen zu müssen.

Was sie tatsächlich getan haben (Die Experimente)

Die Autoren haben nicht nur darüber gesprochen; sie haben es mit echten Daten getestet:

Wiederentdeckung versteckter Erkenntnisse: Sie nahmen vier bestehende öffentliche Datensätze (von Tools wie GAP, MAESTRO, COPRA und Tree-of-Thought), die zuvor veröffentlicht worden waren. Durch Anwendung der Rollout-Card-Methode fanden sie neue Fakten, die die Originalarbeiten übersehen hatten.
- Beispiel: Sie fanden heraus, dass 20 % der KI-Antworten, die im Text „sicher" aussahen, im Hintergrund verbotene Werkzeugaufrufe tätigten. Die ursprüngliche Bewertung verpasste dies, da sie nur den Text betrachtete.
- Beispiel: Sie fanden heraus, dass bei Multi-Agenten-Teams „Fehlschläge" tatsächlich viel mehr Koordinationsarbeit beinhalteten als „Erfolge", was darauf hindeutet, dass zusätzliche Arbeit nicht immer bessere Antworten bedeutet.
Neubewertung derselben Arbeit: Sie nahmen öffentliche KI-Einreichungen (wie Code-Patches oder Mathe-Antworten) und bewerteten sie mit unterschiedlichen Regelwerken neu.
- Ergebnis: Eine Änderung nur der Bewertungsregel veränderte die gemeldeten Bewertungen um bis zu 20,9 Prozentpunkte. In einigen Fällen kehrte sie die Rangfolge um und ließ eine „schlechtere" KI nur wegen geänderter Regeln wie den „Gewinner" aussehen.

Das Fazit

Die Arbeit kommt zu dem Schluss, dass die Veröffentlichung nur einer Bewertung wie die Veröffentlichung einer Abschlussnote ohne das Prüfungspapier ist. Sie verschleiert die Details, die wichtig sind.

Durch die Einführung von Rollout Cards wollen die Autoren die KI-Forschung reproduzierbar machen. Sie haben bereits ein kostenloses, quelloffenes Tool (genannt ERGON) und 21 öffentliche Datensätze (Rollout Cards) veröffentlicht, die Aufgaben wie Softwareentwicklung, Web-Surfen und Mathematik abdecken. Dies ermöglicht es jedem, die „Videoaufnahme" hinter den Bewertungen zu prüfen und sicherzustellen, dass wir, wenn wir sagen, eine KI sei intelligent, tatsächlich wissen, warum und wie wir sie gemessen haben.

Was die Arbeit NICHT behauptet:

Sie behauptet nicht, dass dies die KI allein sicherer oder leistungsfähiger macht.
Sie behauptet nicht, dass dies alle Datenschutzprobleme löst (Sie müssen immer noch entscheiden, was Sie verbergen).
Sie behauptet nicht, dass dies eine neue Art ist, KI zu trainieren; es ist eine neue Art, die Ergebnisse des KI-Trainings zu berichten und zu auditorieren.

Technische Zusammenfassung: Rollout Cards: Ein Reproduzierbarkeitsstandard für Agentenforschung

Problemstellung

Die Arbeit identifiziert eine kritische Reproduzierbarkeitskrise, die in der Agentenforschung auftritt und historische Probleme im maschinellen Lernen sowie im Reinforcement Learning widerspiegelt. Aktuelle Praktiken priorisieren die Veröffentlichung gemeldeter Scores (z. B. Genauigkeit, Bestehensquoten), während die zugrundeliegenden Rollout-Records (der vollständige Verlauf der Interaktionen zwischen Agent und Umgebung) und die spezifischen Melde-Regeln zur Berechnung dieser Scores verworfen werden.

Diese Fragmentierung führt zu zwei primären Fehlermodi:

Aufzeichnungsfehler: Rollout-Batches werden einmal bewertet und verworfen. Ohne die Rohdaten können spätere Forscher dieselben Episoden nicht erneut analysieren, um Verhaltensweisen zu untersuchen, die im ursprünglichen Bericht ausgelassen wurden (z. B. Sicherheitsverletzungen bei Tool-Aufrufen, Koordinationsaufwand in Multi-Agenten-Systemen) oder neue Perspektiven auf die Daten anzuwenden. Das erneute Durchführen dieser Experimente ist oft aufgrund der steigenden Kosten für die Inferenz von Frontier-Modellen und der schnellen Obsoleszenz von Evaluierungsgerüsten prohibitiv teuer.
Berichtfehler: Melde-Regeln (die Verfahren, die Ansichten von Rollouts in Scores umwandeln) variieren zwischen Frameworks und werden selten offengelegt. Dies führt zu erheblichen Score-Abweichungen bei identischem zugrundeliegendem Verhalten. Die Prüfung der Autoren von 50 populären Repositories ergab, dass keine davon gescheiterte, fehlerhafte oder übersprungene Rollouts neben den Haupt-Scores meldet. Darüber hinaus dokumentierten sie 37 Fälle, in denen unterschiedliche Melde-Regeln (z. B. Token-Buchhaltung, Fehlerbehandlung, Prompt-Vorlagen) zu dramatischen Score-Schwankungen führten, die manchmal die Modell-Rankings oder Erfolgsquoten um mehr als 20 Prozentpunkte veränderten.

Methodik

Die Autoren schlagen eine Verschiebung der Einheit der Reproduzierbarkeit vom „gemeldeten Score" zum Rollout-Record vor, gepaart mit expliziten Deklarationen darüber, wie dieser Record verarbeitet wird.

Die Rollout Card

Der Kernbeitrag ist die Rollout Card, ein Publikationspaket, das als minimal ausreichende Spezifikation konzipiert ist. Sie besteht aus:

Rollout-Record: Ein selbstbeschreibendes Archiv, das den Episodenbeweis enthält: Taskspezifikation, Umgebungsstatus, Agentenaktionen (Nachrichten, Tool-Aufrufe), Artefakte, Timing und Endstatus. Entscheidend ist, dass Fehler als Statusänderungen innerhalb des Records behandelt werden und nicht als Ausnahmen, die die Protokollierung umgehen.
Melde-Regel-Register: Eine Deklaration jeder auf den Record angewandten Ansicht und Melde-Regel zur Generierung eines gemeldeten Scores, einschließlich Implementierungsdetails und Versionen.
Drops-Manifest: Ein typisiertes Record, das spezifiziert, welche Felder, Zeilen oder Ströme von einer bestimmten Analyse gelesen, gefiltert oder zusammengefasst wurden. Dies dokumentiert explizit, welche Informationen weggelassen wurden, und ermöglicht zukünftigen Forschern, die Grenzen einer gemeldeten Ansicht zu verstehen.
Release-Scope-Metadaten: Deklarationen bezüglich Redaktion, Lizenzierung und Zugriffsbeschränkungen.

Die Autoren implementierten eine Referenzspezifikation in ERGON, einem Open-Source-Reinforcement-Learning-Gym, das als leichtgewichtiges Dataset-Adapter dient, um diese Pakete zu validieren, zu mappen und zu exportieren.

Empirische Evaluation

Die Arbeit validiert den Nutzen von Rollout Cards durch zwei retrospektive Experimente unter Verwendung öffentlicher Artefakte:

RQ1 (Wiederverwendbarkeit erhaltener Records): Die Autoren analysierten vier öffentliche Releases (GAP, MAESTRO, COPRA miniF2F-Logs und Tree-of-Thought), die ausreichende Rollout-Beweise bewahrten. Sie führten Sekundäranalysen durch, die in den Originalarbeiten nicht berichtet wurden:
- GAP: Es wurde festgestellt, dass 20,6 % der als „text-sicher" zertifizierten Antworten tatsächlich verbotene Tool-Aufrufe enthielten, ein Fehler, der für rein textbasierte Sicherheits-Scores unsichtbar ist.
- MAESTRO: Es zeigte sich, dass gescheiterte Multi-Agenten-Läufe 5-mal mehr Koordinationsabschnitte und 7-mal mehr Tokens verursachten als erfolgreiche Läufe, was der Annahme widerspricht, dass zusätzliche Zusammenarbeit immer die Ergebnisse verbessert.
- COPRA: Es wurde gezeigt, dass erweiterte Beweis-Suchschritte negativ mit dem Erfolg korrelierten, was darauf hindeutet, dass wiederholte Schritte oft auf gescheiterte Wiederherstellung und nicht auf nützliches Schlussfolgern hinweisen.
- Tree-of-Thought: Es wurde demonstriert, dass Beschneidungsstrategien die finalen Belohnungen erhalten konnten, während die verschwendete Exploration signifikant reduziert wurde – eine Nuance, die allein durch finale Belohnungsmetriken verborgen bleibt.
RQ2 (Auswirkung von Melde-Regeln): Die Autoren hielten Benchmark-Artefakte fest (z. B. GPT-4o-Einreichungen für SWE-bench, Kaggle-Einreichungen für MLE-Bench) und wandelten alternative Melde-Regeln an.
- Die Änderung der Definition von „Erfolg" oder der Behandlung fehlender Patches in SWE-bench veränderte den gemeldeten Fähigkeitsunterschied zwischen Agenten um 2,3 Prozentpunkte.
- Die Änderung des Graders auf $\tau$ -bench kehrte das Ranking der Frontier-Modelle (GPT-4o vs. Claude 3.5 Sonnet) um 16,9 Prozentpunkte um.
- Die Änderung der Medaillen-/Bestehensdefinition für MLE-Bench senkte die Bestehensquote von 34,2 % auf 13,3 % (eine Lücke von 20,9 Punkten).

Hauptbeiträge

Diagnose von Publikationsfehlern: Eine strukturierte Prüfung von 50 Repositories und ein Katalog von 37 Melde-Regel-Abweichungen, die zeigen, dass aktuelle Praktiken Fehler verbergen und den konventionsgetriebenen Charakter von Score-Lücken verschleiern.
Rollout Card-Spezifikation: Ein formaler Publikationsstandard, der den Rollout-Record bewahrt, die angewandten Ansichten und Regeln deklariert und Auslassungen über Drops-Manifeste dokumentiert.
Referenzimplementierung und Datenveröffentlichung: Eine Open-Source-Implementierung in ERGON und die öffentliche Veröffentlichung von 21 Rollout-Card-Exports (17 Trace-Publikations-Exports und 4 analytische/wiederhergestellte-Ansicht-Exports), die Tool-Nutzung, Softwareentwicklung, Sicherheit und Suche abdecken.

Ergebnisse

Wissenschaftliche Wiederverwendung: Erhaltene Rollout-Records ermöglichten die Entdeckung von Sicherheitsfehlern, Koordinationsaufwänden und Suchineffizienzen, die in den ursprünglich gemeldeten Scores nicht sichtbar waren.
Konventionssensitivität: Die Experimente bestätigten, dass Melde-Regeln nicht neutral sind; ihre Änderung bei festem Beweis kann gemeldete Scores um bis zu 20,9 Prozentpunkte verändern und Modell-Rankings invertieren.
Transparenz: Die Rollout-Card-Struktur macht die „Black Box" der Evaluation transparent und ermöglicht es, Uneinigkeiten auf spezifische Berichtswahlentscheidungen zurückzuführen, anstatt auf mehrdeutiges Agentenverhalten.

Bedeutung und Behauptungen

Die Arbeit behauptet, dass die Veröffentlichung nur von Scores nur einen Bruchteil des Werts von Agentenexperimenten extrahiert. Durch die Behandlung von Rollout-Records als Einheit der Reproduzierbarkeit kann die Gemeinschaft:

Das Aufzeichnungsproblem mildern: Neue wissenschaftliche Fragen an bestehende, teure Daten stellen, ohne Frontier-Agenten erneut auszuführen.
Das Berichtproblem mildern: Konventionsgetriebene Score-Änderungen überprüfbar machen und Forschern ermöglichen, zwischen Agentenverhalten und den Regeln zur Aufzeichnung desselben zu unterscheiden.

Die Autoren sind bezüglich des Umfangs bescheiden und stellen fest, dass Rollout Cards keine selektive Metrikauswahl, Datenschutzbeschränkungen oder Redaktionen verhindern. Stattdessen besteht ihre Rolle darin, den Record, die Regel und die Auslassungen überprüfbar zu machen, um sicherzustellen, dass Uneinigkeiten auf bewahrte Beweise, Berichtswahlentscheidungen oder tatsächliches Agentenverhalten zurückgeführt werden können. Die Arbeit zielt darauf ab, zukünftige Forschung, Meta-Analysen und Vergleiche von Melde-Regeln zu unterstützen, ohne neue, teure Frontier-Rollout-Budgets zu erfordern.

Rollout Cards: A Reproducibility Standard for Agent Research