Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen
Stellen Sie sich vor, Sie sind ein Gastronomiekritiker, der ein neues Restaurant bewertet. Der Küchenchef überreicht Ihnen eine Bewertungskarte mit der Aufschrift: „Dieses Menü ist eine 9,5 von 10." Doch der Chef verweigert es, Ihnen das tatsächliche Essen, das Rezept oder die Notizen zu zeigen, wie er zu dieser Bewertung gelangt ist. Er sagt lediglich: „Vertrauen Sie mir, es ist eine 9,5."
Stellen Sie sich nun einen anderen Kritiker vor, der exakt dasselbe Menü probiert, ihm aber eine 6,0 gibt. Ohne das Essen oder das Rezept zu sehen, haben Sie keine Möglichkeit zu wissen, wer recht hat. Hat der erste Kritiker eine andere Skala verwendet? Hat er den verbrannten Toast ignoriert? Hat er das Dessert als Teil des Hauptgangs gezählt?
Genau dieses Problem wollen Rollout Cards (Durchlaufkarten) in der Welt der KI-Agenten (intelligente Computerprogramme, die Aufgaben wie das Schreiben von Code, das Durchsuchen des Webs oder das Lösen von Matheaufgaben übernehmen) lösen.
Hier ist eine einfache Aufschlüsselung dessen, was die Arbeit sagt, unter Verwendung alltäglicher Analogien:
Das Problem: Die „Black-Box"-Bewertung
Derzeit teilen Forscher, wenn sie Ergebnisse über KI-Agenten veröffentlichen, in der Regel nur die Endbewertung (die „9,5") mit. Sie werfen den Durchlaufdatensatz (Rollout Record) weg.
- Der Durchlaufdatensatz: Denken Sie daran als die komplette Videoaufnahme der KI, wie sie die Aufgabe ausführt. Er enthält jeden Schritt, den sie unternahm, jedes Werkzeug, auf das sie klickte, jeden Fehler, den sie machte, wie lange sie brauchte und ob sie abstürzte oder stecken blieb.
- Das Problem: Unterschiedliche Forschungsteams verwenden unterschiedliche „Regeln", um aus diesem Video eine Bewertung zu machen.
- Team A könnte sagen: „Wenn die KI abstürzt, ignorieren wir diesen Versuch."
- Team B könnte sagen: „Wenn die KI abstürzt, zählt das als Null."
- Team C könnte sagen: „Wir zählen nur die endgültige Antwort und ignorieren die 50 Schritte, die nötig waren, um dorthin zu gelangen."
Die Arbeit ergab, dass keines der 50 populären KI-Forschungs-Repositories, die sie prüften, angab, wie viele Versuche fehlgeschlagen oder abgestürzt waren, neben ihrer Hauptbewertung. Es ist, als würde ein Sportteam sagen: „Wir haben 3 Spiele gewonnen!", aber verschweigt, dass sie 10 Spiele verloren haben und nur die 3 gewonnenen gezählt wurden.
Die Beweise: Regeln verändern das Spiel
Die Autoren auditierten 50 verschiedene KI-Tools und fanden 37 spezifische Fälle, in denen eine Änderung des „Regelwerks" die Bewertung vollständig veränderte, obwohl die KI exakt dasselbe tat.
- Das „MMLU"-Beispiel: Dasselbe KI-Modell (LLaMA-65B) erhielt unter einem Regelsatz eine Bewertung von 63,7 und unter einem anderen eine von 48,8. Das ist ein riesiger Unterschied, nur aufgrund der Art und Weise, wie die Bewertung berechnet wurde, nicht weil sich die KI verändert hat.
- Das „SWE-bench"-Beispiel: Bei Softwareentwicklungs-Aufgaben änderte sich die Erfolgsrate um 15,6 Prozentpunkte, je nachdem, ob man „gescheiterte Versuche" als Teil des Gesamten zählte oder wegwarf.
- Das „MLE-Bench"-Beispiel: Je nachdem, ob man einen „Erfolg" als Gewinn einer Goldmedaille oder nur als bestandene Note definiert, sank die Erfolgsrate derselben KI-Einreichungen von 34,2 % auf 13,3 %.
Die Arbeit argumentiert, dass wir ohne die Videoaufnahme (den Durchlauf) nicht sagen können, ob die KI tatsächlich besser ist oder ob der Forscher einfach ein nachsichtigeres Regelwerk verwendet hat.
Die Lösung: Die „Rollout Card"
Um dies zu beheben, schlagen die Autoren einen neuen Standard vor, der Rollout Card genannt wird.
Stellen Sie sich eine Rollout Card wie eine durchsichtige, manipulationssichere Rezeptbox vor, die Sie Ihrem fertigen Gericht beilegen müssen. Sie enthält:
- Das vollständige Video: Die vollständige Aufzeichnung der Aktionen, Fehler und Zeitangaben der KI.
- Das Regelwerk: Eine klare Erklärung, genau wie die Bewertung berechnet wurde (z. B. „Wir haben Abstürze ignoriert" oder „Wir haben jedes Token gezählt").
- Die Liste der „fehlenden Teile": Ein ehrlicher Hinweis mit der Aussage: „Wir konnten das vollständige Video nicht teilen, wegen des Datenschutzes, also hier ist genau das, was wir herausgeschnitten haben."
Dies ermöglicht es anderen Wissenschaftlern, dasselbe Video anzusehen und andere Fragen zu stellen. Vielleicht interessierte sich das Originalpapier nur für „Hat es die Aufgabe abgeschlossen?", aber ein neuer Forscher möchte fragen: „Hat es zu viel Geld verbraucht?" oder „Hat es gefährliche Werkzeugaufrufe getätigt?" Mit der Rollout Card können sie diese Fragen beantworten, ohne das teure Experiment noch einmal durchführen zu müssen.
Was sie tatsächlich getan haben (Die Experimente)
Die Autoren haben nicht nur darüber gesprochen; sie haben es mit echten Daten getestet:
Wiederentdeckung versteckter Erkenntnisse: Sie nahmen vier bestehende öffentliche Datensätze (von Tools wie GAP, MAESTRO, COPRA und Tree-of-Thought), die zuvor veröffentlicht worden waren. Durch Anwendung der Rollout-Card-Methode fanden sie neue Fakten, die die Originalarbeiten übersehen hatten.
- Beispiel: Sie fanden heraus, dass 20 % der KI-Antworten, die im Text „sicher" aussahen, im Hintergrund verbotene Werkzeugaufrufe tätigten. Die ursprüngliche Bewertung verpasste dies, da sie nur den Text betrachtete.
- Beispiel: Sie fanden heraus, dass bei Multi-Agenten-Teams „Fehlschläge" tatsächlich viel mehr Koordinationsarbeit beinhalteten als „Erfolge", was darauf hindeutet, dass zusätzliche Arbeit nicht immer bessere Antworten bedeutet.
Neubewertung derselben Arbeit: Sie nahmen öffentliche KI-Einreichungen (wie Code-Patches oder Mathe-Antworten) und bewerteten sie mit unterschiedlichen Regelwerken neu.
- Ergebnis: Eine Änderung nur der Bewertungsregel veränderte die gemeldeten Bewertungen um bis zu 20,9 Prozentpunkte. In einigen Fällen kehrte sie die Rangfolge um und ließ eine „schlechtere" KI nur wegen geänderter Regeln wie den „Gewinner" aussehen.
Das Fazit
Die Arbeit kommt zu dem Schluss, dass die Veröffentlichung nur einer Bewertung wie die Veröffentlichung einer Abschlussnote ohne das Prüfungspapier ist. Sie verschleiert die Details, die wichtig sind.
Durch die Einführung von Rollout Cards wollen die Autoren die KI-Forschung reproduzierbar machen. Sie haben bereits ein kostenloses, quelloffenes Tool (genannt ERGON) und 21 öffentliche Datensätze (Rollout Cards) veröffentlicht, die Aufgaben wie Softwareentwicklung, Web-Surfen und Mathematik abdecken. Dies ermöglicht es jedem, die „Videoaufnahme" hinter den Bewertungen zu prüfen und sicherzustellen, dass wir, wenn wir sagen, eine KI sei intelligent, tatsächlich wissen, warum und wie wir sie gemessen haben.
Was die Arbeit NICHT behauptet:
- Sie behauptet nicht, dass dies die KI allein sicherer oder leistungsfähiger macht.
- Sie behauptet nicht, dass dies alle Datenschutzprobleme löst (Sie müssen immer noch entscheiden, was Sie verbergen).
- Sie behauptet nicht, dass dies eine neue Art ist, KI zu trainieren; es ist eine neue Art, die Ergebnisse des KI-Trainings zu berichten und zu auditorieren.
Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?
Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.