Ursprüngliche Autoren: Tadhg Looram, Lucas Nuzzi, Kyle Waters, Steven Dillmann

Veröffentlicht 2026-05-07

📖 5 Min. Lesezeit🧠 Tiefgang

Ursprüngliche Autoren: Tadhg Looram, Lucas Nuzzi, Kyle Waters, Steven Dillmann

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst oder gebilligt. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie leiten einen riesigen Kochwettbewerb. Sie haben Tausende von Köchen (KI-Modellen), die versuchen, das perfekte Gericht zu kreieren, doch „perfekt" ist subjektiv. Ein Richter könnte auf das Salz achten, ein anderer auf die Präsentation und ein dritter auf die Garzeit.

In der Vergangenheit war der Versuch, diese Gerichte zu bewerten, chaotisch. Manchmal schrieben Richter nur eine vage Notiz wie „Das schmeckt gut", oder sie stritten endlos darüber, warum ein Gericht besser war als ein anderes. Diese Arbeit stellt ein neues System namens AsymmetryZero vor, um dieses Durcheinander zu beheben, und testet anschließend zwei verschiedene Methoden, Richter einzustellen.

Hier ist die Aufschlüsselung in einfachen Worten:

1. Das Problem: Die Falle des „vagen Richters"

Derzeit fragen wir beim Testen von KI oft eine superintelligente KI, die Arbeit einer anderen KI zu bewerten. Doch wenn Sie einfach sagen: „Bewerte diesen Aufsatz", verwendet der Bewerter möglicherweise seine eigenen versteckten Regeln. Es könnte sein, dass es lange Antworten mag, oder es könnte vom Thema verwirrt werden. Es ist, als würde man einen Food-Kritiker einstellen, der keine Checkliste hat; man weiß nie, ob er das Essen oder nur seine Stimmung bewertet.

2. Die Lösung: Der „Bewertungsvertrag"

Die Autoren haben AsymmetryZero entwickelt, was im Grunde ein strikter Bewertungsrezept ist.

Anstelle eines vagen Prompts kommt jede Aufgabe mit einem „Vertrag". Dieser Vertrag ist wie eine detaillierte Punktekarte, die festlegt:

Was bewerten wir? (z. B. „Hat der Koch Salz verwendet?")
Wie prüfen wir es? (z. B. „Wenn das Wort ‚Salz' erscheint, geben Sie 10 Punkte.")
Wer entscheidet? (Ein einzelner Richter oder eine Gruppe?)
Was ist die Bestehensnote?

Dieser Vertrag funktioniert sowohl für einfache KIs (nur Text schreiben) als auch für komplexe KI-Agenten (Roboter, die Werkzeuge nutzen und mehrere Schritte ausführen). Das Tolle daran ist, dass derselbe Vertrag verwendet werden kann, um einen einfachen Text-Bot oder einen komplexen Roboter zu bewerten, und die Ergebnisse sind vergleichbar.

3. Das Experiment: Die „Großen Richter" gegen die „Kleinen Richter"

Die Autoren wollten herausfinden: Brauchen wir teure, superintelligente Richter, um diese Verträge zu bewerten, oder können wir billigere, kleinere Richter einsetzen?

Sie richteten einen Test mit 75 komplexen Aufgaben ein (wie das Lösen fortgeschrittener Mathematik- oder Programmierprobleme). Sie verwendeten vier verschiedene „Teilnehmer"-KI-Modelle, um die Aufgaben zu lösen. Anschließend bewerteten sie diese Lösungen mit zwei verschiedenen Gruppen von „Richter"-KIs:

Die Frontier-Jury (Die Großen Richter): Ein Gremium aus 5 der leistungsfähigsten, teuersten und intelligentesten verfügbaren KI-Modelle.
Die Compact-Jury (Die Kleinen Richter): Ein Gremium aus 5 kleineren, günstigeren und schnelleren KI-Modellen.

4. Die Ergebnisse: Die „billigeren Richter" sind lauter

Hier ist, was sie herausfanden:

Das Endergebnis ist ähnlich: Wenn man alle Punkte zusammenzählt, waren sich die „Großen Richter" und die „Kleinen Richter" normalerweise einig, wer den Wettbewerb gewonnen hat. Wenn eine Aufgabe für die Großen Richter bestanden war, bestand sie in der Regel auch für die Kleinen Richter.
Die Details sind chaotisch: Wenn man jedoch die einzelnen Schritte betrachtet (die spezifischen Kriterien auf der Punktekarte), stimmten die Kleinen Richter in 15 % bis 25 % der Fälle nicht mit den Großen Richtern überein.
Das Problem des „Fingerzeigens": Das größte Problem war, dass sich die Kleinen Richter nicht einmal untereinander einig waren.
- Die Großen Richter waren wie ein ruhiges Komitee; sie waren sich fast immer einig (nur in 6–11 % der Fälle waren sie gespalten).
- Die Kleinen Richter waren wie ein chaotischer Raum; sie stritten ständig miteinander (sie spalteten sich in 3 gegen 2 in etwa 30 % der Fälle).

Die Analogie: Stellen Sie sich vor, Sie bewerten einen Mathe-Test.

Große Richter: Alle fünf Professoren schauen sich die Antwort an und sagen: „Ja, das ist korrekt."
Kleine Richter: Drei Professoren sagen „Korrekt", aber zwei sagen „Falsch, weil die Handschrift unleserlich ist", obwohl die Mathematik stimmt. Sie streiten mit sich selbst.

5. Der Kompromiss: Kosten gegen Konsistenz

Die Kleinen Richter waren unglaublich günstig und schnell.

Kosten: Sie kosteten etwa 97 % weniger als die Großen Richter.
Geschwindigkeit: Sie waren etwa 82 % schneller.

Das Urteil:
Wenn Sie nur einen schnellen, billigen Check wollen, um zu sehen, ob ein System im Allgemeinen funktioniert (wie ein „Realitätscheck"), sind die Kleinen Richter großartig. Sie sparen ein Vermögen.

Aber wenn Sie genau wissen müssen, warum etwas gescheitert ist, oder wenn Sie einen perfekten Prüfpfad für Entscheidungen mit hohem Risiko benötigen, sind die Kleinen Richter zu „laut". Sie streiten zu sehr untereinander, um für die feinen Details vertrauenswürdig zu sein.

Zusammenfassung

Die Arbeit argumentiert, dass wie Sie die Bewertungsregeln schreiben (der Vertrag) genauso wichtig ist wie wen Sie zur Bewertung einstellen.

Sie können viel Geld sparen, indem Sie kleinere, günstigere KI-Richter einsetzen, aber Sie müssen akzeptieren, dass sie häufiger miteinander streiten. Wenn Sie ein ruhiges, konsistentes Urteil benötigen, brauchen Sie immer noch die teuren, „Frontier"-Richter. Wenn Sie nur eine grobe Schätzung benötigen, reichen die billigen aus.

Each language version is independently generated for its own context, not a direct translation.

Technische Zusammenfassung: AsymmetryZero

Problemstellung

Das Papier identifiziert eine kritische Lücke in aktuellen Reinforcement-Learning-(RL-) und KI-Evaluierungspipelines: die Schwierigkeit, subjektive, prozedurale und domänenspezifische Anforderungen menschlicher Experten in skalierbare Evaluierungssignale zu operationalisieren. Während exakte Übereinstimmungsmetriken für deterministische Aufgaben ausreichen, versagen sie bei semantischen, mehrfaktoriellen oder offenen Aufgaben. Umgekehrt lässt das offene Bewerten durch Large Language Models (LLMs) Bewertungsrichtlinien oft implizit in den Prompts zurück, was zu Instabilität und mangelnder Überprüfbarkeit führt. Die Autoren argumentieren, dass die zentrale Herausforderung beim Nachtrainieren nicht lediglich das Bewerten von Modellen ist, sondern die treue Kodierung von Expertenanforderungen in die Evaluierung selbst.

Methodik: Das AsymmetryZero-Framework

Um dies zu adressieren, stellen die Autoren AsymmetryZero vor, ein Framework, das menschliche Expertenpräferenzen als semantische Evaluierungen über einen stabilen Evaluierungsvertrag operationalisiert.

Kernkomponenten

Evaluierungsverträge: Anstelle eines einzelnen Prompts oder eines Antwortschlüssels wird eine Aufgabe als portabler Vertrag definiert, der Ausführungseingaben (Prompts, Referenzen) von Bewertungseingaben (Kriterien, Gewichte, Schwellenwerte) trennt.
- Struktur: Jedes Kriterium deklariert explizit sein Gewicht, seinen Prompt und seinen Bewertertyp (entweder ExactMatch oder llm-judge).
- Aggregation: Entscheidungen auf Kriterienebene werden zu einer Aufgabenscore aggregiert ( $S = \sum w_i \hat{v}_i$ ). Eine Aufgabe besteht, wenn $S \ge \tau$ .
- Jury-Konsens: Für llm-judge-Kriterien stimmt ein Gremium von Bewertern ( $J_i$ ) ab. Der Konsens wird durch strikte Mehrheit bestimmt ( $\hat{v}_i = 1$ , wenn $\sum v_{ij} > |J_i|/2$ ); Pattsituationen führen zum Durchfall.
Duale Ausführungsharnesses: Das Framework entkoppelt Evaluierungssemantik von der Ausführung:
- Inspect: Wird für Modell-nur-Evaluierungen verwendet.
- Harbor: Wird für agentische Evaluierungen verwendet (speziell unter Verwendung eines terminus2-Agents).
- Beide Harnesses konsumieren denselben Vertrag, was vergleichbare Scores und gemeinsame Überprüfbarkeitsartefakte über Modell- und Agentenausgaben hinweg sicherstellt.
Überprüfbarkeit: Das System generiert detaillierte Spuren, die Ergebnisse pro Kriterium, Bewerterstimmen, Begründungen und Gewichtsbeiträge aufzeichnen und ermöglichen so die Analyse von Fehlermodi und Dissens.

Empirische Studie: Bewertungskapazität und Substitution

Das Papier präsentiert eine empirische Studie unter Verwendung des PORTEX-COMPOSITE-Benchmark, um zu beantworten, ob kleinere, günstigere „kompakte" Jurys teure „Frontier"-Jurys ersetzen können, ohne die Integrität der Evaluierung zu beeinträchtigen.

Experimentelles Setup

Aufgabe: 75 Frontier-Klassen-Aufgaben, evaluiert über vier Solver-Modelle (Claude Opus 4.6, GPT-5.4, Grok-4.20, Gemini-3.1-Pro).
Jury-Bedingungen:
- Frontier-Jury: 5 große, state-of-the-art Open-Weight-Modelle.
- Kompakte Jury: 5 kleinere Open-Weight-Modelle.
Metriken: Übereinstimmung auf Kriterienebene, Dissens innerhalb des Pools (Dissensraten), Stabilität des Aufgabenscores und wirtschaftliche Effizienz (Kosten, Latenz, Tokens).

Wichtige Ergebnisse

Divergenz auf Kriterienebene: Kompakte und Frontier-Jurys stimmen nicht perfekt überein.
- Mehrheitsübereinstimmung: Reicht von 75,9 % bis 89,6 % über die Durchläufe hinweg (strikter gemeinsamer Teil: 77,8 %–92,1 %).
- Implikation: Der Ersatz kompakter Bewerter verändert einen nicht-trivialen Anteil der semantischen Kriteriumsentscheidungen.
Interner Dissens (Stabilität): Kompakte Jurys weisen eine signifikant höhere interne Instabilität auf.
- 3–2-Splits: Frontier-Jurys hatten durchschnittlich 6,1 %–11,5 % Split-Raten, wohingegen kompakte Jurys durchschnittlich 28,7 %–32,4 % aufwiesen.
- Fazit: Kompakte Jurys stimmen weniger mit Frontier-Jurys überein und weniger untereinander.
Stabilität auf Aufgabenebene: Trotz der Divergenz auf Kriterienebene sind aggregierte Aufgabenergebnisse oft ähnlich.
- Korrelation: Die Pearson-Korrelation zwischen Frontier- und Kompakt-Aufgabenscores beträgt 0,88 (Bereich 0,81–0,93).
- Score-Änderung: 70 %–87 % der bewerteten Aufgaben zeigten keine Score-Änderung zwischen den Pools.
- Nuance: Die Stabilität erscheint „brüchig" und beruht auf der Aufhebung von Fehlern in gewichteten Summen rather als auf einer konsistenten Bewertung auf Kriterienebene.
Wirtschaftliche Effizienz: Kompakte Jurys bieten massive Effizienzgewinne.
- Kosten: Reduziert um ~97 % pro Kriterium.
- Latenz: Reduziert um ~82 %.
- Tokens: Ausgabepokens reduziert um ~75 %.
Analyse der Uneinigkeit:
- Antwortlänge: Obwohl längere Antworten mit höherer Uneinigkeit korrelieren, fand die statistische Modellierung (ordinales gemischtes Modell) keine starken Belege dafür, dass kompakte Jurys empfindlicher auf Länge reagieren als Frontier-Jurys. Der Haupttreiber der Uneinigkeit ist der Pool-Typ selbst (kompakte Pools sind inhärent verrauschter).
- Fehlermodi: Qualitative Überprüfungen deuten darauf hin, dass kompakte Jurys aus denselben Gründen versagen wie Frontier-Jurys (z. B. Literalismus vs. Substanz), aber Standards weniger einheitlich anwenden.

Wichtige Beiträge

Operatives Framework: AsymmetryZero bietet ein konkretes System, um Expertenwissen in überprüfbare, ausführbare Evaluierungsverträge zu verwandeln, die sowohl für Modelle als auch für Agenten funktionieren.
Rubrikbasierte semantische Bewertung: Es geht über offene Prompting hinaus hin zu strukturierter, kriterienzentrierter Bewertung mit expliziten Aggregationsregeln.
Empirische Evidenz zur Bewertungskapazität: Die Studie liefert datengestützte Belege dafür, dass kompakte Jurys zwar für die Überwachung mit hohem Durchsatz wirtschaftlich tragfähig sind, aber für kriterienüberprüfbare Evaluierungen aufgrund höherer Varianz und internen Dissens noch nicht entscheidungsgleich mit Frontier-Jurys sind.

Bedeutung und Behauptungen

Das Papier behauptet, dass die Zuverlässigkeit der Evaluierung ebenso sehr vom Vertrag abhängt wie vom Bewerter.

Für Praktiker: Das Framework ermöglicht es Organisationen, die Definition von „was zählt" (der Vertrag) von „wie viel es kostet" (die Auswahl des Bewerter) zu trennen.
Strategische Einsicht: Kompakte Jurys eignen sich für kostengünstige Ergebnisüberwachung, bei der finale Aufgabenscores wichtiger sind als spezifische Kriterienspuren. Für hochriskante Entscheidungen, die eine Überprüfbarkeit auf Kriterienebene erfordern, bleiben Frontier-Jurys aufgrund ihres überlegenen internen Konsenses die Standardwahl.
Zukunftsrichtung: Die Autoren schlagen vor, dass die Lücke zwischen dem Verhalten kompakter und Frontier-Systeme durch on-policy-Distillation (Training kompakter Evaluierer, um Frontier-Jury-Entscheidungen nachzuahmen) verringert werden könnte, dies jedoch als zukünftige Arbeit identifiziert wird und keine aktuelle Fähigkeit darstellt.

Die Autoren bleiben bescheiden und stellen fest, dass ihre Studie die Vergleichbarkeit zwischen Jurys bewertet, nicht die absolute Richtigkeit gegenüber menschlichen Ground Truths, und dass die Ergebnisse spezifisch für die getesteten STEM-orientierten Aufgaben und die Harbor-Agent-Konfiguration sind.

AsymmetryZero: A Framework for Operationalizing Human Expert Preferences as Semantic Evals