AsymmetryZero: A Framework for Operationalizing Human Expert Preferences as Semantic Evals

Das Papier stellt AsymmetryZero vor, ein Framework, das menschliche Expertenpräferenzen in explizite, wiederverwendbare Evaluierungsverträge für sowohl modellbasierte als auch agentische Umgebungen überführt und zeigt, dass kompakte Jurys trotz höherer interner Dissens vergleichbare Ergebnisebenen auf Aufgabenebene wie Frontier-Jurys erreichen können, während sie die Kosten und Latenzzeiten für die Bewertung erheblich senken.

Ursprüngliche Autoren: Tadhg Looram, Lucas Nuzzi, Kyle Waters, Steven Dillmann

Veröffentlicht 2026-05-07
📖 5 Min. Lesezeit🧠 Tiefgang

Ursprüngliche Autoren: Tadhg Looram, Lucas Nuzzi, Kyle Waters, Steven Dillmann

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst oder gebilligt. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie leiten einen riesigen Kochwettbewerb. Sie haben Tausende von Köchen (KI-Modellen), die versuchen, das perfekte Gericht zu kreieren, doch „perfekt" ist subjektiv. Ein Richter könnte auf das Salz achten, ein anderer auf die Präsentation und ein dritter auf die Garzeit.

In der Vergangenheit war der Versuch, diese Gerichte zu bewerten, chaotisch. Manchmal schrieben Richter nur eine vage Notiz wie „Das schmeckt gut", oder sie stritten endlos darüber, warum ein Gericht besser war als ein anderes. Diese Arbeit stellt ein neues System namens AsymmetryZero vor, um dieses Durcheinander zu beheben, und testet anschließend zwei verschiedene Methoden, Richter einzustellen.

Hier ist die Aufschlüsselung in einfachen Worten:

1. Das Problem: Die Falle des „vagen Richters"

Derzeit fragen wir beim Testen von KI oft eine superintelligente KI, die Arbeit einer anderen KI zu bewerten. Doch wenn Sie einfach sagen: „Bewerte diesen Aufsatz", verwendet der Bewerter möglicherweise seine eigenen versteckten Regeln. Es könnte sein, dass es lange Antworten mag, oder es könnte vom Thema verwirrt werden. Es ist, als würde man einen Food-Kritiker einstellen, der keine Checkliste hat; man weiß nie, ob er das Essen oder nur seine Stimmung bewertet.

2. Die Lösung: Der „Bewertungsvertrag"

Die Autoren haben AsymmetryZero entwickelt, was im Grunde ein strikter Bewertungsrezept ist.

Anstelle eines vagen Prompts kommt jede Aufgabe mit einem „Vertrag". Dieser Vertrag ist wie eine detaillierte Punktekarte, die festlegt:

  • Was bewerten wir? (z. B. „Hat der Koch Salz verwendet?")
  • Wie prüfen wir es? (z. B. „Wenn das Wort ‚Salz' erscheint, geben Sie 10 Punkte.")
  • Wer entscheidet? (Ein einzelner Richter oder eine Gruppe?)
  • Was ist die Bestehensnote?

Dieser Vertrag funktioniert sowohl für einfache KIs (nur Text schreiben) als auch für komplexe KI-Agenten (Roboter, die Werkzeuge nutzen und mehrere Schritte ausführen). Das Tolle daran ist, dass derselbe Vertrag verwendet werden kann, um einen einfachen Text-Bot oder einen komplexen Roboter zu bewerten, und die Ergebnisse sind vergleichbar.

3. Das Experiment: Die „Großen Richter" gegen die „Kleinen Richter"

Die Autoren wollten herausfinden: Brauchen wir teure, superintelligente Richter, um diese Verträge zu bewerten, oder können wir billigere, kleinere Richter einsetzen?

Sie richteten einen Test mit 75 komplexen Aufgaben ein (wie das Lösen fortgeschrittener Mathematik- oder Programmierprobleme). Sie verwendeten vier verschiedene „Teilnehmer"-KI-Modelle, um die Aufgaben zu lösen. Anschließend bewerteten sie diese Lösungen mit zwei verschiedenen Gruppen von „Richter"-KIs:

  • Die Frontier-Jury (Die Großen Richter): Ein Gremium aus 5 der leistungsfähigsten, teuersten und intelligentesten verfügbaren KI-Modelle.
  • Die Compact-Jury (Die Kleinen Richter): Ein Gremium aus 5 kleineren, günstigeren und schnelleren KI-Modellen.

4. Die Ergebnisse: Die „billigeren Richter" sind lauter

Hier ist, was sie herausfanden:

  • Das Endergebnis ist ähnlich: Wenn man alle Punkte zusammenzählt, waren sich die „Großen Richter" und die „Kleinen Richter" normalerweise einig, wer den Wettbewerb gewonnen hat. Wenn eine Aufgabe für die Großen Richter bestanden war, bestand sie in der Regel auch für die Kleinen Richter.
  • Die Details sind chaotisch: Wenn man jedoch die einzelnen Schritte betrachtet (die spezifischen Kriterien auf der Punktekarte), stimmten die Kleinen Richter in 15 % bis 25 % der Fälle nicht mit den Großen Richtern überein.
  • Das Problem des „Fingerzeigens": Das größte Problem war, dass sich die Kleinen Richter nicht einmal untereinander einig waren.
    • Die Großen Richter waren wie ein ruhiges Komitee; sie waren sich fast immer einig (nur in 6–11 % der Fälle waren sie gespalten).
    • Die Kleinen Richter waren wie ein chaotischer Raum; sie stritten ständig miteinander (sie spalteten sich in 3 gegen 2 in etwa 30 % der Fälle).

Die Analogie: Stellen Sie sich vor, Sie bewerten einen Mathe-Test.

  • Große Richter: Alle fünf Professoren schauen sich die Antwort an und sagen: „Ja, das ist korrekt."
  • Kleine Richter: Drei Professoren sagen „Korrekt", aber zwei sagen „Falsch, weil die Handschrift unleserlich ist", obwohl die Mathematik stimmt. Sie streiten mit sich selbst.

5. Der Kompromiss: Kosten gegen Konsistenz

Die Kleinen Richter waren unglaublich günstig und schnell.

  • Kosten: Sie kosteten etwa 97 % weniger als die Großen Richter.
  • Geschwindigkeit: Sie waren etwa 82 % schneller.

Das Urteil:
Wenn Sie nur einen schnellen, billigen Check wollen, um zu sehen, ob ein System im Allgemeinen funktioniert (wie ein „Realitätscheck"), sind die Kleinen Richter großartig. Sie sparen ein Vermögen.

Aber wenn Sie genau wissen müssen, warum etwas gescheitert ist, oder wenn Sie einen perfekten Prüfpfad für Entscheidungen mit hohem Risiko benötigen, sind die Kleinen Richter zu „laut". Sie streiten zu sehr untereinander, um für die feinen Details vertrauenswürdig zu sein.

Zusammenfassung

Die Arbeit argumentiert, dass wie Sie die Bewertungsregeln schreiben (der Vertrag) genauso wichtig ist wie wen Sie zur Bewertung einstellen.

Sie können viel Geld sparen, indem Sie kleinere, günstigere KI-Richter einsetzen, aber Sie müssen akzeptieren, dass sie häufiger miteinander streiten. Wenn Sie ein ruhiges, konsistentes Urteil benötigen, brauchen Sie immer noch die teuren, „Frontier"-Richter. Wenn Sie nur eine grobe Schätzung benötigen, reichen die billigen aus.

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →