One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

Das Paper stellt One-Eval vor, ein agentisches System, das natürliche Sprachanfragen in ausführbare, nachvollziehbare und anpassbare Evaluierungsworkflows für Large Language Models umwandelt, um manuelle Aufwände zu reduzieren und die Reproduzierbarkeit in industriellen Anwendungen zu verbessern.

Chengyu Shen, Yanheng Hou, Minghui Pan, Runming He, Zhen Hao Wong, Meiyi Qiang, Zhou Liu, Hao Liang, Peichao Lai, Zeang Sheng, Wentao Zhang

Veröffentlicht Wed, 11 Ma
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr klugen, aber manchmal etwas verwirrten Assistenten (das ist dein KI-Modell), und du möchtest wissen, ob er wirklich gut ist. Früher war es so, als würdest du ihn auf eine Prüfung schicken: Du musstest selbst die Prüfungsfragen aussuchen, die Zeit stoppen, die Antworten korrigieren und am Ende eine Note ausrechnen. Das war mühsam, dauerte ewig und wenn du einen Fehler gemacht hast, war das ganze Ergebnis wertlos.

Das Papier stellt One-Eval vor. Das ist wie ein super-organisierter, selbstständiger Butler, der diese ganze Prüfung für dich durchführt. Du sagst ihm nur ganz einfach: "Hey, prüf mal, ob mein KI-Assistent gut Mathe kann und logisch denkt." Und One-Eval erledigt den Rest.

Hier ist, wie das funktioniert, aufgeteilt in drei einfache Schritte mit ein paar Bildern:

1. Der Übersetzer (NL2Bench)

Stell dir vor, du sagst zu einem Dolmetscher: "Ich will wissen, ob mein Freund gut Kochen kann."
Der Dolmetscher (One-Eval) versteht nicht nur deine Worte, sondern denkt mit: "Ah, 'Kochen' bedeutet, wir brauchen Tests für Schneiden, Braten und Gewürze. Ich suche also die besten Kochbücher und Rezepte, die dazu passen."

  • Was es macht: Es nimmt deine lockere Sprache und verwandelt sie in einen genauen Plan. Es sucht automatisch nach den passenden "Prüfungsaufgaben" (Benchmarks) aus einer riesigen Bibliothek.
  • Der Clou: Es fragt dich sogar: "Soll ich wirklich nur Mathe testen oder auch Logik?" Wenn du sagst "Ja, beides", passt es den Plan sofort an. Es ist wie ein Freund, der mit dir plant, statt einfach nur Befehle auszuführen.

2. Der Vorbereiter (BenchResolve)

Jetzt, wo der Plan steht, muss alles bereitgemacht werden. Früher hast du dich geärgert: "Oh, diese Matheaufgabe ist in einem anderen Format als die andere, ich muss alles umschreiben!"

  • Was es macht: One-Eval ist wie ein Universal-Adapter. Es holt sich die Prüfungsfragen, lädt sie herunter und macht sie alle gleichmäßig. Egal ob die Fragen auf Deutsch, Englisch oder in einem seltsamen Format sind – One-Eval schraubt sie alle in das gleiche "Prüfungs-Format", damit der KI-Assistent sie verstehen kann.
  • Der Clou: Es überprüft, ob alles funktioniert, bevor es losgeht. Es ist wie ein Mechaniker, der den Motor prüft, bevor das Rennen startet, damit nichts kaputtgeht.

3. Der Analytiker (Metrics & Reporting)

Früher hast du am Ende nur eine Zahl gesehen: "Note: 85/100". Das sagt dir nicht, warum er 15 Punkte verloren hat. War er faul? Hat er die Frage missverstanden?

  • Was es macht: One-Eval schreibt keinen langen, langweiligen Bericht mit nur einer Zahl. Es erstellt einen diagnostischen Gesundheitsbericht.
    • "Dein Assistent ist super im Rechnen, aber er halluziniert oft, wenn es um Geometrie geht."
    • "Er versteht die Anweisungen, aber seine Antworten sind zu lang."
  • Der Clou: Es gibt dir nicht nur die Note, sondern Handlungsempfehlungen. Es sagt dir genau, wo du nachbessern musst, damit dein KI-Assistent besser wird.

Der Sicherheitsgurt (Human-in-the-Loop)

Das Wichtigste: One-Eval ist nicht blind. Es ist wie ein Flugzeug mit einem Co-Piloten.
Wenn One-Eval einen Plan macht, hält es kurz an und fragt dich: "Ich habe diese drei Prüfungen ausgewählt. Passt das?"

  • Wenn du sagst "Ja", fliegt es weiter.
  • Wenn du sagst "Nein, das ist zu schwer", ändert es den Plan sofort.
  • Es merkt sich jeden Schritt. Wenn später jemand fragt: "Warum hast du diese Note gegeben?", kann One-Eval den ganzen Weg zurückverfolgen, wie es zu diesem Ergebnis kam.

Warum ist das so toll?

Stell dir vor, du betreibst eine große Fabrik (ein Unternehmen), die KI-Modelle herstellt.

  • Ohne One-Eval: Du musstest jeden Monat 10 Leute einstellen, die stundenlang Prüfungen suchen, Daten herunterladen und Excel-Tabellen füllen.
  • Mit One-Eval: Du sagst nur einen Satz, und der Butler erledigt die ganze Arbeit in Minuten. Er ist schneller, macht keine Flüchtigkeitsfehler und liefert dir genau die Informationen, die du brauchst, um Entscheidungen zu treffen.

Zusammengefasst: One-Eval ist der Schlüssel, der die komplizierte Welt der KI-Prüfungen für jeden zugänglich macht. Es verwandelt das Chaos aus Code, Daten und Formaten in eine einfache, verständliche Geschichte über die Stärken und Schwächen deiner KI.