One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr klugen, aber manchmal etwas verwirrten Assistenten (das ist dein KI-Modell), und du möchtest wissen, ob er wirklich gut ist. Früher war es so, als würdest du ihn auf eine Prüfung schicken: Du musstest selbst die Prüfungsfragen aussuchen, die Zeit stoppen, die Antworten korrigieren und am Ende eine Note ausrechnen. Das war mühsam, dauerte ewig und wenn du einen Fehler gemacht hast, war das ganze Ergebnis wertlos.

Das Papier stellt One-Eval vor. Das ist wie ein super-organisierter, selbstständiger Butler, der diese ganze Prüfung für dich durchführt. Du sagst ihm nur ganz einfach: "Hey, prüf mal, ob mein KI-Assistent gut Mathe kann und logisch denkt." Und One-Eval erledigt den Rest.

Hier ist, wie das funktioniert, aufgeteilt in drei einfache Schritte mit ein paar Bildern:

1. Der Übersetzer (NL2Bench)

Stell dir vor, du sagst zu einem Dolmetscher: "Ich will wissen, ob mein Freund gut Kochen kann."
Der Dolmetscher (One-Eval) versteht nicht nur deine Worte, sondern denkt mit: "Ah, 'Kochen' bedeutet, wir brauchen Tests für Schneiden, Braten und Gewürze. Ich suche also die besten Kochbücher und Rezepte, die dazu passen."

Was es macht: Es nimmt deine lockere Sprache und verwandelt sie in einen genauen Plan. Es sucht automatisch nach den passenden "Prüfungsaufgaben" (Benchmarks) aus einer riesigen Bibliothek.
Der Clou: Es fragt dich sogar: "Soll ich wirklich nur Mathe testen oder auch Logik?" Wenn du sagst "Ja, beides", passt es den Plan sofort an. Es ist wie ein Freund, der mit dir plant, statt einfach nur Befehle auszuführen.

2. Der Vorbereiter (BenchResolve)

Jetzt, wo der Plan steht, muss alles bereitgemacht werden. Früher hast du dich geärgert: "Oh, diese Matheaufgabe ist in einem anderen Format als die andere, ich muss alles umschreiben!"

Was es macht: One-Eval ist wie ein Universal-Adapter. Es holt sich die Prüfungsfragen, lädt sie herunter und macht sie alle gleichmäßig. Egal ob die Fragen auf Deutsch, Englisch oder in einem seltsamen Format sind – One-Eval schraubt sie alle in das gleiche "Prüfungs-Format", damit der KI-Assistent sie verstehen kann.
Der Clou: Es überprüft, ob alles funktioniert, bevor es losgeht. Es ist wie ein Mechaniker, der den Motor prüft, bevor das Rennen startet, damit nichts kaputtgeht.

3. Der Analytiker (Metrics & Reporting)

Früher hast du am Ende nur eine Zahl gesehen: "Note: 85/100". Das sagt dir nicht, warum er 15 Punkte verloren hat. War er faul? Hat er die Frage missverstanden?

Was es macht: One-Eval schreibt keinen langen, langweiligen Bericht mit nur einer Zahl. Es erstellt einen diagnostischen Gesundheitsbericht.
- "Dein Assistent ist super im Rechnen, aber er halluziniert oft, wenn es um Geometrie geht."
- "Er versteht die Anweisungen, aber seine Antworten sind zu lang."
Der Clou: Es gibt dir nicht nur die Note, sondern Handlungsempfehlungen. Es sagt dir genau, wo du nachbessern musst, damit dein KI-Assistent besser wird.

Der Sicherheitsgurt (Human-in-the-Loop)

Das Wichtigste: One-Eval ist nicht blind. Es ist wie ein Flugzeug mit einem Co-Piloten.
Wenn One-Eval einen Plan macht, hält es kurz an und fragt dich: "Ich habe diese drei Prüfungen ausgewählt. Passt das?"

Wenn du sagst "Ja", fliegt es weiter.
Wenn du sagst "Nein, das ist zu schwer", ändert es den Plan sofort.
Es merkt sich jeden Schritt. Wenn später jemand fragt: "Warum hast du diese Note gegeben?", kann One-Eval den ganzen Weg zurückverfolgen, wie es zu diesem Ergebnis kam.

Warum ist das so toll?

Stell dir vor, du betreibst eine große Fabrik (ein Unternehmen), die KI-Modelle herstellt.

Ohne One-Eval: Du musstest jeden Monat 10 Leute einstellen, die stundenlang Prüfungen suchen, Daten herunterladen und Excel-Tabellen füllen.
Mit One-Eval: Du sagst nur einen Satz, und der Butler erledigt die ganze Arbeit in Minuten. Er ist schneller, macht keine Flüchtigkeitsfehler und liefert dir genau die Informationen, die du brauchst, um Entscheidungen zu treffen.

Zusammengefasst: One-Eval ist der Schlüssel, der die komplizierte Welt der KI-Prüfungen für jeden zugänglich macht. Es verwandelt das Chaos aus Code, Daten und Formaten in eine einfache, verständliche Geschichte über die Stärken und Schwächen deiner KI.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „One-Eval: An Agentic System for Automated and Traceable LLM Evaluation" auf Deutsch.

1. Problemstellung

Die zuverlässige Bewertung (Evaluation) von Large Language Models (LLMs) ist für deren Entwicklung und Einsatz in industriellen Systemen entscheidend. In der Praxis ist dieser Prozess jedoch oft mit erheblichem manuellem Aufwand verbunden. Praktiker müssen:

Geeignete Benchmarks identifizieren.
Heterogene Evaluations-Codebasen reproduzieren und einrichten.
Datenschema-Mappings konfigurieren.
Aggregierte Metriken interpretieren.

Bestehende Frameworks (wie lm-eval-harness oder OpenCompass) standardisieren zwar die Ausführung, erfordern aber weiterhin eine explizite Konfiguration von Modellen, Datensätzen und Metriken durch den Nutzer. Dies führt zu workflows, die stark von Erfahrung abhängen, teuer in der Iteration sind und sich schwer an sich wandelnde Evaluationsbedürfnisse anpassen lassen. Zudem liefern diese Systeme oft nur isolierte skalare Scores, die für fundierte Entscheidungsfindungen im industriellen Kontext unzureichend sind.

2. Methodik: Das One-Eval Framework

One-Eval ist ein agentenbasiertes System, das natürliche Sprachanfragen in ausführbare, nachvollziehbare und anpassbare Evaluations-Workflows umwandelt. Das System folgt einem dreistufigen, modularen Pipeline-Ansatz:

A. NL2Bench (Intent Structuring & Benchmark Planning)

Dies ist der Einstiegspunkt, der eine natürliche Sprachanfrage in einen strukturierten Evaluationsplan übersetzt.

Intent Structuring: Der Agent zerlegt die Anfrage in strukturierte Absichten (Ziel-Domain, explizit genannte Benchmarks, Ausführungsbeschränkungen, Präferenzen).
Candidate Retrieval: Basierend auf der strukturierten Absicht werden Kandidaten aus zwei Quellen abgerufen:
1. Ein lokaler Katalog von 77 kuratierten Benchmarks (vorvalidiert auf Ausführbarkeit).
2. Eine Live-Suche auf dem HuggingFace Hub für langschwanzige oder neue Benchmarks.
- Es werden sowohl Embedding-basierte als auch TF-IDF-basierte Suchmodi genutzt.
Resolution & Normalization: Kandidaten werden in kanonische Identifikatoren umgewandelt, und strukturelle Metadaten (Splits, Spalten-Mappings) werden extrahiert.
Human-in-the-Loop: Der Nutzer kann den vorgeschlagenen Plan genehmigen, bearbeiten oder anpassen, bevor er weiterverarbeitet wird.

B. BenchResolve (Benchmark Resolution & Configuration)

Dieser Modul wandelt den nominalen Plan in ausführbare Konfigurationen um und bewältigt die Heterogenität von Datensätzen.

Hierarchische Auflösung: Zuerst wird versucht, Konfigurationen aus einem lokalen, expertenvalidierten Register zu laden. Falls nicht vorhanden, erfolgt eine dynamische Auflösung über HuggingFace (direktes Laden oder Suche mit Heuristiken).
Unified Configuration: Alle geladenen Datensätze werden in ein einheitliches internes Schema (BenchInfo) normalisiert. Dies beinhaltet die Zuordnung von Spalten (z. B. question $\to$ input, answer $\to$ target) und die Validierung von Splits.
Traceability: Alle Entscheidungen (IDs, Cache-Pfade, Konfigurationen) werden als nachvollziehbare Artefakte gespeichert.

C. Metrics & Reporting (Metric Recommendation & Reporting)

Dieser Schritt transformiert Rohdaten in handlungsrelevante Entscheidungssignale.

Dual-Track Metric Recommendation:
1. User Override: Explizite Metriken aus Metadaten haben Vorrang.
2. Knowledge-Augmented Reasoning: Für offene Aufgaben nutzt ein Agent semantische Reasoning über den Kontext des Datensatzes, um Metriken aus einer registrierten Bibliothek auszuwählen.
3. Fallback: Bei Fehlern greift das System auf regelbasierte Standardmetriken zurück.
Hierarchical Diagnostic Reporting: Statt nur eines Scores werden mehrstufige Berichte generiert:
- Makro-Ansicht: Radar-Diagramme für die Gesamtfähigkeit.
- Diagnostische Ansicht: Ursachenanalyse von Fehlern (z. B. Halluzinationen vs. Instruktionsfehler).
- Mikro-Ansicht: Fallstudien mit konkreten Beispielen fehlerhafter Ausgaben.

3. Wichtige Beiträge

End-to-End Automatisierung: One-Eval ist das erste Framework, das die gesamte Kette von der natürlichen Sprachanfrage bis zum ausführbaren Workflow und dem analytischen Bericht automatisiert, ohne dass der Nutzer Benchmarks oder Konfigurationen manuell definieren muss.
Agenten-getriebene Entscheidungsfindung: Im Gegensatz zu statischen Frameworks nutzt One-Eval Agenten, um Absichten zu interpretieren, Benchmarks zu empfehlen und Metriken dynamisch basierend auf der Aufgabe auszuwählen.
Nachvollziehbarkeit und Auditierbarkeit: Das System speichert jeden Zwischenschritt (Pläne, Konfigurationen, Schema-Mappings, Cache-Pfade) als Artefakt. Dies ermöglicht das Debugging, das Rollback und die vollständige Reproduzierbarkeit von Evaluierungen.
Entscheidungsorientierte Berichte: Die Ausgabe geht über skalare Scores hinaus und liefert strukturierte Analysen (Fehlermodi, Verteilungen), die direkt für Release-Entscheidungen genutzt werden können.

4. Ergebnisse

Die Autoren evaluierten One-Eval aus der Perspektive industrieller Nutzbarkeit und Zuverlässigkeit:

End-to-End Erfolg: Bei 100 verschiedenen natürlichen Sprachanfragen (abgedeckt 6 Domänen wie Mathematik, Code, Sicherheit) erreichte das System:
- 99% Plan-Ausführbarkeit (Erkennung der Absicht und Retrieval von Benchmarks).
- 85% Automatische Vollständigkeit (korrekte Inferenz von Splits, Mappings und Konfigurationen ohne menschliche Korrektur).
- 84% Vollständige Plan-Erstellung (inkl. Metrik-Empfehlung).
Effizienz: Der durchschnittliche Durchlaufzeit für einen Plan beträgt ca. 13 Minuten (Median 11,4 min).
Vergleich: Im Feature-Vergleich mit Frameworks wie lm-eval-harness, OpenCompass und HELM bietet One-Eval als einziges System gleichzeitig Unterstützung für benutzerdefinierte Benchmarks, vollständige End-to-End-Automatisierung, Benchmark-Empfehlungen und Metrik-Empfehlungen.

5. Bedeutung und Ausblick

One-Eval adressiert die Lücke zwischen abstrakten Evaluationszielen und der technischen Umsetzung in der Industrie. Durch die Reduzierung des manuellen Aufwands und die Bereitstellung von tiefgehenden, nachvollziehbaren Berichten ermöglicht das System:

Schnellere Iterationen bei der Modellentwicklung.
Höhere Reproduzierbarkeit und Auditierbarkeit von Evaluierungen.
Bessere Entscheidungsgrundlagen für das Deployment von Modellen (z. B. durch Identifikation spezifischer Fehlermodi statt nur eines Gesamtscores).

Das Framework ist als Open-Source-Projekt verfügbar und stellt einen wichtigen Schritt hin zu einem agilen, datenzentrierten Evaluationsökosystem dar, das sich an die sich schnell wandelnden Anforderungen an LLMs anpasst. Zukünftige Arbeiten zielen darauf ab, die Abdeckung auf weitere Modalitäten und langschwanzige Benchmarks zu erweitern.