Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie testen einen neuen Koch. Bisher haben Sie ihn nur mit einfachen Multiple-Choice-Fragen geprüft: „Was ist der Hauptbestandteil von Pizza?" oder „Wie lange backt man einen Kuchen bei 200 Grad?" Der Koch besteht diese Tests mühelos. Aber wissen Sie wirklich, ob er ein Meisterkoch ist, der ein komplexes Menü für ein Hochzeitsbankett mit 100 Gästen planen, improvisieren und perfektionieren kann, wenn der Ofen ausfällt und ein Gast allergisch ist?

Genau dieses Problem haben die Forscher von ByteDance mit ihrer neuen Studie „XpertBench" angepackt.

Hier ist die einfache Erklärung, was sie getan haben, warum es wichtig ist und was sie herausfanden – ganz ohne Fachchinesisch.

1. Das Problem: Der „Kochbuch-Test" reicht nicht mehr

Bisher wurden künstliche Intelligenzen (KI) wie große Sprachmodelle (LLMs) hauptsächlich mit „Schulprüfungen" getestet. Diese Fragen haben eine einzige richtige Antwort.

Das Problem: Die KIs haben diese Tests so gut gemeistert, dass sie fast alle Fragen richtig beantworten. Es ist, als würde ein Schüler, der die Antworten auswendig gelernt hat, eine Prüfung bestehen, aber im echten Leben nicht weiß, wie man ein Problem löst, wenn es keine Lösung im Buch gibt.
Die Realität: Echte Experten (Ärzte, Anwälte, Finanzanalysten) arbeiten nicht mit einfachen Ja/Nein-Fragen. Sie müssen lange, verworrene Probleme lösen, bei denen es viele Unsicherheiten gibt.

2. Die Lösung: XpertBench – Der „Echtleben-Prüfstand"

Die Forscher haben einen neuen Test entwickelt, den sie XpertBench nennen.

Wie ein echter Job: Statt Fragen aus einem Lehrbuch zu stellen, haben sie 1.346 echte Aufgaben gesammelt, die echte Experten jeden Tag erledigen. Das reicht von der Analyse von Aktienmärkten über das Entwerfen von Lehrplänen für Schulen bis hin zu komplexen juristischen Fällen.
Die Prüfer: Diese Aufgaben wurden nicht von Computern, sondern von echten Experten erstellt – Menschen mit Doktortiteln, Ärzten, Anwälten und Finanzexperten. Sie haben ihre täglichen Herausforderungen in Tests verwandelt.
Der Bewertungsmaßstab (Rubrik): Früher wurde KI oft nur danach bewertet, ob sie „richtig" oder „falsch" lag. Bei XpertBench gibt es einen detaillierten Bewertungskatalog (wie eine Checkliste für einen Flugsimulator). Ein KI-Modell bekommt Punkte für jeden kleinen Schritt, den es richtig macht (z. B. „Hat es die richtigen Daten gefunden?", „Ist die Logik schlüssig?", „Beachtet es die Sicherheitsregeln?").

3. Der neue Richter: „ShotJudge"

Wie bewertet man so eine komplexe Aufgabe? Ein Mensch müsste Stunden damit verbringen.

Die Idee: Die Forscher nutzen eine spezielle KI als Richter, nennen sie aber ShotJudge.
Wie es funktioniert: Stellen Sie sich vor, Sie unterrichten einen neuen Schüler. Sie zeigen ihm nicht nur die Aufgabe, sondern auch ein Beispiel, wie ein echter Experte die Aufgabe gelöst hat (inklusive der Begründung, warum er so entschieden hat). Der KI-Richter lernt aus diesem einen Beispiel („Few-Shot"), wie ein Experte denkt, und bewertet dann die Antworten der anderen KIs danach. So wird verhindert, dass die KI nur nach „schönem Text" bewertet, sondern nach echtem Fachwissen.

4. Die Ergebnisse: Die KIs sind noch keine echten Experten

Als sie die besten KI-Modelle der Welt (wie GPT-5, Claude, Gemini) durch diesen Test schickten, kam ein überraschendes Ergebnis heraus:

Die Decke ist erreicht: Selbst die allerbesten KIs schaffen im Durchschnitt nur etwa 55 % bis 66 % der Aufgaben. Das klingt nach einer guten Note, aber für eine „Superintelligenz", die uns in kritischen Bereichen helfen soll, ist das noch zu wenig.
Spezialisten statt Alleskönner: Die KIs sind nicht überall gleich gut.
- Ein Modell war ein Finanz-Genie (fast 85 % Erfolg in Finanzfragen), scheiterte aber fast komplett an Ingenieursaufgaben.
- Ein anderes Modell war ein Rechts-Experte, hatte aber Probleme mit komplexer Logik in der Technik.
- Es gibt also noch keinen „Alleskönner", der in jedem Berufsfeld sofort als Experte arbeiten kann.
Die typischen Fehler: Die KIs machen nicht nur kleine Fehler. Sie geraten oft in Halluzinationen (erfinden Fakten), lassen sich durch zu viel Internet-Recherche ablenken oder verlieren den roten Faden bei langen Aufgaben.

5. Fazit: Was bedeutet das für uns?

XpertBench zeigt uns, dass wir KI noch nicht blind in wichtige Jobs wie Arzt, Anwalt oder Finanzberater werfen sollten.

Die Lektion: Wir haben KIs, die wie brillante Studenten sind, die viel gelesen haben, aber noch keine erfahrenen Meister sind.
Der Weg nach vorn: Um KI wirklich als „Co-Pilot" für Profis nutzen zu können, müssen wir sie nicht nur auf Wissen testen, sondern darauf, wie sie komplexe, echte Probleme im echten Leben lösen. XpertBench ist das Werkzeug, um diesen Fortschritt zu messen.

Zusammenfassend: Die Forscher haben den KI-Tests den „Schulhof" genommen und sie auf den „Arbeitsplatz" geschickt. Und dort haben sie gesehen: Die KIs sind noch nicht bereit für den Hauptjob, aber sie lernen schnell. Dieser neue Test hilft uns zu verstehen, wo genau sie noch üben müssen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Trotz der rasanten Entwicklung von Large Language Models (LLMs) zeigen diese auf herkömmlichen Benchmarks (wie MMLU-Pro oder GPQA) zunehmend eine Leistungsstagnation. Die bestehenden Evaluierungsparadigmen leiden unter mehreren gravierenden Mängeln:

Fokus auf geschlossene Fragen: Viele Benchmarks testen statisches Faktenwissen oder „Prüfungsfragen" mit eindeutigen Antworten, was nicht der Realität komplexer, offener Expertenaufgaben entspricht.
Mangelnde ökologische Validität: Aufgaben in Bereichen wie Agenten-Fähigkeiten (z. B. GAIA, BrowseComp) reduzieren komplexe, mehrstufige Forschungsprozesse oft auf einfache Faktenabfragen oder spezifische Referenzstrings.
Verzerrungen bei der Bewertung: Bestehende Frameworks nutzen oft „LLM-as-a-Judge"-Ansätze, die anfällig für Selbstbelohnungsbias (Self-Rewarding Bias) und stilistische Verzerrungen sind, oder sie sind zu stark auf menschliche Bewertung angewiesen, was Skalierbarkeit und Kosten limitiert.
Lücke zur Praxis: Es fehlt ein Benchmark, der die Fähigkeit von LLMs misst, echte, hochkomplexe Arbeitsabläufe in professionellen Domänen (Finanzen, Recht, Medizin etc.) von Anfang bis Ende zu bewältigen.

2. Methodik: XpertBench und ShotJudge

Das Paper stellt XpertBench vor, einen hochfiden Benchmark, der speziell für die Evaluierung von LLMs in authentischen, offenen Expertenaufgaben entwickelt wurde.

A. Datenerstellung und Expertise

Datenumfang: Der Datensatz umfasst 1.346 sorgfältig kuratierte Aufgaben in 80 Kategorien über 7 professionelle Domänen: Finanzen, Recht, Bildung, Gesundheitswesen, Ingenieurwesen & Angewandte Wissenschaften (EAS), Informatik und Geistes- & Sozialwissenschaften (HSS).
Expertengrundlage: Die Aufgaben stammen von über 1.000 Experten (Forschende an Elite-Universitäten, CFA/CPA-Inhaber, Ärzte, Anwälte etc.). Diese rekonstruierten ihre täglichen beruflichen Herausforderungen in testbare Szenarien.
Aufgabencharakteristik: Die Aufgaben sind „Open-Ended" und „Long-Horizon". Sie erfordern das Navigieren in Ambiguitäten, das Synthesieren umfangreicher Fachliteratur und das Lösen widersprüchlicher Constraints – Fähigkeiten, die punktuelle Metriken nicht erfassen können.

B. Rubrik-basierte Bewertung (Rubrics)

Jede Aufgabe wird nicht durch eine einfache Richtigkeit, sondern durch detaillierte Rubriken bewertet:

Granularität: Jede Aufgabe verfügt über 15 bis 40 gewichtete Prüfpunkte (Checkpoints).
Objektivität: Die Prüfpunkte sind so formuliert, dass sie eindeutig als TRUE (erfüllt) oder FALSE (nicht erfüllt) bewertet werden können.
Gewichtung: Jeder Prüfpunkt erhält eine qualitative Einstufung (Essential, Important, Optional) und eine quantitative Gewichtung (1–10).
Dimensionen: Die Bewertung erfolgt entlang spezifischer Dimensionen wie „Logische Kohärenz", „Domänenexpertise", „Faktische Genauigkeit" und „Sicherheit".

C. Evaluierungs-Paradigma: ShotJudge

Um die Skalierbarkeit mit menschlicher Expertise zu vereinen, wurde ShotJudge entwickelt:

Prinzip: Ein LLM-Richter (Judge) wird durch Few-Shot-Exemplare kalibriert, die von menschlichen Experten annotiert wurden.
Prozess:
1. Expert-Anchoring: Experten bewerten die Antworten eines Baseline-Modells (GPT-5) blind gemäß den Rubriken und liefern qualitative Begründungen.
2. Meta-Evaluation: Seniorexperten prüfen diese Annotationen, um Verzerrungen zu filtern und eine „Gold-Standard"-Basis zu schaffen.
3. Calibrated Scoring: Der LLM-Judge (z. B. Gemini 2.5 Pro) erhält die Aufgabe, die Rubrik und die expertenannotierten Beispiele (One-Shot) als Kontext. Er bewertet die Kandidatenantworten, indem er das Experten-Verhalten imitiert.
Metrik: Der Endwert ist ein gewichteter Durchschnitt der binären Scores ( $S = \frac{\sum w_i x_i}{\sum w_i}$ ).
Validierung: ShotJudge erreicht eine Konsistenz-Minus-Diskordanz-Rate (CDR) von 52,0 % im Vergleich zu menschlichen Experten, was signifikant besser ist als bei Zero-Shot-Ansätzen.

3. Key Contributions (Hauptbeiträge)

XpertBench (High-Fidelity Benchmark): Ein bisher unerreichter, multidisziplinärer Benchmark, der die Skalierung, Abdeckung und Tiefe der Expertenevaluierung erweitert und als Instrument zur Messung des realen Nutzens von KI dient.
Robuste Evaluierungs-Pipeline: Formalisierung einer methodischen Pipeline von der expertengesteuerten Kuratierung über dual-gewichtete atomare Rubriken bis hin zum ShotJudge-Paradigma. Dies schafft einen skalierbaren, menschenähnlichen Standard für die generative Bewertung.
Kritische Diagnostik von Frontier-Modellen: Tiefgehende empirische Einblicke in die Schwachstellen führender LLMs, insbesondere in Bezug auf nicht-überlappende Domänenexpertise, Retrieval-Interferenzen und Halluzinationen von Prinzipien.

4. Ergebnisse (Ergebnisse der Experimente)

Die Evaluation von 12 State-of-the-Art-Modellen auf dem XpertBench-Gold-Subset (N=245) ergab folgende Erkenntnisse:

Leistungsdeckel (Performance Ceiling): Selbst die führenden Modelle erreichen nur eine maximale Erfolgsrate von 66,2 % (Claude-Opus-4.6-thinking). Der Durchschnitt liegt bei ca. 55 %. Dies deutet auf eine signifikante „Expert Gap" hin.
Domänenspezifische Spezialisierung: Es gibt kein universelles „Allround-Expertenmodell".
- GPT-5.4-high dominiert im Bereich Finanzen (84,65 %), liegt aber in STEM (42,84 %) deutlich hinter den Spitzenreitern.
- Claude-Opus-4.6-thinking ist in Recht (65,54 %) und Geisteswissenschaften (83,02 %) führend.
- Modelle zeigen oft komplementäre Stärken; eine hohe Leistung in einem Bereich garantiert keine Leistung in einem anderen.
Fehlermuster:
- Retrieval-Interferenz: Ständiges Web-Browsing führt oft zu irrelevanter „Rausch"-Information, die den analytischen Fokus stört.
- Prinzip-Halluzinationen: Ein fundamentaler konzeptioneller Fehler zu Beginn einer Aufgabe führt zu einer Kaskade von logischen Inkonsistenzen, die das gesamte Ergebnis unbrauchbar machen.
- STEM vs. Logik: Modelle zeigen Schwächen in der Kombination aus starrer formaler Logik und langfristiger Planung (besonders in Bildung und STEM).

5. Bedeutung und Ausblick

XpertBench markiert einen Paradigmenwechsel in der KI-Evaluierung:

Vom Wissen zur Anwendung: Der Fokus verschiebt sich von der Abfrage statischen Wissens hin zur Bewertung end-to-end Arbeitsabläufe, die echte Expertise erfordern.
Realitätsnähe: Durch die Verwendung von Aufgaben aus der Praxis (nicht akademischen Proxy-Fragen) bietet der Benchmark eine höhere ökologische Validität und zeigt, wo KI-Systeme in realen Szenarien tatsächlich versagen.
Zukunft der KI-Entwicklung: Die Ergebnisse zeigen, dass der Überg von allgemeinen Assistenten zu spezialisierten professionellen Co-Piloten noch nicht abgeschlossen ist. Die Entwicklung zukünftiger Modelle muss sich auf die Überwindung der „Expert Gap", die Reduzierung von Halluzinationen in komplexen Ketten und die Anpassung an domänenspezifische Anforderungen konzentrieren.

Zusammenfassend etabliert XpertBench einen neuen Goldstandard für die Bewertung von LLMs in hochkomplexen, realen Szenarien und liefert die notwendigen Werkzeuge, um die nächste Generation professioneller KI-Systeme zu entwickeln.