\$OneMillion-Bench: How Far are Language Agents from Human Experts?

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen sehr klugen, aber noch jungen Assistenten. Er kann fließend reden, Gedichte schreiben und sogar Matheaufgaben lösen. Bisher haben wir ihn getestet, indem wir ihm Schulaufgaben gegeben haben: „Wer war der erste Präsident?" oder „Löse diese Gleichung."

Das Problem ist: Im echten Leben, besonders in teuren Berufen wie bei Anwälten, Ärzten oder Finanzexperten, reicht das nicht aus. Dort geht es nicht nur um die richtige Antwort, sondern darum, wie man sie findet, welche Regeln man beachtet und ob man am Ende wirklich einen wertvollen Job erledigt.

Genau hier kommt die $OneMillion-Bench (oder kurz: 1-Millionen-Dollar-Test) ins Spiel.

1. Was ist das eigentlich? Ein Test für echte Arbeit, nicht für Schule

Stellen Sie sich diesen Test wie eine große, teure Schnupperstunde für KI-Agenten vor. Statt 100 einfache Quizfragen zu stellen, haben die Forscher 400 extrem schwierige, echte Aufgaben aus fünf Bereichen zusammengestellt:

Recht: Ein Anwalt muss prüfen, ob ein Vertrag über Ländergrenzen hinweg legal ist.
Finanzen: Ein Analyst muss den Wert einer Versicherungsgesellschaft berechnen.
Gesundheit: Ein Arzt muss eine komplexe Diagnose stellen und einen Behandlungsplan erstellen.
Wissenschaft & Industrie: Forscher müssen Experimente planen oder Maschinen optimieren.

Der Clou: Jede dieser Aufgaben hat einen echten Geldwert. Die Forscher haben berechnet: „Wenn ein echter Senior-Experte diese Aufgabe erledigen würde, wie lange würde er brauchen und wie viel kostet seine Stunde?"
Die Summe aller Aufgaben liegt bei über 1 Million Dollar. Der Name des Tests ist also wörtlich zu nehmen: Es geht um die Frage, wie viel echten Wert eine KI liefern kann.

2. Wie wird bewertet? Nicht nur „Richtig" oder „Falsch"

Bei einem normalen Test gibt es oft nur einen Haken für die richtige Antwort. Bei diesem Test ist es wie bei der Bewertung eines Kochs in einem Sterne-Restaurant:

Es reicht nicht, dass das Essen schmeckt (die Antwort ist richtig).
Der Koch muss auch die richtigen Zutaten verwenden (faktische Korrektheit).
Er muss die Hygienevorschriften einhalten (Berufsregeln).
Er muss die Bestellung genau so zubereiten, wie der Gast es wollte (Anweisungen befolgen).

Die KI bekommt also eine detaillierte Checkliste (ein „Rubrik"-System). Wenn sie eine wichtige Regel verletzt – zum Beispiel eine falsche medizinische Vorschrift zitiert oder eine gefährliche Empfehlung gibt – gibt es Minuspunkte, sogar wenn die Hauptantwort halbwegs stimmt.

3. Was haben die Tests ergeben? Die harten Fakten

Die Forscher haben 35 verschiedene KI-Modelle getestet, von den ganz großen bis zu den spezialisierten. Hier sind die wichtigsten Erkenntnisse, einfach erklärt:

Der „Suche"-Effekt ist ein zweischneidiges Schwert:
Wenn man der KI erlaubt, im Internet zu suchen, wird sie bei den Besten (wie Claude Opus) deutlich besser. Sie findet die richtigen Fakten. Aber bei manchen anderen Modellen wird es schlimmer! Warum? Weil sie dann durch zu viele Informationen verwirrt werden oder falsche Quellen glauben. Es ist wie ein Schüler, der beim Lernen googelt: Der eine findet die perfekte Antwort, der andere kopiert einfach den ersten Wikipedia-Artikel, der ihm in die Finger kommt, auch wenn er veraltet ist.
Spezialisten vs. Alleskönner:
Es gab spezielle „Forschungs-KIs", die nur für lange, komplizierte Recherchen gemacht sind. Überraschenderweise waren sie nicht immer die Besten. Die besten Ergebnisse erzielten oft die allgemeinen „Allrounder", die aber gut darin waren, Suchwerkzeuge zu nutzen und Anweisungen genau zu befolgen.
Die „Halb-richtige"-Falle:
Viele KIs liefern Antworten, die zu 80 % richtig klingen. Aber im echten Beruf reicht das nicht. Wenn ein Anwalt eine Klausel im Vertrag übersehen hat, ist der ganze Vertrag ungültig. Die Tests zeigten, dass viele KIs zwar gut formulieren, aber bei den harten Fakten oder der Logik hängen bleiben. Sie sind oft „nahe dran", aber nicht „fertig".
Zeit ist Geld (und KI ist langsam):
Die Tests zeigten auch, dass KI bei Aufgaben, die aktuelle Daten benötigen (z. B. „Was ist gestern passiert?"), oft schlechter abschneidet als bei alten Fakten. Die Welt verändert sich schneller, als die KI lernen kann.

4. Warum ist das wichtig?

Bisher haben wir KIs oft nur als „Chatbots" gesehen, die nette Gespräche führen. Dieser Test zeigt uns, wie weit sie noch von echten Profis entfernt sind.

Vertrauen: Wir können einer KI noch nicht blind vertrauen, wenn es um Millionenbeträge oder Menschenleben geht.
Kosten: Der Test zeigt, dass eine KI mit Suchwerkzeugen oft mehr Wert liefert als eine teure KI ohne Suchwerkzeug. Es geht also nicht nur darum, wie „smart" das Gehirn ist, sondern wie gut es seine Werkzeuge benutzt.
Die Zukunft: Das Ziel ist nicht, dass die KI den Menschen ersetzt, sondern dass sie ihm hilft, die „sechspfennigen" (kleinen, langweiligen) Aufgaben zu erledigen, damit der Mensch sich auf den „Mond" (die großen, kreativen Ideen) konzentrieren kann.

Zusammenfassend:
Die $OneMillion-Bench ist wie ein strenger, realer Praktikums-Test für KIs. Sie zeigt uns: Die KIs sind schon sehr klug, aber im echten, teuren Berufsalltag machen sie noch zu viele Fehler, um allein gelassen zu werden. Sie brauchen noch mehr Training, um nicht nur „klug" zu klingen, sondern auch „zuverlässig" zu arbeiten.

\$OneMillion-Bench: How Far are Language Agents from Human Experts?

1. Was ist das eigentlich? Ein Test für echte Arbeit, nicht für Schule

2. Wie wird bewertet? Nicht nur „Richtig" oder „Falsch"

3. Was haben die Tests ergeben? Die harten Fakten

4. Warum ist das wichtig?

1. Problemstellung

2. Methodik und Aufbau von $OneMillion-Bench

3. Wichtige Beiträge

4. Ergebnisse und Erkenntnisse

5. Bedeutung und Fazit

\$OneMillion-Bench: How Far are Language Agents from Human Experts?

1. Was ist das eigentlich? Ein Test für echte Arbeit, nicht für Schule

2. Wie wird bewertet? Nicht nur „Richtig" oder „Falsch"

3. Was haben die Tests ergeben? Die harten Fakten

4. Warum ist das wichtig?

1. Problemstellung

2. Methodik und Aufbau von $OneMillion-Bench

3. Wichtige Beiträge

4. Ergebnisse und Erkenntnisse

5. Bedeutung und Fazit

Mehr davon

Comparison of Outlier Detection Algorithms on String Data

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Interventional Time Series Priors for Causal Foundation Models

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

Graph Tokenization for Bridging Graphs and Transformers