CricBench: A Multilingual Benchmark for Evaluating LLMs in Cricket Analytics

Each language version is independently generated for its own context, not a direct translation.

CricBench: Der große Test für KI im Cricket-Wunderland

Stell dir vor, du hast einen extrem intelligenten Roboter, der alles über die Welt weiß. Er kann dir sagen, wie man ein Rezept kocht, wie man einen Code schreibt oder wer der Präsident vor 50 Jahren war. Aber was passiert, wenn du ihn fragst: „Wer hat im letzten Test-Match in Lord's die meisten Runs erzielt, wenn man nur die Bälle zählt, die nicht als ‚Wide' oder ‚No Ball' gewertet wurden, und dabei die Formel für die ‚Economy Rate' korrekt anwendet?"

Genau hier kommt die neue Studie CricBench ins Spiel. Sie ist wie ein strenger Lehrer, der diesen Roboter (eine Künstliche Intelligenz, kurz KI) auf die Probe stellt – aber nicht in Mathe oder Geschichte, sondern im Cricket.

Hier ist die Geschichte der Studie, einfach erklärt:

1. Das Problem: Der KI ist der Sport zu speziell

Cricket ist ein riesiges Spiel mit Milliarden von Fans. Die Fans wollen oft tiefgehende Statistiken wissen, die man nicht einfach googeln kann. Früher dachte man: „Wenn eine KI gut genug ist, um Datenbankfragen zu beantworten, kann sie das auch im Sport."

Die Forscher von CricBench haben jedoch herausgefunden, dass das nicht stimmt. Es ist, als würde man einen Weltmeister im Schachspielen nehmen und ihn bitten, ein komplexes Ballett zu tanzen. Die Grundregeln (Bewegung, Balance) sind da, aber die spezifischen Schritte (die „Domain-Logik") fehlen.

2. Der Test: CricBench

Die Forscher haben einen riesigen Test entwickelt, den sie CricBench nennen.

Der Inhalt: Es gibt 2.654 Fragen auf vier verschiedenen Sprachen (Englisch, Hindi, Punjabi, Telugu).
Die Fragen: Sie decken alle Cricket-Formate ab: Test-Matches (sehr lang), ODIs (eintägig), T20Is (sehr schnell) und die IPL (eine indische Liga, die wie eine große Party mit Teams aus verschiedenen Städten ist).
Die Herausforderung: Die KI bekommt nur die Liste der Datenbanken (wie ein Inhaltsverzeichnis) und die Frage. Sie darf keine Hilfe bekommen, keine „Spickzettel" und keine Beispiele. Sie muss die Antwort aus ihrem eigenen „Gehirn" ableiten.

3. Das Ergebnis: Die KI ist gut im Schreiben, aber schlecht im Verstehen

Das ist das Überraschendste an der Studie:

Die KI schreibt perfekte Sätze: Wenn man die Fragen in SQL (eine Computersprache für Datenbanken) umwandelt, sehen die Antworten der KI fast immer grammatikalisch perfekt aus. Sie funktionieren technisch. Das ist wie ein Schüler, der eine perfekte Hausaufgabe abgibt, die aber inhaltlich falsch ist.
Die Antwort ist falsch: Wenn man die KI-Frage tatsächlich in die Datenbank eingibt, kommt fast nie das richtige Ergebnis heraus. Die Treffsicherheit liegt oft unter 30 %. Bei den schwierigsten Fragen (ODI) schaffen es keine der KIs, auch nur eine einzige Antwort richtig zu lösen (0 %).

Eine Analogie: Stell dir vor, du fragst einen Koch: „Wie koche ich eine perfekte Currywurst?" Der Koch schreibt dir ein Rezept auf, das perfekt aussieht, alle Zutaten nennt und die Schritte logisch beschreibt. Aber wenn du das Rezept befolgst, schmeckt es nach nichts, weil er vergessen hat, wie man die Wurst wirklich brät oder welche Gewürze wirklich rein müssen. Die KI kennt die Wörter, aber nicht den Geschmack des Sports.

4. Wer ist der Gewinner? (Spoiler: Niemand)

Die Forscher haben sieben der besten KIs der Welt getestet (wie GPT-5 Mini, Claude, DeepSeek, Llama).

Kein Superheld: Es gab keinen einzigen Gewinner, der in allen Cricket-Formaten gut war.
Spezialisten: Manche KIs waren gut bei Test-Matches, andere bei der IPL. Aber sobald das Format wechselte, fiel ihre Leistung dramatisch ab.
Die Sprache: Es spielte keine große Rolle, ob die Frage auf Englisch oder Hindi gestellt wurde. Die KI scheiterte in beiden Sprachen gleich oft. Das zeigt, dass das Problem nicht die Sprache ist, sondern das Verständnis des Cricket-Spiels.

5. Der große Unterschied: Der „Domain Gap"

Die Studie verglich die KIs mit einem anderen großen Test (BIRD), bei dem es um normale Geschäftsfragen geht (z. B. „Wie viele Kunden haben im letzten Jahr mehr als 100 Euro ausgegeben?").

Im normalen Test waren die KIs sehr gut (ca. 60 % richtig).
Im Cricket-Test fielen sie auf unter 15 % ab.

Das ist wie ein Autofahrer, der auf der Autobahn perfekt fährt, aber sofort in Panik gerät, wenn er auf einen schmalen, verschneiten Waldweg muss. Die allgemeinen Fähigkeiten reichen nicht aus; man braucht spezifisches Wissen über das Terrain.

Fazit: Was lernen wir daraus?

Die Studie CricBench ist ein Weckruf. Sie zeigt uns, dass unsere aktuellen KIs zwar sehr schlau sind, aber noch nicht tief genug in spezielle Nischen wie den Sport eindringen können. Sie können Daten abfragen, aber sie können die Logik des Sports noch nicht wirklich verstehen.

Um Cricket-Analysen wirklich zu automatisieren, brauchen wir KIs, die nicht nur „reden" können, sondern das Spiel wirklich „verstehen". Bis dahin müssen wir uns noch auf menschliche Experten verlassen, wenn es um die wirklich kniffligen Statistiken geht.

Kurz gesagt: Die KI ist wie ein junger, sehr gebildeter Fan, der alle Regeln auswendig kann, aber wenn es darum geht, die komplexen Statistiken eines echten Spiels zu berechnen, macht sie noch zu viele Fehler. CricBench ist der Test, der uns genau zeigt, wo diese Fehler liegen.

CricBench: A Multilingual Benchmark for Evaluating LLMs in Cricket Analytics

1. Das Problem: Der KI ist der Sport zu speziell

2. Der Test: CricBench

3. Das Ergebnis: Die KI ist gut im Schreiben, aber schlecht im Verstehen

4. Wer ist der Gewinner? (Spoiler: Niemand)

5. Der große Unterschied: Der „Domain Gap"

Fazit: Was lernen wir daraus?

1. Problemstellung

2. Methodik: CricBench

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

CricBench: A Multilingual Benchmark for Evaluating LLMs in Cricket Analytics

1. Das Problem: Der KI ist der Sport zu speziell

2. Der Test: CricBench

3. Das Ergebnis: Die KI ist gut im Schreiben, aber schlecht im Verstehen

4. Wer ist der Gewinner? (Spoiler: Niemand)

5. Der große Unterschied: Der „Domain Gap"

Fazit: Was lernen wir daraus?

1. Problemstellung

2. Methodik: CricBench

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Filtered Reasoning Score: Evaluating Reasoning Quality on a Model's Most-Confident Traces

Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

LLMs Struggle with Abstract Meaning Comprehension More Than Expected

Benchmarking Deflection and Hallucination in Large Vision-Language Models

Think Through Uncertainty: Improving Long-Form Generation Factuality via Reasoning Calibration