CricBench: A Multilingual Benchmark for Evaluating LLMs in Cricket Analytics

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een superintelligente robot hebt die alles over cricket weet en ook perfect SQL (de taal van databases) spreekt. Je vraagt hem: "Wie scoorde de meeste runs in de laatste vijf ODI-wedstrijden op Lord's?" Je verwacht dat de robot direct het juiste antwoord geeft.

Maar wat blijkt? De robot schrijft een perfecte, grammaticaal correcte SQL-vraag, maar het antwoord dat hij terugkrijgt, is vaak volledig fout. Hij heeft de vraag "begrepen" in de zin van de zinsbouw, maar hij mist de betekenis en de specifieke regels van het cricket.

Dit is precies wat het onderzoekspapier CricBench ontdekt. Hier is een uitleg in gewone taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De "Cricket-Expert" die faalt

Cricket is een enorm populair spel met miljarden fans. Fans willen diepe analyses: vergelijkingen tussen spelers uit verschillende tijdperken, of complexe statistieken. Normale zoekopdrachten op internet helpen hier niet bij; daarvoor moet je een database bevragen.

Aan de ene kant hebben we LLM's (zoals de slimme AI-modellen die we allemaal kennen). Deze modellen zijn goed in het vertalen van menselijke taal naar database-vragen (Text-to-SQL).
Aan de andere kant hebben we cricket, een spel vol met eigenaardige regels, historische data en specifieke termen.

De onderzoekers wilden weten: Zijn deze slimme AI's ook slim genoeg om als een echte cricket-analist te werken?

2. De Oplossing: CricBench (De "Cricket-Examentest")

Om dit te testen, hebben de onderzoekers CricBench bedacht. Dit is een soort "examentest" voor AI, speciaal gemaakt voor cricket.

De Examenvragen: Ze hebben 2.654 vragen bedacht, verdeeld over vier soorten cricket: Test (langdurig), ODI, T20I (kort) en de IPL (een populaire competitie in India).
Meertalig: De vragen zijn niet alleen in het Engels, maar ook in Hindi, Punjabi en Telugu. Dit is belangrijk, omdat fans in India vaak in hun eigen taal praten, maar technische termen (zoals "Strike Rate") in het Engels laten staan.
De "Blinde" Test: De AI's kregen alleen de blauwdruk van de database (de lijst met kolommen en tabellen) en de vraag. Ze kregen geen extra uitleg over hoe cricket werkt. Het was alsof je iemand een auto geeft en zegt: "Rijd naar het station," zonder dat je vertelt hoe je de versnellingen bedient of waar het station ligt.

3. De Resultaten: De "Illusie van Bekwaamheid"

De resultaten waren verrassend en een beetje teleurstellend voor de AI-ontwikkelaars.

De "Schijnbare" Succes: De AI's schreven bijna altijd SQL-code die technisch correct was. De database gaf geen foutmelding. Het was alsof de robot perfect de sleutel in het slot draaide.
De "Reële" Falen: Maar de antwoorden waren vaak fout. De AI's gaven het verkeerde antwoord, omdat ze de logica van het spel niet begrepen.
- Vergelijking: Stel je voor dat je een kok vraagt een taart te bakken. De AI pakt het juiste recept (de SQL-code), gebruikt de juiste ingrediënten (de tabellen), maar vergeet dat je de oven op 180 graden moet zetten in plaats van 100. De taart ziet er perfect uit, maar hij is rauw van binnen.

De cijfers:

De beste modellen haalden slechts ongeveer 12% tot 28% correcte antwoorden.
Op de allerlastigste ODI-vragen scoorden alle modellen 0%. Ze waren volledig verloren.
Er was geen enkele "super-AI" die op alle gebieden goed was. De ene AI was goed in Test-cricket, de andere in de IPL, maar niemand was een alleskunner.

4. De Grote Kloof: Algemeen vs. Specifiek

Het meest opvallende resultaat was de vergelijking met een andere bekende test (BIRD), waar AI's normaal gesproken heel goed scoren (rond de 60%).

De Kloof: Toen dezelfde AI's de cricket-test deden, daalde hun score met 37% tot 55%.
De Metafoor: Het is alsof je een wereldkampioen schaakspeler vraagt om een wedstrijd in het poker te spelen. Hij is slim, hij kent de regels van het spel, maar hij mist de specifieke intuïtie en strategie die nodig is voor dit specifieke spel. De vaardigheden die hem tot kampioen maken in het ene spel, helpen hem niet automatisch in het andere.

5. Waarom lukt het niet?

De onderzoekers ontdekten drie hoofdoorzaken:

Hallucinaties: De AI's verzonnen soms kolommen die niet bestonden, omdat ze dachten dat die "logisch" moesten zijn.
Foute Formules: Ze rekenden verkeerd. Bijvoorbeeld: ze vergeten dat je alleen "legale" ballen moet meetellen voor een gemiddelde, en tellen ook de fouten mee.
Verwarring over Spelers: Het is lastig voor een AI om te weten welke speler bij welk team hoorde in welk jaar, omdat teams en namen veranderen.

Conclusie: Wat betekent dit voor ons?

CricBench laat zien dat AI's momenteel nog niet klaar zijn om complexe, gespecialiseerde analyses te doen zonder hulp. Ze zijn als een zeer belezen student die de theorie uit het boek kent, maar nog nooit een echte wedstrijd heeft gespeeld.

Om AI echt nuttig te maken voor cricket (en andere specifieke vakgebieden), moeten we ze niet alleen "slimmer" maken door meer data te geven, maar ze specifiek opleiden op die regels en logica. Tot die tijd moeten we voorzichtig zijn met het vertrouwen op AI voor diepgaande sportanalyses.

Kortom: De AI kan de taal van de database spreken, maar hij begrijpt nog niet de taal van het cricket.

CricBench: A Multilingual Benchmark for Evaluating LLMs in Cricket Analytics

1. Het Probleem: De "Cricket-Expert" die faalt

2. De Oplossing: CricBench (De "Cricket-Examentest")

3. De Resultaten: De "Illusie van Bekwaamheid"

4. De Grote Kloof: Algemeen vs. Specifiek

5. Waarom lukt het niet?

Conclusie: Wat betekent dit voor ons?

Probleemstelling

Methodologie: CricBench

Belangrijkste Resultaten

Bijdragen

Significantie en Conclusie

CricBench: A Multilingual Benchmark for Evaluating LLMs in Cricket Analytics

1. Het Probleem: De "Cricket-Expert" die faalt

2. De Oplossing: CricBench (De "Cricket-Examentest")

3. De Resultaten: De "Illusie van Bekwaamheid"

4. De Grote Kloof: Algemeen vs. Specifiek

5. Waarom lukt het niet?

Conclusie: Wat betekent dit voor ons?

Probleemstelling

Methodologie: CricBench

Belangrijkste Resultaten

Bijdragen

Significantie en Conclusie

Meer zoals dit

Filtered Reasoning Score: Evaluating Reasoning Quality on a Model's Most-Confident Traces

Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

LLMs Struggle with Abstract Meaning Comprehension More Than Expected

Benchmarking Deflection and Hallucination in Large Vision-Language Models

Think Through Uncertainty: Improving Long-Form Generation Factuality via Reasoning Calibration