Who Benchmarks the Benchmarks? A Case Study of LLM Evaluation in Icelandic

Each language version is independently generated for its own context, not a direct translation.

Titel: Wie controleert de controleurs? Een verhaal over IJslandse AI en gebrekkige tests

Stel je voor dat je een nieuwe auto wilt kopen. De verkoper laat je een testrit doen op een speciaal aangelegde baan om te bewijzen hoe snel en veilig de auto is. Maar wat als die testbaan zelf vol zit met gaten, verkeerde borden en oneerlijke obstakels? Dan zegt de snelheidsmeter misschien dat de auto razendsnel is, maar in de echte wereld crasht hij direct.

Dit is precies wat deze paper over IJslandse Large Language Models (LLM's) – slimme AI's – zegt. De onderzoekers kijken naar de "testbanen" (benchmarks) die gebruikt worden om te meten hoe goed deze AI's IJslands spreken en begrijpen. En hun conclusie is schokkend: veel van die testbanen zijn zo slecht gebouwd, dat de resultaten niets zeggen over de echte vaardigheid van de AI.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. De "Vertaal-machine" valkuil

Veel mensen denken: "Als we een goede Engelse test hebben, kunnen we die gewoon vertalen naar IJslands en klaar zijn we."
De onderzoekers zeggen: "Nee, dat is gevaarlijk."

Stel je voor dat je een recept voor een perfecte IJslandse vissoep neemt en het door een robot laat vertalen naar het Engels. De robot gebruikt woorden die hij uit een woordenboek plukt, maar hij snapt niet dat "vis" in dit geval een specifieke IJslandse vissoort is, of dat de kruiden anders moeten. Het resultaat is een soep die eruitziet als soep, maar die niet eetbaar is.

In de paper zien ze dat veel IJslandse tests machinaal vertaald zijn.

Het probleem: De vertalingen zijn vaak raar, onnatuurlijk of zelfs fout. Soms vertaalt de machine een naam als "Louis Guðmundsson" in plaats van "Louis Pasteur", waardoor de vraag geen zin meer heeft.
De consequentie: De AI scoort misschien goed op zo'n test, niet omdat hij slim is, maar omdat hij de rare, gebroken zinnen van de machine-vertaling heeft "geleerd". Het is alsof je een student laat examen doen in een taal die niemand spreekt, en hij haalt een 10 omdat hij de fouten in de vragen heeft onthouden.

2. De "Zelfgemaakte" tests (Synthetische data)

Soms maken AI's zelf hun eigen testvragen, gebaseerd op Wikipedia of andere teksten.
De onderzoekers vergelijken dit met een kok die zijn eigen recepten bedenkt zonder ooit te hebben gekookt.

De AI genereert vragen en antwoorden, maar zonder dat een mens (een native speaker) er naar kijkt.
Het resultaat? Vragen die er logisch uitzien, maar die feitelijk onzin zijn. Bijvoorbeeld: een vraag over de hoofdstad van Bolivia, terwijl de tekst gaat over Kim Jong-Un.
Als je een AI op zo'n test test, meet je niet zijn kennis, maar alleen zijn vermogen om de rare patronen van de AI die de test maakte, na te bootsen.

3. De "Niet-inheemse" controleurs

Een groot deel van de tests is gemaakt door mensen die geen IJslands spreken.
Stel je voor dat een groep mensen die alleen Frans spreken, een test maken om te zien of iemand goed Nederlands spreekt. Ze gebruiken een woordenboek en een vertaal-app.

Ze weten niet dat bepaalde zinnen in het Nederlands grammaticaal correct klinken, maar in de praktijk nooit gebruikt worden.
Ze weten niet dat een woord in het IJslands een andere betekenis heeft dan in het Engels.
Het resultaat: De test meet niet of de AI goed IJslands spreekt, maar of de AI goed kan raden wat die Franssprekende mensen denken dat IJslands is.

4. Wat zeggen de cijfers?

De onderzoekers hebben een steekproef gedaan van de bestaande tests. Ze keken naar honderden vragen en keurden ze na met drie labels:

OK: Een goede, geldige vraag.
Fout: Een vraag met kleine taalfouten.
Ramp (IC): Een vraag die zo slecht is dat hij de test ongeldig maakt.

De bevindingen:

Tests die door menselijke experts zijn gemaakt of vertaald, zijn bijna altijd goed.
Tests die machinaal vertaald of door AI gegenereerd zijn, zitten vol met "rampen". Bij sommige tests (zoals HellaSwag-IS) was geen enkele vraag goed.
Het is alsof je een olympische atleet laat rennen op een baan die vol ligt met rubberen banden en glijbanen. Als hij wint, is dat niet omdat hij de snelste is, maar omdat de baan zo gek is.

5. Waarom maakt dit uit?

Je zou kunnen zeggen: "Maar als de AI toch een hoge score haalt, is dat toch goed?"
Nee, zeggen de onderzoekers.

Valse hoop: We denken dat de AI IJslands perfect spreekt, terwijl hij dat niet doet.
Slechte ontwikkeling: Als ontwikkelaars hun AI's trainen op deze slechte tests, gaan ze de AI leren om die rare, gebroken zinnen te produceren. De AI wordt dan "slimmer" in het maken van fouten, in plaats van in het spreken van correct IJslands.
Cultuurverlies: IJslands is een kleine taal. Als we AI's trainen op slechte data, kunnen we de unieke cultuur en nuances van de taal verliezen. De AI wordt dan een "Engelse machine" die een beetje IJslands nadoen.

De conclusie: Wie controleert de controleurs?

De titel van de paper vraagt: "Wie controleert de controleurs?"
Het antwoord is: De makers zelf, en de gemeenschap.

De onderzoekers roepen op tot een nieuwe manier van werken:

Geen blinde vertalingen: Gebruik geen machine-vertalingen zonder dat native speakers ze hebben gecontroleerd.
Mensen aan het roer: Laat mensen die IJslands spreken en begrijpen de tests maken.
Kwaliteit boven kwantiteit: Liever 100 perfecte vragen dan 10.000 slechte vragen.

Kortom: We kunnen niet zomaar de tests van het Engels overnemen en hopen dat het werkt. Voor kleine talen als IJslands moeten we onze eigen, eerlijke testbanen bouwen, anders rijden we met onze AI's tegen de muur, terwijl we denken dat we op de snelweg zitten.

Who Benchmarks the Benchmarks? A Case Study of LLM Evaluation in Icelandic

1. De "Vertaal-machine" valkuil

2. De "Zelfgemaakte" tests (Synthetische data)

3. De "Niet-inheemse" controleurs

4. Wat zeggen de cijfers?

5. Waarom maakt dit uit?

De conclusie: Wie controleert de controleurs?

Titel: Wie benchmarkt de benchmarks? Een case study van LLM-evaluatie in het IJslands

1. Het Probleem

2. Methodologie

3. Belangrijkste Resultaten

4. Kernbijdragen

5. Betekenis en Conclusie

Who Benchmarks the Benchmarks? A Case Study of LLM Evaluation in Icelandic

1. De "Vertaal-machine" valkuil

2. De "Zelfgemaakte" tests (Synthetische data)

3. De "Niet-inheemse" controleurs

4. Wat zeggen de cijfers?

5. Waarom maakt dit uit?

De conclusie: Wie controleert de controleurs?

Titel: Wie benchmarkt de benchmarks? Een case study van LLM-evaluatie in het IJslands

1. Het Probleem

2. Methodologie

3. Belangrijkste Resultaten

4. Kernbijdragen

5. Betekenis en Conclusie

Meer zoals dit

Caption First, VQA Second: Knowledge Density, Not Task Format, Drives Multimodal Scaling

WorkRB: A Community-Driven Evaluation Framework for AI in the Work Domain

Text-as-Signal: Quantitative Semantic Scoring with Embeddings, Logprobs, and Noise Reduction

A Multi-Model Approach to English-Bangla Sentiment Classification of Government Mobile Banking App Reviews

KMMMU: Evaluation of Massive Multi-discipline Multimodal Understanding in Korean Language and Context