MultiWikiQA: A Reading Comprehension Benchmark in 300+ Languages

Each language version is independently generated for its own context, not a direct translation.

MultiWikiQA: Een wereldwijde leesproef voor AI

Stel je voor dat je een enorme bibliotheek hebt, de Wikipedia, die niet alleen in het Nederlands of Engels bestaat, maar in 306 verschillende talen. Nu wil je testen of een slimme computer (een AI) echt begrijpt wat er in die boeken staat, of dat hij gewoon raadt.

De auteurs van dit papier hebben een nieuw spelletje bedacht, genaamd MultiWikiQA. Hier is hoe het werkt, vertaald naar begrijpelijke taal:

1. Het Spelbord maken (De Dataset)

Stel je voor dat je een leraar bent die voor elke taal in de wereld een toets wil maken.

De bron: Ze nemen een Wikipedia-artikel als "leesstuk".
De vragen: Ze laten een super-slimme AI (een Large Language Model) vragen bedenken over dat artikel. De AI moet ook het antwoord geven, en dat antwoord moet letterlijk in het artikel staan.
De valstrik: Soms is een AI te slim voor zijn eigen bestwil. Als de vraag precies hetzelfde klinkt als de zin in het artikel, kan de AI "cheaten" door gewoon woorden te matchen. Om dit te voorkomen, laten ze de AI de vraag opnieuw formuleren. Het is alsof je een vraag niet meer vraagt als "Wie won de wedstrijd?", maar als "Wie was de kampioen?". De AI moet nu echt denken en niet alleen zoeken.

Het resultaat is een gigantische verzameling van 1,22 miljoen vragen in 306 talen. Dat is alsof je een toets hebt voor elke taal die op aarde wordt geschreven.

2. De Kwaliteitscontrole (Mensen checken de AI)

Je kunt niet zomaar vertrouwen op wat een computer zegt. Is de vraag wel natuurlijk klinkend?

De onderzoekers hebben 156 mensen uit 30 verschillende talen (zowel grote talen als kleine, minder bekende talen) gevraagd om de vragen te beoordelen.
Ze kregen een simpele opdracht: "Klinkt deze vraag als iets wat een echt mens zou vragen?"
Het resultaat: De vragen waren overal goed. Zelfs voor talen met maar een paar miljoen sprekers (zoals IJslands of Faeröers) klonken de vragen natuurlijk. Het was alsof de AI de taal echt had geleerd, niet alleen woordenboekdefinities.

3. De Proef (AI's tegen elkaar)

Nu de toets klaar is, laten ze 6 verschillende AI-modellen het spel spelen.

Sommige modellen zijn "decoders" (ze bouwen zinnen op, zoals een schrijver).
Andere zijn "encoders" (ze analyseren zinnen, zoals een lezer).
Ze testen deze modellen op 261 van de 306 talen.

Wat ontdekten ze?

Het is lastig: Zelfs de slimste AI's krijgen het niet altijd goed. Het is geen makkelijk spelletje meer.
Het verschil is groot: Er is een enorm gat tussen talen. De AI's doen het fantastisch in talen als Engels of Nederlands (alsof ze daar opgroeiden), maar worstelen enorm in talen als Sotho of Quechua. Het is alsof je een voetballer vraagt om op een grasveld te spelen (goed) en dan plotseling op een ijsbaan (moeilijk). De AI's zijn getraind op "gras", maar veel talen zijn "ijs".

Waarom is dit belangrijk?

Vroeger hadden we alleen toetsen voor de "grote" talen. Dit project is als het openen van de deuren van de bibliotheek voor iedereen. Het laat zien dat AI's nog veel moeten leren om echt wereldwijd te kunnen helpen. Als we AI willen gebruiken voor het opzoeken van informatie in elk land ter wereld, moeten we eerst weten waar ze haperen.

Kortom:
De onderzoekers hebben een wereldwijde leesproef gemaakt, gecontroleerd door echte mensen, om te zien hoe goed AI's echt begrijpen wat ze lezen in bijna elke taal. Het bewijst dat we nog een lange weg te gaan hebben voordat AI voor iedereen even goed werkt.

MultiWikiQA: A Reading Comprehension Benchmark in 300+ Languages

1. Het Spelbord maken (De Dataset)

2. De Kwaliteitscontrole (Mensen checken de AI)

3. De Proef (AI's tegen elkaar)

Waarom is dit belangrijk?

Probleemstelling

Methodologie

Kwaliteitsevaluatie (Crowdsourcing)

Evaluatie van Taalmodellen

Belangrijkste Bijdragen

Significantie en Conclusie

MultiWikiQA: A Reading Comprehension Benchmark in 300+ Languages

1. Het Spelbord maken (De Dataset)

2. De Kwaliteitscontrole (Mensen checken de AI)

3. De Proef (AI's tegen elkaar)

Waarom is dit belangrijk?

Probleemstelling

Methodologie

Kwaliteitsevaluatie (Crowdsourcing)

Evaluatie van Taalmodellen

Belangrijkste Bijdragen

Significantie en Conclusie

Meer zoals dit

Constraining constructions with WordNet: pros and cons for the semantic annotation of fillers in the Italian Constructicon

Attribution Quality in AI-Generated Content:Benchmarking Style Embeddings and LLM Judges

QA-Dragon: Query-Aware Dynamic RAG System for Knowledge-Intensive Visual Question Answering

OraPO: Oracle-educated Reinforcement Learning for Data-efficient and Factual Radiology Report Generation

Stop Before You Fail: Operational Capability Boundaries for Mitigating Unproductive Reasoning in Large Reasoning Models