MultiWikiQA: A Reading Comprehension Benchmark in 300+ Languages

Das Paper stellt MultiWikiQA vor, ein Leseverstehens-Benchmark mit über 1,2 Millionen Frage-Antwort-Paaren in 306 Sprachen, der durch LLM-generierte und umformulierte Inhalte aus Wikipedia-Artikeln erstellt wurde und durch menschliche Evaluierung sowie Tests verschiedener Sprachmodelle seine hohe Qualität und Schwierigkeit unter Beweis stellt.

Dan Saattrup Smart

Veröffentlicht 2026-03-05
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie wollen herausfinden, wie gut ein neuer, super-intelligenter Roboter (ein KI-Modell) wirklich ist, wenn er Texte in verschiedenen Sprachen liest und Fragen dazu beantwortet. Das Problem bisher war: Wir hatten gute Prüfungen für Englisch, aber für viele andere Sprachen – besonders für die, die weniger gesprochen werden – fehlten diese Prüfungen völlig. Es war, als ob man nur Fahrprüfungen für Autos auf deutschen Autobahnen hätte, aber keine für Straßen in abgelegenen Dörfern.

Hier kommt das neue Projekt MultiWikiQA ins Spiel. Hier ist die Erklärung, wie es funktioniert, ganz einfach und mit ein paar bildhaften Vergleichen:

1. Der Rohstoff: Die Wikipedia-Bibliothek

Stellen Sie sich die Wikipedia als eine riesige, unendliche Bibliothek vor, die in über 300 verschiedenen Sprachen geschrieben ist. Die Forscher haben sich diese Bücher (die Artikel) genommen. Das ist ihr Rohmaterial.

2. Der KI-Koch: Fragen generieren

Anstatt dass Menschen mühsam jede einzelne Frage selbst schreiben müssten (was bei 300 Sprachen unmöglich wäre), haben sie einen KI-Koch (ein großes Sprachmodell) eingesetzt.

  • Der Auftrag: Der Koch liest einen Wikipedia-Artikel und sagt: „Okay, hier sind 2 bis 10 Fragen, die man dazu stellen könnte, und die Antworten stehen direkt im Text."
  • Die Regel: Die Antwort muss wortwörtlich so aus dem Text kommen, wie sie dort steht. Keine Erfindungen, keine Zusammenfassungen. Es ist wie ein „Suche das Wort im Text"-Spiel.

3. Der Trick: Das Versteckspiel (Rephrasing)

Hier wird es clever. Wenn der KI-Koch die Fragen stellt, benutzt er oft genau dieselben Wörter wie der Text. Das wäre unfair für die Prüfung, denn dann könnte ein anderer Roboter einfach nur „Wörter abgleichen" und die Antwort finden, ohne den Text wirklich zu verstehen. Das wäre wie ein Schüler, der die Lösung nur abtippt, ohne die Matheaufgabe zu rechnen.

Um das zu verhindern, haben die Forscher einen zweiten Schritt eingeführt:

  • Ein anderer KI-Assistent nimmt die Frage und sagt: „Schreib das bitte um! Behalte die Bedeutung bei, aber benutze andere Wörter, Synonyme oder eine andere Satzstellung."
  • Die Analogie: Stellen Sie sich vor, die ursprüngliche Frage ist ein Schlüssel. Der Text ist ein Schloss. Wenn der Schlüssel genau wie das Schloss aussieht, passt er sofort. Aber die Forscher schleifen den Schlüssel um, so dass er anders aussieht, aber trotzdem ins Schloss passt. Nur wer das Schloss (den Text) wirklich verstanden hat, kann den Schlüssel (die Antwort) finden.

4. Der Qualitäts-Check: Die menschliche Jury

Können wir dem KI-Koch blind vertrauen? Nicht ganz. Also haben die Forscher eine Crowdsourcing-Jury gebildet.

  • Sie haben 156 echte Menschen aus 30 verschiedenen Sprachen (von großen wie Deutsch bis zu kleinen wie Isländisch) gebeten, sich die Fragen anzusehen.
  • Die Aufgabe: „Klingt diese Frage natürlich? Oder klingt sie wie von einem Roboter geschrieben, der Deutsch nicht richtig kann?"
  • Das Ergebnis: Die Jury gab fast überall eine gute Note („meistens natürlich"). Das bedeutet: Die KI hat gute Fragen gestellt, die sich für echte Menschen anhören.

5. Der große Test: Wer ist der Schnellste?

Schließlich haben die Forscher 6 verschiedene KI-Modelle (die „Schüler") auf dieser neuen Prüfung getestet.

  • Das Ergebnis: Es gab riesige Unterschiede. Manche Modelle waren in Sprachen wie Englisch oder Deutsch sehr gut (wie ein Schüler, der die Sprache zu Hause spricht). Bei anderen, weniger verbreiteten Sprachen fielen sie aber auf ein sehr niedriges Niveau zurück.
  • Die Erkenntnis: Die Welt der KI ist noch nicht gleichberechtigt. Während einige Sprachen glänzen, hinken andere weit hinterher. MultiWikiQA zeigt genau, wo die Lücken sind.

Zusammenfassung in einem Satz

MultiWikiQA ist wie ein riesiger, fairer Sprach-Test für 306 Sprachen, bei dem KI-Modelle gezwungen werden, Texte wirklich zu verstehen und nicht nur Wörter zu suchen, und der uns zeigt, welche KIs noch viel lernen müssen, um die ganze Welt zu verstehen.

Die gute Nachricht: Die Daten und die Ergebnisse sind jetzt für alle öffentlich verfügbar, damit Forscher an den schwächsten Stellen arbeiten können, damit die KI in Zukunft wirklich für alle da ist.