MultiWikiQA: A Reading Comprehension Benchmark in 300+ Languages

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「世界 300 以上の言語で、AI が文章を理解できるかを試すための巨大なテスト問題集（MultiWikiQA）」**を作ったというお話しです。

まるで、世界中のあらゆる言語で「読解力テスト」を行うための、画期的な「教科書」を作ったようなイメージです。

以下に、難しい専門用語を使わず、身近な例え話で解説します。

これまで、AI（大規模言語モデル）の性能を測るテストは、英語や中国語など一部の「人気のある言語」に偏っていました。それは、世界中の言語の多くが「テストを受けられない子供」のようだったからです。

この研究では、Wikipedia（ウィキペディア）の記事を教材として使い、AI が自動で 300 以上の言語で「質問と答え」のペアを 120 万問以上も生成しました。

例え話: 世界中の 300 以上の国々で、それぞれの言語の Wikipedia を教科書にして、AI 用の「国語の読解問題」を自動で大量に作成したようなものです。

ただ AI に質問を作らせただけでは、AI が「答えを丸暗記」して不正解にならないか心配です。そこで、2 つのステップを踏みました。

ステップ 1：AI 先生に問題を作る
- AI に「この Wikipedia の記事から、答えが文中にそのまま書いてある質問を作ってください」と指示しました。
ステップ 2：「言い換え」の魔法
- ここがポイントです。AI が作った質問を、もう一度別の AI に「同じ意味だけど、全く違う言葉や言い回しで言い直して」と頼みました。
- 例え話: 先生が「リンゴは赤い果物です」という文章から「リンゴは何色？」という問題を出したとします。AI がそのまま「リンゴは赤い」と答えたら、それは「文章をそのままコピーしただけ」で、本当の理解力ではありません。
- そこで、「リンゴの色は？」や「赤い果物とは何？」のように言い換えることで、AI が「単語の一致」だけで答えられないようにし、**「本当に意味を理解しているか」**を試せるようにしたのです。

AI が作った問題が、本当に自然な言葉かどうか心配ですよね。そこで、世界中の 30 言語について、現地の人間（156 人）に協力してもらって「味見（評価）」をしました。

最後に、このテストを使って、最新の AI 6 種類に「読解力テスト」を受けさせました。

結果: 英語やドイツ語など、データが多い言語では AI が非常に高得点を取りましたが、アフリカやアジアの多くの言語では、AI の成績はボロボロでした。
例え話: 優秀な学生（AI）が、英語のテストでは 90 点を取れるのに、マイナーな言語のテストでは 20 点しか取れない状態です。「AI は世界中の言語を平等に理解している」と思われがちですが、実は言語による「格差」が非常に大きいことがわかりました。

この「MultiWikiQA」というテストは、今後、AI が世界中のすべての言語を本当に理解できるようになるための、**重要な物差し（基準）**として使われることになります。

関連論文