MultiWikiQA: A Reading Comprehension Benchmark in 300+ Languages

この論文は、306 の言語で構成され、LLM による質問生成と再構成、および人間による評価を経て作成された大規模な読解力ベンチマーク「MultiWikiQA」を提案し、その品質とモデル間の性能差を報告するものです。

Dan Saattrup Smart

公開日 2026-03-05
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「世界 300 以上の言語で、AI が文章を理解できるかを試すための巨大なテスト問題集(MultiWikiQA)」**を作ったというお話しです。

まるで、世界中のあらゆる言語で「読解力テスト」を行うための、画期的な「教科書」を作ったようなイメージです。

以下に、難しい専門用語を使わず、身近な例え話で解説します。

1. 何を作ったの?(300 言語の「読解力テスト」)

これまで、AI(大規模言語モデル)の性能を測るテストは、英語や中国語など一部の「人気のある言語」に偏っていました。それは、世界中の言語の多くが「テストを受けられない子供」のようだったからです。

この研究では、Wikipedia(ウィキペディア)の記事を教材として使い、AI が自動で 300 以上の言語で「質問と答え」のペアを 120 万問以上も生成しました。

  • 例え話: 世界中の 300 以上の国々で、それぞれの言語の Wikipedia を教科書にして、AI 用の「国語の読解問題」を自動で大量に作成したようなものです。

2. どうやって作ったの?(「AI 先生」と「リレー」の仕組み)

ただ AI に質問を作らせただけでは、AI が「答えを丸暗記」して不正解にならないか心配です。そこで、2 つのステップを踏みました。

  1. ステップ 1:AI 先生に問題を作る
    • AI に「この Wikipedia の記事から、答えが文中にそのまま書いてある質問を作ってください」と指示しました。
  2. ステップ 2:「言い換え」の魔法
    • ここがポイントです。AI が作った質問を、もう一度別の AI に「同じ意味だけど、全く違う言葉や言い回しで言い直して」と頼みました。
    • 例え話: 先生が「リンゴは赤い果物です」という文章から「リンゴは何色?」という問題を出したとします。AI がそのまま「リンゴは赤い」と答えたら、それは「文章をそのままコピーしただけ」で、本当の理解力ではありません。
    • そこで、「リンゴの色は?」や「赤い果物とは何?」のように言い換えることで、AI が「単語の一致」だけで答えられないようにし、**「本当に意味を理解しているか」**を試せるようにしたのです。

3. 質は大丈夫?(人間による「味見」テスト)

AI が作った問題が、本当に自然な言葉かどうか心配ですよね。そこで、世界中の 30 言語について、現地の人間(156 人)に協力してもらって「味見(評価)」をしました。

  • 結果: 「自然な日本語(またはそれぞれの言語)で書かれているか?」というチェックで、すべての言語が**「とても自然」**という評価を得ました。
  • 例え話: 料理人が作った料理を、現地のグルメが「おいしそうか、変な味がしないか」を味見したところ、「全部が本格的な味だった!」という結果になりました。

4. AI はどれくらいできるの?(「得意・不得意」の格差)

最後に、このテストを使って、最新の AI 6 種類に「読解力テスト」を受けさせました。

  • 結果: 英語やドイツ語など、データが多い言語では AI が非常に高得点を取りましたが、アフリカやアジアの多くの言語では、AI の成績はボロボロでした。
  • 例え話: 優秀な学生(AI)が、英語のテストでは 90 点を取れるのに、マイナーな言語のテストでは 20 点しか取れない状態です。「AI は世界中の言語を平等に理解している」と思われがちですが、実は言語による「格差」が非常に大きいことがわかりました。

まとめ:この研究のすごいところは?

  1. 世界最大級: 300 以上の言語をカバーする、前例のない巨大なテスト問題集を作った。
  2. 公平なテスト: 「答えを丸暗記」できないよう、問題を工夫して作っている。
  3. 現実の課題を突きつけた: AI は一部の言語では天才だが、多くの言語ではまだ未熟であることを、データで証明した。

この「MultiWikiQA」というテストは、今後、AI が世界中のすべての言語を本当に理解できるようになるための、**重要な物差し(基準)**として使われることになります。