Retrieval or Representation? Reassessing Benchmark Gaps in Multilingual and Visually Rich RAG

この論文は、多言語および視覚的に豊かな文書における RAG ベンチマークの性能向上が、主に高度な検索モデルによるものではなく、文書表現(文字起こしや前処理)の改善によるものであることを示し、検索能力と文字起こし能力を分離して評価する必要性を提唱しています。

Martin Asenov, Kenza Benkirane, Dan Goldwater, Aneiss Ghodsi

公開日 2026-03-05
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

「検索」か「表現」か?

多言語・画像満載のドキュメント検索に関する論文の解説

この論文は、**「AI が文書を検索する能力」を評価する際、私たちは何を本当に測っているのか?**という根本的な疑問に迫るものです。

タイトルにある「I Can't Believe It's Not Better(信じられないほど優れていない)」は、かつての「BM25(従来の検索技術)」が、最新の「マルチモーダル AI(画像も文字も理解する AI)」に劣っているように見えた現象を皮肉ったものです。しかし、著者たちは**「実は、最新の AI が優れているのではなく、単に『文字起こし(OCR)』の質が良かっただけだった」**と結論づけています。

以下に、この論文の核心を料理や探偵活動に例えて、わかりやすく解説します。


1. 物語の舞台:「複雑なレシピ本」を探す探偵たち

想像してください。世界中の料理店から集まった**「写真付きの複雑なレシピ本」**があるとします。

  • 多言語: 日本語、アラビア語、チェコ語など、15 種類の言語が混在。
  • 視覚的: 文字だけでなく、料理の写真、グラフ、表、図解が満載。

探偵(検索システム)は、「このレシピ本の中から、特定の料理のページを探してください」という指令を受け取ります。

従来の探偵(BM25)

昔ながらの探偵は、**「キーワード」**で探します。「パスタ」「トマト」という単語がページに何回出てくるかで順位を決めます。

  • 弱点: 写真の中の文字が読めなかったり、アラビア語の文字の並びを正しく区切れなかったりすると、探偵は「ここにはパスタという言葉がない」と誤って判断してしまいます。

最新の探偵(マルチモーダル AI)

最新の探偵は、**「写真そのもの」**を見ながら、意味を理解して探します。

  • 強み: 写真を見て「これはパスタだ」と直感的にわかります。
  • 結果: 従来の探偵よりも圧倒的に上手にページを見つけられるように見えました。

2. 発見:「魔法の眼鏡」の正体

著者たちは、この「最新の探偵」の勝利に疑問を持ちました。「本当に検索技術が進歩したのか?それとも、『文字起こし(OCR)』という前処理が良かっただけではないか?」

そこで、彼らは**「検索アルゴリズム(探偵の頭脳)」を固定したまま**、**「文字起こしの質(眼鏡)」**だけを変えて実験を行いました。

実験の結果:驚きの逆転

  • 悪い眼鏡(古い OCR): 写真の中の文字を「ガラクタ」や「意味不明な記号」として認識してしまう。
    • → 従来の探偵(BM25)は、**「検索できない」**と判断され、成績が悪化。
  • 良い眼鏡(最新の OCR + 言語処理): 写真の中の文字を正確に読み取り、言語ごとのルール(語尾変化など)に合わせて整理する。
    • 同じ従来の探偵(BM25)でも、成績が劇的に向上!
    • なんと、最新の AI と同等、あるいはそれ以上の成績を叩き出しました。

【比喩で言うと】

  • 悪い眼鏡: 本を汚いスモークガラス越しに見ている状態。文字が読めないので、探偵は「本に答えがない」と勘違いする。
  • 良い眼鏡: クリスタル-clear なガラス。文字がくっきり見えるので、昔ながらの探偵でも「答えはここにある!」と見つけられる。

結論: 検索技術そのものが劇的に進歩したのではなく、「入力されるデータの質(文字起こし)」が向上しただけだったのです。


3. 具体的な課題:言語ごとの「難易度」

この論文では、言語によって必要な「眼鏡の調整」が違うことも発見しました。

  • アラビア語や日本語(文字の区切りが難しい言語):
    • 単に文字を認識するだけではダメです。「単語の区切り」や「語尾の変化」を正しく処理する**「言語処理」**が不可欠です。
    • 例: アラビア語は文字が繋がって見えるため、正しく分解しないと検索できません。
  • チェコ語やスロベニア語(語尾変化が激しい言語):
    • 文字を認識できても、「走る」「走った」「走ろう」という形の違いを統一しないと、検索に引っかかりません。
    • 例: 「語尾を整理する(見出し語に戻す)」処理が重要です。

4. 写真(図表)が重要な場合の「魔法の言葉」

特に「グラフや図解」が多いページでは、「写真の中に何があるか」を説明するテキストがなければ、検索は失敗します。

  • 失敗例: 写真の中に「売上グラフ」があるが、OCR は「ただの線と数字」しか読み取れない。
    • → 検索クエリ「2023 年の売上」がヒットしない。
  • 成功例: 最新の AI(VLM)を使って、「このグラフは 2023 年の売上を示しており、ピークは 11 月です」という説明文を自動生成して追加する。
    • → 従来の探偵でも、この説明文のおかげで見事にページを見つけられます。

【比喩で言うと】

  • 写真の中に隠された「宝物(答え)」があるのに、**「宝物の場所が書かれたメモ」**がないと、探偵は宝の山を見ても気づきません。
  • 最新の AI は、その「メモ(説明文)」を自動で書いてくれるので、探偵の成績が跳ね上がります。

5. 私たちが学ぶべき教訓

この論文が私たちに伝えたいメッセージは以下の通りです。

  1. 「検索技術」のせいにしない:
    検索システムがうまくいかない時、それは「検索アルゴリズム」が悪いからではなく、「入力データの質(文字起こしや前処理)」が悪いからである可能性が高いです。
  2. 評価基準の見直し:
    「最新の AI が古い技術より優れている」という評価は、「OCR(文字起こし)の質」が混ざり合っているため、正しく比較できていないかもしれません。
    • 例: 「検索能力」を測りたいのに、「文字読み取り能力」まで含めて評価してしまっている。
  3. OCR は「検索の一部」:
    文字起こし(OCR)は単なる前処理ではなく、検索システムの重要な一部として扱われるべきです。

まとめ

この論文は、**「最新の AI が魔法のように見えるのは、実は『良い眼鏡(高品質な文字起こし)』をかけたからに過ぎない」**と告げています。

私たちが本当に目指すべきは、単に新しい AI モデルを作るだけでなく、**「多様な言語や複雑な画像を、いかに正確に『言葉』に変換するか」**という、土台となる部分の改善に力を入れることなのです。

「検索」か「表現」か?
答えは、**「表現(データの質)が良ければ、昔ながらの検索でも十分勝てる」**ということです。