Each language version is independently generated for its own context, not a direct translation.

この論文は、**「CMRAG（シー・ラッグ）」という新しい仕組みについて書かれています。これを一言で言うと、「複雑な書類（PDF やスライドなど）から正解を見つけるための、超優秀な『検索と回答』のチーム」**です。

従来の方法には大きな弱点がありましたが、CMRAG はそれを解決するために、「目（画像）」と「耳（文章）」の両方を使って、まるでバイリンガルの探偵のように働くのです。

以下に、難しい専門用語を排して、日常の例え話で解説します。

1. 従来の方法の「悩み」：片手しか使えない探偵

まず、この研究が始まる前の状況を想像してみてください。

方法 A（文章だけを使う探偵）：
書類をスキャンして、中の文字だけを抜き出して検索します。
- 弱点： 写真、グラフ、表、レイアウト（配置）などの「視覚的な情報」がすべて消えてしまいます。「このグラフのピークはいつ？」という質問には、文字だけじゃ答えられません。
方法 B（画像だけを使う探偵）：
書類をまるごと「写真」として AI に見せます。
- 弱点： 文字の読み取り精度が甘く、細かい数字や長い文章のニュアンスを見逃してしまいます。「このページの 3 行目に書かれている数字は何？」という質問には、画像だけだと見落としがちです。

つまり、**「文字だけだと視覚情報が消え、画像だけだと文字情報がボヤける」**というジレンマがありました。

2. CMRAG の解決策：「両利き」の探偵チーム

CMRAG は、この二つの弱点を同時に克服するために、「目（画像）」と「耳（文章）」を同時に使うチームを作りました。

① 共通の言語を作る（UEM：統一エンコーディングモデル）

探偵チームには、**「共通の辞書」**が必要です。

質問（クエリ）
書類の「画像」
書類の「抜き出した文章」

これらをすべて、**「同じ言語（ベクトル空間）」に翻訳します。
例えば、「このグラフの傾向は？」という質問も、「グラフの画像」も、「グラフのデータが書かれた文章」も、すべて「同じ意味のコード」**に変換します。こうすることで、AI は「画像」と「文章」を同じ土俵で比較できるようになります。

② 公平な採点システム（UCMR：統一スコア調整）

ここが最も重要なポイントです。

「画像のスコア」は 0〜100 点満点で出やすい。
「文章のスコア」は 0〜10 点満点で出やすい。

このまま足し算すると、画像のスコアが圧倒的に有利になり、文章の重要性が軽視されてしまいます。
CMRAG は、**「両方のスコアを同じ基準（平均と標準偏差）に揃える」**という魔法をかけます。

例え話： 野球の「打率」とサッカーの「得点」を足して「最強選手」を決めようとするとき、そのまま足すと意味がありません。CMRAG は「両方とも『0 点から 100 点』の基準に直してから」足し算します。これにより、画像と文章が公平に協力して、最も関連性の高いページを見つけ出せます。

3. 実際の効果：なぜこれがすごいのか？

この仕組みを使うと、以下のようなことが可能になります。

例え話： 会社の「決算報告書」を調べたいとします。
- 従来の方法： 文字だけだと「利益が 10% 増」という文章は見つかるが、そのグラフの形まではわからない。画像だけだと「グラフが急上昇している」ことはわかるが、正確な「10%」という数字は見逃す。
- CMRAG： 「利益が 10% 増」という文章で検索しつつ、そのグラフの形も同時に確認。両方の情報を組み合わせて、「あ、このページだ！」と正確に特定し、さらに「10% 増です」と正確に回答できます。

4. まとめ：どんな時に役立つ？

この技術は、以下のような場面で大活躍します。

企業の知識検索： 何百ページもあるマニュアルや報告書から、「この故障の対処法は？」と聞かれたとき、図解と説明文の両方を瞬時に照らし合わせて正解を導く。
技術サポート： 機械の故障画面（画像）とエラーコード（文字）を同時に見て、原因を特定する。
学術研究： 複雑な論文のグラフと数式、説明文を横断して理解する。

結論

この論文が伝えたかったことはシンプルです。
「画像だけ、あるいは文章だけを使うのは、片目で世界を見ているようなもの。両方の目を（そして耳も）使って、情報を統合すれば、もっと賢く、正確に答えを見つけられる」

CMRAG は、その「両方の目」を同時に使うための、画期的な検索システムなのです。

Each language version is independently generated for its own context, not a direct translation.

CMRAG: 視覚ドキュメント検索・質問応答のための共モダリティ基盤アプローチ

技術的サマリー（日本語）

本論文は、ICLR 2026 Multimodal Intelligence Workshop で発表された「CMRAG（Co-Modality–based RAG）」という新しいフレームワークを提案するものです。これは、視覚的に豊かなドキュメント（PDF、スキャン記事など）に対する質問応答（VDQA）タスクにおいて、テキストと画像の両方のモダリティを統合的に活用し、従来の単一モダリティ手法の限界を克服することを目的としています。

以下に、問題定義、手法、主要な貢献、実験結果、および意義について詳細をまとめます。

1. 背景と問題定義

大規模言語モデル（LLM）は外部知識を統合する RAG（Retrieval-Augmented Generation）によって性能が向上していますが、ドキュメントはテキストだけでなく、図表、数式、複雑なレイアウトを含むマルチモーダルな情報を含んでいます。既存のアプローチには以下の課題がありました：

テキストベース RAG: レイアウト解析と OCR によるテキスト抽出に依存するため、画像や非構造化コンテンツの情報を失い、視覚的な文脈を捉えられない。
画像ベース RAG: ドキュメントページを直接画像として VLM（Vision Language Model）に入力するが、テキストが持つ精密な意味情報を軽視しており、検索や生成の精度が最適化されていない。

これらの課題を解決し、テキストと画像の両方の利点を同時に活用する統合的なアプローチが必要とされています。

2. 提案手法：CMRAG フレームワーク

CMRAG は、クエリ、抽出されたテキスト、および画像を統合的に処理するための 2 つの主要コンポーネントで構成されています。

(1) 統一エンコーディングモデル (UEM: Unified Encoding Model)

目的: クエリ、ドキュメント画像、および構造化された抽出テキストを、**共有された潜在空間（埋め込み空間）**に投影すること。
アーキテクチャ: SigLIP をベースとし、クエリエンコーダ（ $E_q$ $E_{q}$ ）、画像エンコーダ（ $E_I$ $E_{I}$ ）、テキストエンコーダ（ $E_T$ $E_{T}$ ）の 3 つを組み合わせた単一のアーキテクチャを採用。
- $E_q$ と $E_I$ は事前学習済みモデルを凍結し、大規模なマルチモーダルアライメントを維持。
- $E_T$ は $E_q$ のコピーから初期化し、長いドキュメントテキストを処理できるように拡張。
学習手法: Dual-Sigmoid Alignment (DSA) ロスを採用。クエリ - テキストペアとクエリ - 画像ペアの両方に対して、シグモイド関数に基づく対照学習（contrastive learning）を行い、異なるモダリティ間の整合性を確保します。

(2) 統一共モダリティ情報に基づく検索 (UCMR: Unified Co-Modality–informed Retrieval)

課題: テキストと画像の類似度スコアは、スケールや分布が異なり、単純に重み付け加算しても最適な結果が得られません。
解決策: 統計的な正規化を用いて、両モダリティのスコアを比較可能な分布に変換します。
1. シグモイド正規化: 内積スコアを [0, 1] の範囲に変換。
2. Z-score 正規化: 各モダリティのスコア分布の平均と標準偏差を用いて標準化（Z-score）を行い、分布の偏りを除去。
3. 統合スコア: 正規化されたスコアを重み付けして最終的な検索スコアを算出します。これにより、テキストと画像の信頼性をバランスよく融合できます。

検索・生成フロー

オフライン処理: ドキュメントページを VLM で解析し、画像と構造化テキスト（HTML 形式など）を抽出。UEM でそれぞれをエンコードし、インデックスに登録。
オンライン検索: ユーザーのクエリをエンコードし、UCMR によってテキスト・画像両方のインデックスから関連性の高いページをトップ-k 検索。
生成: 検索された共モダリティ証拠（画像とテキスト）を VLM 生成器に入力し、回答を生成。

3. データセット構築

研究を支援するため、大規模なトリプルデータセット（クエリ、テキスト、画像）を構築・公開しました。

学習データ: VisRAG の合成データ（約 24 万ペア）を基に、Qwen2.5-VL-7B を用いてドキュメントページを再解析し、ページ画像、セグメント画像、OCR テキストを構造化して作成。
評価データ: MMLongBench, REAL-MM-RAG, LongDocURL などの主要な VDQA ベンチマークを使用。

4. 実験結果

複数の VDQA ベンチマーク（MMLongBench, FinReport, TechSlides など）において、CMRAG は以下の結果を示しました。

検索性能 (MRR@10): 既存のテキスト専用モデル（BGE）や画像専用モデル（CLIP, SigLIP）を単独で上回り、テキストと画像の恩恵を両立しました。特に、テキストが豊富なドキュメント（FinReport）ではテキストベースの強み、視覚構造が重要なドキュメント（Slides）では画像ベースの強みを活かしています。
生成性能: 高品質な共モダリティ検索により、生成された回答の精度が向上しました。
アブレーション研究:
- UCMR による正規化を行わない場合、性能が大幅に低下することから、スコアの分布統一の重要性が確認されました。
- 大規模なデータセットで学習した別モデル（SigLIP + BGE）との比較では、UEM の性能はさらに向上する余地があることが示唆されました。
ケーススタディ: 密集したテキストを含む財務報告書において、画像のみでは数値の読み取りに失敗するケースに対し、CMRAG は抽出テキストを補完として活用し、正確な回答を導出しました。

5. 主要な貢献

CMRAG の提案: テキストと画像の表現を統合し、視覚ドキュメントの検索・生成を大幅に改善する新しい RAG フレームワーク。
UEM の開発: 単一のエンコーダセットで全モダリティを処理し、シグモイド損失を用いたエンドツーエンド学習により統一埋め込み空間を構築。
UCMR の提案: 統計的正規化を用いて視覚・テキストの類似度スコアを効果的に融合し、クロスモーダルなスコア融合の課題を解決。
大規模データセットの公開: 研究コミュニティ向けに、(クエリ，画像，テキスト) のトリプルからなる大規模データセットを公開。
広範な評価: 複数のベンチマークで単一モダリティの強力なベースラインを上回る性能を実証。

6. 意義と将来展望

CMRAG は、OCR のみに依存する手法や純粋な画像処理のみに依存する手法の両方の限界を克服し、**「共モダリティ（Co-Modality）」**の統合が VDQA において有効であることを実証しました。

実用性: 企業のナレッジ検索（スライド、マニュアル、スキャン PDF）、技術サポート、学術ドキュメントの支援など、多様な実世界アプリケーションに適用可能です。
将来の課題: 検索コンテキストの量やモダリティを動的に制御することで、回答不能な質問への誤回答を防ぎ、さらに効率と精度を向上させることが今後の方向性として示唆されています。

本論文は、複雑なマルチモーダルドキュメント理解において、テキストと視覚情報の統合的な扱いが不可欠であることを明確に示し、今後の RAG システム開発の指針となる重要な研究です。

CMRAG: Co-modality-based visual document retrieval and question answering