Each language version is independently generated for its own context, not a direct translation.

📚 DocSage: 散らかった文書から「正解」を見つける天才・案内人

この論文は、**「DocSage（ドクセージ）」**という新しい AI 助手の紹介です。

想像してみてください。ある重要な質問（例えば「A 社と B 社の過去 10 年の業績を比較して、どちらがより成長したか？」）に対して、答えが数百枚のバラバラの報告書、契約書、ニュース記事に散らばっている状況を。

従来の AI は、この状況で「あちこちを読み飛ばして、なんとなく答えを推測しようとする」ため、重要な見落としや、事実と事実のつながりを間違えてしまうことがありました。

DocSage は、そんな従来の AI の弱点を克服するために生まれました。その仕組みを、**「図書館の司書」や「料理人」**に例えて、わかりやすく解説します。

🧩 従来の AI の問題点：「散らかった部屋」での探し物

従来の AI（RAG や長い文章が読める AI）は、散らかった部屋で「赤い靴下」を探すようなものです。

粗い検索: 「赤いもの」を探して、赤い本や赤い服を拾ってきてしまいます（重要ではない情報）。
つながりの欠如: 「A 社の社長」と「B 社の社長」が同じ人物だと気づかず、バラバラの事実として扱ってしまいます。
集中力の低下: 本が山ほどあると、どこに何があったか忘れ、重要な事実を見落としてしまいます。

✨ DocSage の解決策：「整理整頓されたデータベース」を作る

DocSage は、ただ「探す」のではなく、**「まず部屋を整理し、必要な情報だけをテーブルに並べる」**というアプローチをとります。

このプロセスは、3 つのステップ（3 つの魔法の道具）で構成されています。

1. 🕵️‍♂️ ステップ 1：必要な道具を「その場」で考える（インタラクティブなスキーマ発見）

どんなこと？
質問を聞いてから、まず「この質問に答えるために、どんな情報（名前、日付、金額など）が必要か？」を AI が考えます。
アナロジー:
料理をする前に、レシピ（質問）を見て、「卵と牛乳が必要だ」と確認し、冷蔵庫（文書群）からそれらだけを取り出す準備をするようなものです。
すごい点:
従来の AI は「とりあえず全部見よう」としますが、DocSage は**「必要なものだけ」**を特定するために、もし情報が足りなければ「あ、これがないな。どこかにあるはずだ」と自ら質問を作り、文書を探し回ります。

2. 📝 ステップ 2：バラバラの文章を「表」に書き直す（論理-aware な構造化抽出）

どんなこと？
見つかった情報を、ただの文章ではなく、**「Excel のような表」**に変換します。
アナロジー:
散らかったメモを、きれいな**「顧客管理表」や「在庫表」**に書き写す作業です。
- 「A 社の社長は 50 歳」→ 表の「A 社」行、「社長」列、「50 歳」セルに記入。
- エラーチェック: もし「A 社の設立日が 2025 年なのに、社長が 100 歳」といった矛盾があれば、AI は「おかしいな？」と気づき、もう一度確認して直します（これを「エラー保証」と呼びます）。
すごい点:
文章のままでは見落としやすい「矛盾」や「つながり」を、表という形にすることで、事実を正確に、漏れなく捉えます。

3. 🔗 ステップ 3：表を使って「推理」する（スキーマガイド型関係推論）

どんなこと？
完成した表を使って、質問に答えます。
アナロジー:
散らかったメモから答えを探すのではなく、「整理された表」を SQL（データベース検索言語）で検索するように、正確にデータを結びつけます。
- 「A 社の社長」と「B 社の社長」の行を並べて、年齢や業績を比較する。
- 「10 年前のデータ」と「現在のデータ」を繋げて、成長率を計算する。
すごい点:
AI が「勘」で答えるのではなく、**「論理的な計算」**で答えるため、非常に正確です。また、表にまとまっているため、AI が「集中力を失って」重要な情報を見落とすこともありません。

🏆 結果：なぜ DocSage はすごいのか？

この方法を実際にテストしたところ、従来の最強の AI（GPT-4 など）や、他の検索システムと比較して、正解率が 27% 以上も向上しました。

文書が 100 枚あっても: 性能が落ちません（従来の AI は文書が増えると混乱します）。
複雑な比較: 「A 社と B 社、C 社の 3 社を比較して、最も利益率が高いのは？」といった、複数の文書と複数の企業をまたぐ質問に強く、**「事実のつなぎ合わせ」**が得意です。
根拠が明確: 答えだけでなく、「どの文書の、どの部分からこの答えが出たか」まで正確に示せます。

💡 まとめ

DocSageは、単に「本を読む AI」ではなく、**「読んだ本を整理し、表にして、論理的に答えを導き出す『賢い司書』」**です。

従来の AI: 散らかった部屋で「あ、これかな？」と推測する。
DocSage: まず部屋を片付け、必要なものを表に書き出し、計算機を使って正確に答えを出す。

この「構造化（整理整頓）」と「エージェント（自律的な行動）」の組み合わせが、複雑な情報の海から、確実な答えを引き出すための新しい鍵となりました。

Each language version is independently generated for its own context, not a direct translation.

DocSage: 多ドキュメント・多エンティティ質問応答のための情報構造化エージェント

技術的サマリー（日本語）

本論文は、散在する複数の非構造化ドキュメントにまたがる暗黙的な論理を追跡し、複数のエンティティ間の関係を推論する「多ドキュメント・多エンティティ質問応答（MDMEQA）」タスクにおける既存手法の限界を克服する新しいエージェントフレームワーク**「DocSage」**を提案するものです。

以下に、問題定義、手法、主要な貢献、実験結果、および意義について詳細にまとめます。

1. 問題定義と既存手法の限界

MDMEQA は、臨床研究、金融分析、法務など、高リスクな意思決定分野において不可欠なタスクです。しかし、既存の手法には以下の根本的な課題があります。

大規模言語モデル（LLM）の限界: 長いコンテキストウィンドウを持つモデルであっても、分散したテキストセグメント間のすべてのエンティティ関係を追跡できず、「注意の拡散（attention diffusion）」や「文脈希薄化（contextual dilution）」により重要な事実を見落とす傾向があります。
標準的な RAG（検索拡張生成）の限界: ベクトル類似性に基づく粗粒度の検索は、セマンティックな重なりを優先するあまり、ドキュメント間推論に必要な重要な事実（特に特定のエンティティ間の関係）を見落とすことがあります。
グラフベース RAG の限界: エンティティ関係をトリプルとしてモデル化しますが、ドキュメント数が増えるにつれて複雑な関係ネットワークを効率的に統合できず、グラフ構築の計算コストが膨大になります。
スキーマ意識の欠如: これらの手法の共通欠点は、クエリに特化した明示的な構造化表現（スキーマ）を持たないことです。その結果、断片的な証拠の連鎖が構築できず、エンティティの推論精度が低下します。

2. 提案手法：DocSage フレームワーク

DocSage は、非構造化テキストを動的なクエリ特化型の関係表現に変換するエンドツーエンドのエージェントフレームワークです。3 つの相互依存するコアモジュールで構成されています。

(1) インタラクティブ・スキーマ発見モジュール (Interactive Schema Discovery)

目的: クエリに特化した最小限の結合可能スキーマ（ $S_q$ ）を動的に推論します。
アルゴリズム (ASK): 従来の受動的なスキャンではなく、「知識探索型クエリ（Knowledge-seeking Queries）」を用いた対話プロセスを採用します。
- ステップ 1: 初期スキーマ仮説の生成。
- ステップ 2: スキーマの一貫性分析と疑問生成。エンティティの整合性衝突、属性値の異常、欠落する関係などの不確実性を検出。
- ステップ 3: 疑問に対する回答検索とスキーマの反復更新。
- ステップ 4: 収束判定。
効果: 入力テキストに明示されていない要素も含め、クエリ回答に必要なエンティティと関係を網羅的に特定します。

(2) ロジック意識型構造化抽出モジュール (Logic-Aware Structured Extraction)

目的: 非構造化ドキュメントを意味的に整合性のある関係テーブルに変換し、抽出エラーを最小化します。
メカニズム (CLEAR):
- レベル A（単一ポイント信頼度評価）: LoRA による微調整とコンフォーマル予測を用いて、各抽出タプルの信頼度を較正します。
- レベル B（クロスレコード論理整合性チェック）: スキーマ依存の論理制約（機能的依存、時間的制約、数値範囲、外部キー参照整合性など）を定義し、違反するタプルを検出します。
修正ワークフロー: 信頼度が低い、または論理違反があるタプルに対し、より強力な LLM による再抽出や、検証・曖昧さ除去サブモジュールによる深層分析を行い、高品質な関係データベース（ $DB_q$ ）を構築します。

(3) スキーマ誘導型関係推論モジュール (Schema-Guided Relational Reasoning)

目的: 構築された構造化データ上で多段推論を実行します。
プロセス:
- クエリコンパイル: 推論用 LLM が自然言語クエリを SQL クエリに変換します。明示的な結合キーとスキーマ情報により、最適化された結合順序やフィルタのプッシュダウンが可能になります。
- 証拠の追跡と回答生成: SQL 実行結果から、元のドキュメントの特定の位置へのプロベナンス（出所）を自動的に追跡し、論理的に検証されたデータに基づいて最終回答を生成します。
効果: 注意の拡散を排除し、大規模なドキュメント集合にわたってもエンティティ関係を正確に追跡・証拠を集約できます。

3. 主要な貢献

動的スキーマ発見とエージェント設計: クエリに特化したスキーマを自律的に発見・構築し、非構造化データの断片化とスキーマ不足の問題を解決する新しいパラダイムを提示しました。
エラー保証付き構造化抽出: CLEAR メカニズムにより、抽出の確からしさを定量化し、論理制約に基づいてエラーを修正・是正する仕組みを導入しました。
SQL 駆動型の正確な推論: 構造化テーブルと SQL によるインデックス化により、事実の局所化を精密に行い、ドキュメント間でのエンティティ結合をネイティブにサポートします。

4. 実験結果

2 つの主要な MDMEQA ベンチマーク（MEBench と Loong）での評価により、DocSage は最先端（SOTA）の手法を大幅に上回る性能を示しました。

MEBench 結果:
- 全体精度で 89.2% を達成。
- 次点の手法（GPT-4o + RAG: 62.0%）と比較して、27.2 ポイントの精度向上。
- エンティティ数が増加するにつれて性能が低下する傾向（Set1: 0-10 個 $\to$ Set3: 100 個超）において、DocSage は 91.8% から 87.9% へのわずかな低下にとどまり、他手法（GPT-4o + RAG は 76.4% から 41.5% へ急落）に比べて圧倒的なロバスト性を示しました。
Loong 結果:
- ドキュメント長が長い（200K-250K トークン）環境でも、Perfect Rate（完全正解率）で 0.47 を達成（次点の 0.26 を大きく上回る）。
- 「スポットライト発見（Spotlight Locating）」や「推論チェーン（Chain of Reasoning）」といった複雑なタスクにおいて、他手法を凌駕する精度を維持しました。

5. 意義と結論

DocSage は、MDMEQA タスクにおいて、非構造化データの断片化とスキーマの欠如という核心的な課題に対して、「構造化データ表現」と「エージェント的ワークフロー」の統合が有効な解決策であることを実証しました。

実用性: 医療、金融、法務など、高い正確性と証拠の追跡可能性が求められる分野での意思決定支援に直接応用可能です。
学術的意義: 単なる検索や生成の改善ではなく、情報の「構造化（Structuring）」を推論プロセスの中心に据えることで、LLM の注意メカニズムの限界を克服する新しいアプローチを示しました。

本論文は、複雑な推論タスクにおいて、動的な構造誘導を中心としたエージェント設計が、分散した大規模ドキュメント集合からの情報抽出と推論を飛躍的に向上させることを示しています。

DocSage: An Information Structuring Agent for Multi-Doc Multi-Entity Question Answering