DocSage: An Information Structuring Agent for Multi-Doc Multi-Entity Question Answering

本論文は、複数のドキュメントに散在する複数の実体間の論理を追跡する難題に対処するため、動的なスキーマ発見、構造化情報抽出、およびスキーマ意識型の関係推論を統合したエンドツーエンドのエージェントフレームワーク「DocSage」を提案し、既存の LLM や RAG システムを大幅に上回る精度を達成したことを示しています。

Teng Lin, Yizhang Zhu, Zhengxuan Zhang, Yuyu Luo, Nan Tang

公開日 2026-03-13
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

📚 DocSage: 散らかった文書から「正解」を見つける天才・案内人

この論文は、**「DocSage(ドクセージ)」**という新しい AI 助手の紹介です。

想像してみてください。ある重要な質問(例えば「A 社と B 社の過去 10 年の業績を比較して、どちらがより成長したか?」)に対して、答えが数百枚のバラバラの報告書、契約書、ニュース記事に散らばっている状況を。

従来の AI は、この状況で「あちこちを読み飛ばして、なんとなく答えを推測しようとする」ため、重要な見落としや、事実と事実のつながりを間違えてしまうことがありました。

DocSage は、そんな従来の AI の弱点を克服するために生まれました。その仕組みを、**「図書館の司書」「料理人」**に例えて、わかりやすく解説します。


🧩 従来の AI の問題点:「散らかった部屋」での探し物

従来の AI(RAG や長い文章が読める AI)は、散らかった部屋で「赤い靴下」を探すようなものです。

  • 粗い検索: 「赤いもの」を探して、赤い本や赤い服を拾ってきてしまいます(重要ではない情報)。
  • つながりの欠如: 「A 社の社長」と「B 社の社長」が同じ人物だと気づかず、バラバラの事実として扱ってしまいます。
  • 集中力の低下: 本が山ほどあると、どこに何があったか忘れ、重要な事実を見落としてしまいます。

✨ DocSage の解決策:「整理整頓されたデータベース」を作る

DocSage は、ただ「探す」のではなく、**「まず部屋を整理し、必要な情報だけをテーブルに並べる」**というアプローチをとります。

このプロセスは、3 つのステップ(3 つの魔法の道具)で構成されています。

1. 🕵️‍♂️ ステップ 1:必要な道具を「その場」で考える(インタラクティブなスキーマ発見)

  • どんなこと?
    質問を聞いてから、まず「この質問に答えるために、どんな情報(名前、日付、金額など)が必要か?」を AI が考えます。
  • アナロジー:
    料理をする前に、レシピ(質問)を見て、「卵と牛乳が必要だ」と確認し、冷蔵庫(文書群)からそれらだけを取り出す準備をするようなものです。
  • すごい点:
    従来の AI は「とりあえず全部見よう」としますが、DocSage は**「必要なものだけ」**を特定するために、もし情報が足りなければ「あ、これがないな。どこかにあるはずだ」と自ら質問を作り、文書を探し回ります。

2. 📝 ステップ 2:バラバラの文章を「表」に書き直す(論理-aware な構造化抽出)

  • どんなこと?
    見つかった情報を、ただの文章ではなく、**「Excel のような表」**に変換します。
  • アナロジー:
    散らかったメモを、きれいな**「顧客管理表」「在庫表」**に書き写す作業です。
    • 「A 社の社長は 50 歳」→ 表の「A 社」行、「社長」列、「50 歳」セルに記入。
    • エラーチェック: もし「A 社の設立日が 2025 年なのに、社長が 100 歳」といった矛盾があれば、AI は「おかしいな?」と気づき、もう一度確認して直します(これを「エラー保証」と呼びます)。
  • すごい点:
    文章のままでは見落としやすい「矛盾」や「つながり」を、表という形にすることで、事実を正確に、漏れなく捉えます。

3. 🔗 ステップ 3:表を使って「推理」する(スキーマガイド型関係推論)

  • どんなこと?
    完成した表を使って、質問に答えます。
  • アナロジー:
    散らかったメモから答えを探すのではなく、「整理された表」を SQL(データベース検索言語)で検索するように、正確にデータを結びつけます。
    • 「A 社の社長」と「B 社の社長」の行を並べて、年齢や業績を比較する。
    • 「10 年前のデータ」と「現在のデータ」を繋げて、成長率を計算する。
  • すごい点:
    AI が「勘」で答えるのではなく、**「論理的な計算」**で答えるため、非常に正確です。また、表にまとまっているため、AI が「集中力を失って」重要な情報を見落とすこともありません。

🏆 結果:なぜ DocSage はすごいのか?

この方法を実際にテストしたところ、従来の最強の AI(GPT-4 など)や、他の検索システムと比較して、正解率が 27% 以上も向上しました。

  • 文書が 100 枚あっても: 性能が落ちません(従来の AI は文書が増えると混乱します)。
  • 複雑な比較: 「A 社と B 社、C 社の 3 社を比較して、最も利益率が高いのは?」といった、複数の文書と複数の企業をまたぐ質問に強く、**「事実のつなぎ合わせ」**が得意です。
  • 根拠が明確: 答えだけでなく、「どの文書の、どの部分からこの答えが出たか」まで正確に示せます。

💡 まとめ

DocSageは、単に「本を読む AI」ではなく、**「読んだ本を整理し、表にして、論理的に答えを導き出す『賢い司書』」**です。

  • 従来の AI: 散らかった部屋で「あ、これかな?」と推測する。
  • DocSage: まず部屋を片付け、必要なものを表に書き出し、計算機を使って正確に答えを出す。

この「構造化(整理整頓)」と「エージェント(自律的な行動)」の組み合わせが、複雑な情報の海から、確実な答えを引き出すための新しい鍵となりました。