MoDora: Tree-Based Semi-Structured Document Analysis System

この論文は、OCR による要素の断片化や階層構造の欠如、情報の散在といった課題を解決するため、レイアウト感知コンポーネントの抽出、階層的な構造モデル化を行う Component-Correlation Tree (CCTree) の構築、および質問タイプに応じた検索戦略を組み合わせることで、半構造化ドキュメントの分析と自然言語による質問応答の精度を大幅に向上させる LLM 駆動システム「MoDora」を提案しています。

Bangrui Xu, Qihang Yao, Zirui Tang, Xuanhe Zhou, Yeye He, Shihan Yu, Qianqian Xu, Bin Wang, Guoliang Li, Conghui He, Fan Wu

公開日 2026-03-02
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

MoDora:複雑な書類を「木」のように整理して、正解を見つけるシステム

こんにちは!今日は、**MoDora(モドラ)**という新しいシステムについて、難しい専門用語を使わずに、わかりやすくご紹介します。

このシステムは、「複雑に混ざり合った書類(表、グラフ、文章がごちゃごちゃになったもの)」を、人間が自然な言葉で質問したときに、正確に答えを見つけるための助手です。


🌪️ 今までの「困った」問題:書類の迷路

まず、なぜ新しいシステムが必要だったのか、想像してみてください。

あなたは、**「冬の間のデコキナート(薬)を与えた鶏の羽のスコアはいくつ?」という質問をされたとします。
答えは、ある科学レポートの
「2 ページの表」「1 ページの文章」**を結びつける必要があります。

しかし、従来の AI や検索システムは、この書類をこう見ていました:

  1. OCR(文字読み取り)の失敗: 文字だけバラバラに切り取られ、「表」と「文章」のつながりが消えてしまう。まるで、パズルのピースをすべてバラバラにして、箱に放り込んだ状態です。
  2. 構造の無視: 「表」が「どの章」に属しているか、あるいは「サイドバー(余白)」と「本編」の区別がつかない。まるで、図書館の本をすべて床に積み上げ、表紙も背表紙も無視した状態です。
  3. 情報の散らかり: 答えに必要な情報が、ページをまたがって散らばっているため、AI は「あっちもこっちも」と迷走して、間違った答え(ハルシネーション)を言ってしまう。

これでは、正確な答えは出せませんよね?


🌳 MoDora の解決策:書類を「生きている木」に変える

MoDora は、このバラバラな書類を、**「一本の大きな木(Component-Correlation Tree:CCTree)」**に変えて整理します。

1. 葉っぱを集めて「枝」を作る(ローカル・アライメント)

まず、OCR で読み取ったバラバラの文字や表を、**「意味のあるひとかたまり(コンポーネント)」**にまとめます。

  • 例え: 本棚から落ちた「タイトル」と「本文」のページを拾い集めて、**「1 つの章(枝)」**としてくっつけます。
  • さらに、表やグラフには「タイトル」や「説明」を自動でつけて、**「データ付きの果実」**にします。

2. 木を育てる(CCTree の構築)

次に、それらの「枝」を、**「木」**として組み立てます。

  • 幹(ルート): 書類全体のタイトル。
  • 枝: 「第 1 章」「第 2 章」など、階層構造でつながります。
  • 葉: 具体的な表やグラフ、本文。
  • 特別な枝: 頁数やフッター(余白)は、メインの木とは別の「小さな木」として分け、本編の邪魔をしないようにします。

このようにして、書類の**「全体像」と「細部」の関係**が、木のように明確にわかります。

3. 下から上へ「要約」を伝える(ボトムアップ要約)

木が完成したら、「葉っぱの情報を、枝、そして幹へと上へ上へと伝えていきます」

  • 下の葉(表や文章)の内容を、AI が要約して「キーワード」として上の枝に伝えます。
  • これにより、「幹(トップ)」を見ただけで、その下の「葉(詳細)」に何があるかがわかるようになります。

🔍 質問に答える方法:賢い「探偵」の動き

さて、木が完成しました。ここで「冬の間のデコキナート組のスコアは?」と質問が来ます。MoDora は 2 つの探偵を派遣します。

探偵 A:場所を探す探偵(ロケーション検索)

  • 役割: 「1 ページの右下」や「表の 3 行目」といった**「場所」**のヒントから、正確な場所を特定します。
  • 方法: 書類を 3×3 のマス目(グリッド)に分けて、「ここだ!」とピンポイントで狙います。

探偵 B:意味を探す探偵(意味検索)

  • 役割: 「冬の」「スコア」といった**「意味」**から、関連する木の一部を探します。
  • 方法:
    1. 木を登る(フォワード検索): 木の枝を登りながら、「この枝に答えがありそうか?」を AI が判断して、不要な枝を切り捨てます(剪定)。
    2. 裏付けを取る(バックワード検証): 候補に残った枝を、もう一度詳しく見て、「本当に答えが含まれているか?」を厳しくチェックします。

🏆 最終回答

2 つの探偵が見つけた証拠(テキスト、表、場所の画像)をすべて集め、**「最終的な裁判官(AI)」が、それらを組み合わせて「3.20」**という正解を導き出します。


🌟 なぜ MoDora はすごいのか?

  • 他のシステムは: 書類を「平らなテキスト」や「ただの画像」として見て、関係性を失ってしまいます。
  • MoDora は: 書類を**「生きている木」**として理解します。
    • 表と文章のつながり(親子関係)を把握できる。
    • 本編と余白(サイドバー)を区別できる。
    • 散らばった情報を、木を登ることで効率よく集められる。

実験の結果、MoDora は既存の最高のシステムよりも5%〜60% 以上も正確に答えられることがわかりました。

💡 まとめ

MoDora は、**「ごちゃごちゃした書類を、整理された木に変え、その木を登りながら正解を見つける」という、まるで「賢い図書館司書」**のようなシステムです。

これにより、複雑なレポートや契約書、科学論文から、瞬時に必要な情報を引き出せるようになるのです! 🌳📄✨

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →