Beyond Rows to Reasoning: Agentic Retrieval for Multimodal Spreadsheet Understanding and Editing

この論文は、単一パス検索の限界を克服し、反復的なツール呼び出しループとマルチモーダル検索を統合したエージェントフレームワーク「BRTR」を提案し、大規模な企業用スプレッドシートの理解と編集において最先端の性能を達成したことを報告しています。

Anmol Gulati, Sahil Sen, Waqar Sarguroh, Kevin Paul

公開日 2026-03-09
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「Excel のような巨大な表計算ファイルから、AI が正しく情報を引き出し、編集するまで」**をどうすれば可能になるかという課題に挑んだものです。

タイトルにある**「BRTR(Beyond Rows to Reasoning)」**という新しい仕組みを紹介しています。

以下に、専門用語を排し、身近な例え話を使って分かりやすく解説します。


🏢 従来の AI の問題点:「一発勝負」の限界

これまでの AI(大規模言語モデル)が Excel などの巨大なファイルを扱うとき、2 つの大きな問題がありました。

  1. 圧縮して読む方法
    • 例え:1000 ページある辞書を、1 ページに縮小してコピーしたようなもの。
    • 問題:細部がボヤけてしまい、重要な数字やグラフが見えなくなってしまう。
  2. 全部読み込む方法
    • 例え:図書館の全蔵書を一度に机の上に広げて、全部読もうとする。
    • 問題:AI の「記憶力(コンテキストウィンドウ)」がパンクして、混乱してしまい、何も答えられなくなる。

さらに、従来の AI は**「一度検索して、それで終わり」という「一発勝負」のスタイルでした。
もし最初の検索で必要な情報が見つかっていなければ、AI は「あ、見つからなかった」と言って諦めてしまいます。しかし、実際の人間の会計士や分析家は、
「あ、このデータが欲しいな。じゃあ、別のシートも見てみようか。あ、ここにはグラフがあった。じゃあ、そのグラフの元データを探そう」**のように、何度も試行錯誤しながら情報を集めます。

🚀 BRTR の解決策:「探偵」のような AI

この論文が提案するBRTRは、AI を「一発屋」から**「執念深い探偵」**に変える仕組みです。

1. 何度も質問し直す「反復ループ」

BRTR は、AI に**「ツールを使う」**ことを許可します。

  • 従来の AI:「答えは?」→「知らない(検索終了)」
  • BRTR の AI:「答えは?」→「まず A シートを見る」→「あ、B シートにヒントがあるかも」→「じゃあ B シートも検索」→「グラフも確認」→「よし、これで答えが出た!」

このように、**「検索 → 結果を見て判断 → さらに検索 → 結果を見て判断」**というループを回すことで、どんなに複雑で巨大なファイルでも、必要な証拠をすべて集めてから結論を出します。

2. 記憶の整理術(コンテキスト管理)

AI は何度も検索すると、会話の内容が膨大になりすぎて頭が混乱します。
BRTR は、**「古い画像データは捨てて、重要なメモだけ残す」**という賢い整理術を使います。

  • 例え:探偵が事件現場を調べる際、古い写真の現像液は捨てて、「どこで見たか」「何が書いてあったか」というメモだけをノートにまとめて持ち歩くようなものです。これにより、AI は記憶容量を圧迫されずに、長い作業を続けられます。

3. 指揮官と作業員(プランナー・エグゼキューター)

複雑な仕事(例:「売上を計算して、PDF にまとめて、メールで送って」)を任せる場合、BRTR は**「指揮官(プランナー)」「作業員(エグゼキューター)」**に分けます。

  • 指揮官:仕事を「計算」「ファイル作成」「送信」などに分解し、誰が何をするか指示します。
  • 作業員:それぞれの専門分野(Excel 操作、Web 検索、OCR 読み取りなど)を得意とするツールを使って、指示されたタスクを正確に実行します。
    これにより、一つの巨大な AI が全部やろうとして失敗するのを防ぎ、ミスが蓄積するのを防ぎます。

📊 どれくらいすごいのか?(実験結果)

この「探偵 AI」は、実際のテストで驚異的な結果を出しました。

  • FRTR ベンチマーク(複雑な企業データ)
    • 従来の AI は 74% 程度しか正解できませんでしたが、BRTR は**99%**の正解率を達成しました。
    • 例え:100 問のテストで、従来の AI は 25 問も間違えていたのに、BRTR は 1 問しか間違えませんでした。
  • FINCH ベンチマーク(現実の財務・会計業務)
    • 従来の自動化ツールが 40% 程度だったところ、BRTR は**95%**の正解率を叩き出しました。
    • 例え:難易度の高い料理のレシピを、他の人が半分しか作れなかったところ、BRTR は完璧に作ってしまいました。

また、**「どの AI モデルを使うか」**も実験しました。

  • 検索用の「目」をどのモデルにするか比較したところ、NVIDIA NeMoというモデルが、数字と画像が混ざった Excel データを見つけるのが最も得意でした。
  • 全体を動かす「頭脳」としては、GPT-5.2というモデルが、**「最も安く、かつ最も正確」**に作業をこなすことが分かりました。

💡 まとめ

この論文が伝えているのは、**「AI に Excel を扱わせるには、一度で全部を理解させようとするのではなく、人間のように『調べて、考えて、また調べて』というプロセスを繰り返させること」**が重要だということです。

  • 従来の方法:「全部読ませて、一発で答えさせよう」→ 失敗する。
  • BRTR の方法:「必要なところを何度も探させ、指揮官が管理して、ミスを防がせよう」→ 成功する。

これにより、企業は AI に複雑な財務分析やデータ編集を任せても、「誰が、いつ、何を調べたか」という記録(ツール呼び出しの痕跡)がすべて残るため、安心して業務を自動化できるようになります。

まるで、**「優秀な新人社員が、先輩の指示(プランナー)のもと、必要な書類を何度も探し出し、ミスを防ぎながら完璧な報告書を作る」**ようなシステムが完成したと言えます。