FinSheet-Bench: From Simple Lookups to Complex Reasoning, Where LLMs Break on Financial Spreadsheets

この論文は、実業界の機密データに代わる合成データを用いたベンチマーク「FinSheet-Bench」を提案し、主要な大規模言語モデル(LLM)が複雑な財務スプレッドシートからの情報抽出や数値推論において依然として高い誤り率を示しており、専門的な金融用途での自律的な利用には文書理解と確定的な計算を分離するアーキテクチャの導入が必要であると結論付けています。

Jan Ravnik, Matjaž Ličen, Felix Bührmann, Bithiah Yuan, Felix Stinson, Tanvi Singh

公開日 2026-03-10
📖 2 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI(大規模言語モデル)が、複雑な財務の Excel スプレッドシートをどれだけ正しく読めるか」**をテストした報告書です。

タイトルは『FinSheet-Bench』。まるで「AI による財務スプレッドシートテスト」のようなものです。

以下に、専門用語を排し、わかりやすい比喩を使って解説します。


🏠 1. 背景:AI は「文章」は得意だが、「表」は苦手?

最近の AI(GPT-5 や Gemini など)は、本やメールを読むのが非常に上手になりました。しかし、「投資判断」をするために必要な、複雑な Excel ファイルになると話は別です。

  • 現実の課題: 投資家(LP)は、私募ファンド(PE)のポートフォリオを評価するために、何百もの Excel ファイルをチェックする必要があります。
  • 問題: これらのファイルは、会社によって形がバラバラです。結合セルがあったり、見出しが何行にもまたがっていたり、色や太字で意味を伝えています。
  • AI の現状: 現在の AI は、これらの「ごちゃごちゃした表」から数字を正確に読み取り、計算する能力がまだ十分ではありません。

🧪 2. 実験:「FinSheet-Bench」というテスト

なぜ AI の能力が測れていないのか?それは、**「本物の投資データは機密情報だから、公開できないから」**です。

そこで著者たちは、**「本物の財務データと同じ構造(レイアウト)を持った、人工的に作られた(合成)データ」**を作成しました。これを「FinSheet-Bench」と呼びます。

  • 比喩: 本物の銀行の金庫(機密データ)は開けられませんが、その金庫の**「中身と全く同じ形をした、おもちゃの金庫」**を 24 個作って、AI に解かせました。
  • 内容: 24 種類のファイル(シンプルなものから、152 社ものデータが入った巨大なものまで)を用意し、10 種類の最新 AI モデルに質問させました。

📊 3. 結果:AI は「単純な検索」は得意だが、「計算」は苦手

実験の結果、面白い傾向が浮かび上がりました。

✅ 得意なこと:「どこに何があるか探す」

  • 例: 「ファンドは何個ある?」「A 社の投資金額はいくら?」
  • 結果: 最も得意な AI でも、約 90% 正解しました。これは「辞書を引く」ような作業なので、AI は得意です。

❌ 苦手なこと:「計算して答えを出す」

  • 例: 「各ファンドの平均投資額を計算して」「最も高い EBITDA の会社を順位付けして」
  • 結果: 難易度が上がると、正解率は急落します。最も複雑な計算問題では、正解率が 20〜30% 台まで落ち込みました。

📉 最大の発見:「ファイルが大きいと AI は混乱する」

  • 小さなファイルでは 86% 正解しても、152 社ものデータが入った巨大なファイルになると、どの AI も48% 程度まで精度が落ちました。
  • 比喩: 小さな部屋なら AI は綺麗に片付けられますが、倉庫いっぱいに荷物が積み上がると、AI は「どこに何があるか」見失ってしまいます。

🏆 4. どの AI が一番?

10 種類のモデルを比較した結果、Google の「Gemini 3.1 Pro」が最も優秀でした(正解率 82.4%)。
しかし、
「82% 正解」でも、プロの金融の世界では「不合格」です。

  • 金融の基準: 100 個の質問で 3 個くらい間違えれば、数百万ドルの損失につながる可能性があります。業界では97% 以上の精度が求められます。
  • 現状: 最高の AI でも「6 問に 1 問」間違えるレベルです。これでは、AI だけで任せる(無人運転)ことはできません。

💡 5. なぜ AI は失敗するのか?(3 つの理由)

  1. 文字列にすると「形」が消える:
    Excel をテキスト(文字の羅列)に変換して AI に見せています。しかし、**「太字」「色」「枠線」**といった、人間には「ここが重要だ」とわかる手がかりが、AI には見えなくなります。

    • 比喩: 料理のレシピを「材料と手順のリスト」だけで渡されたらわかりますが、「写真付きのレシピ本」なら、火加減や盛り付けのニュアンスが伝わるのと同じです。AI は今のところ「リスト」しか見ていません。
  2. 位置関係の理解が弱い:
    Excel では「この数字は、上の行の『売上』という列にある」という**「位置関係」**で意味が決まります。しかし、AI は文章を左から右へ読むだけなので、この「2 次元の広がり」を理解するのが苦手です。

  3. 計算が苦手:
    AI は「推測」で数字を出そうとします。しかし、財務計算は「厳密な計算」が必要です。AI は「たぶん 100 くらいかな?」と推測して、実際に 98 だった場合、それが「間違い」となります。

🔮 6. 未来への提言:「AI 単体」ではなく「チームワーク」を

この論文の結論は、**「もっと賢い AI を待つだけではダメ」**というものです。

  • 解決策: 「AI に計算させる」のではなく、**「AI にデータを読み取らせ、計算は人間(またはプログラム)に任せる」**という仕組みが必要です。
  • 新しいアプローチ:
    1. AI: 「このセルは『売上』、このセルは『コスト』だね」と、データの意味を解釈する(ここは得意)。
    2. プログラム: 解釈されたデータを Excel の計算式のように、厳密に足し算・引き算する(ここは人間がやる)。
    3. 人間: 最終チェックをする。

📝 まとめ

この論文は、**「AI は財務スプレッドシートの『翻訳者』にはなれるが、まだ『会計士』にはなれない」**と伝えています。

  • 現状: AI は進歩が速く、2 年前に比べれば劇的に良くなりました。
  • 課題: しかし、複雑な計算や巨大なデータ処理では、まだ人間がチェックしないと危険です。
  • 未来: 「AI がすべてやる」のではなく、「AI が下準備をし、人間が最終判断をする」という**「人間と AI のチームワーク」**が、金融業界の正解のようです。

つまり、**「AI に任せて安心する」のではなく、「AI を賢く使いこなす」**ための新しいルール作りが始まった、というのがこの論文のメッセージです。