FinSheet-Bench: From Simple Lookups to Complex Reasoning, Where LLMs Break on Financial Spreadsheets

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI（大規模言語モデル）が、複雑な財務の Excel スプレッドシートをどれだけ正しく読めるか」**をテストした報告書です。

タイトルは『FinSheet-Bench』。まるで「AI による財務スプレッドシートテスト」のようなものです。

以下に、専門用語を排し、わかりやすい比喩を使って解説します。

🏠 1. 背景：AI は「文章」は得意だが、「表」は苦手？

最近の AI（GPT-5 や Gemini など）は、本やメールを読むのが非常に上手になりました。しかし、「投資判断」をするために必要な、複雑な Excel ファイルになると話は別です。

現実の課題: 投資家（LP）は、私募ファンド（PE）のポートフォリオを評価するために、何百もの Excel ファイルをチェックする必要があります。
問題: これらのファイルは、会社によって形がバラバラです。結合セルがあったり、見出しが何行にもまたがっていたり、色や太字で意味を伝えています。
AI の現状: 現在の AI は、これらの「ごちゃごちゃした表」から数字を正確に読み取り、計算する能力がまだ十分ではありません。

🧪 2. 実験：「FinSheet-Bench」というテスト

なぜ AI の能力が測れていないのか？それは、**「本物の投資データは機密情報だから、公開できないから」**です。

そこで著者たちは、**「本物の財務データと同じ構造（レイアウト）を持った、人工的に作られた（合成）データ」**を作成しました。これを「FinSheet-Bench」と呼びます。

比喩: 本物の銀行の金庫（機密データ）は開けられませんが、その金庫の**「中身と全く同じ形をした、おもちゃの金庫」**を 24 個作って、AI に解かせました。
内容: 24 種類のファイル（シンプルなものから、152 社ものデータが入った巨大なものまで）を用意し、10 種類の最新 AI モデルに質問させました。

📊 3. 結果：AI は「単純な検索」は得意だが、「計算」は苦手

実験の結果、面白い傾向が浮かび上がりました。

✅ 得意なこと：「どこに何があるか探す」

例: 「ファンドは何個ある？」「A 社の投資金額はいくら？」
結果: 最も得意な AI でも、約 90% 正解しました。これは「辞書を引く」ような作業なので、AI は得意です。

❌ 苦手なこと：「計算して答えを出す」

例: 「各ファンドの平均投資額を計算して」「最も高い EBITDA の会社を順位付けして」
結果: 難易度が上がると、正解率は急落します。最も複雑な計算問題では、正解率が 20〜30% 台まで落ち込みました。

📉 最大の発見：「ファイルが大きいと AI は混乱する」

小さなファイルでは 86% 正解しても、152 社ものデータが入った巨大なファイルになると、どの AI も48% 程度まで精度が落ちました。
比喩: 小さな部屋なら AI は綺麗に片付けられますが、倉庫いっぱいに荷物が積み上がると、AI は「どこに何があるか」見失ってしまいます。

🏆 4. どの AI が一番？

10 種類のモデルを比較した結果、Google の「Gemini 3.1 Pro」が最も優秀でした（正解率 82.4%）。
しかし、「82% 正解」でも、プロの金融の世界では「不合格」です。

金融の基準: 100 個の質問で 3 個くらい間違えれば、数百万ドルの損失につながる可能性があります。業界では97% 以上の精度が求められます。
現状: 最高の AI でも「6 問に 1 問」間違えるレベルです。これでは、AI だけで任せる（無人運転）ことはできません。

💡 5. なぜ AI は失敗するのか？（3 つの理由）

文字列にすると「形」が消える:
Excel をテキスト（文字の羅列）に変換して AI に見せています。しかし、**「太字」「色」「枠線」**といった、人間には「ここが重要だ」とわかる手がかりが、AI には見えなくなります。
- 比喩: 料理のレシピを「材料と手順のリスト」だけで渡されたらわかりますが、「写真付きのレシピ本」なら、火加減や盛り付けのニュアンスが伝わるのと同じです。AI は今のところ「リスト」しか見ていません。
位置関係の理解が弱い:
Excel では「この数字は、上の行の『売上』という列にある」という**「位置関係」**で意味が決まります。しかし、AI は文章を左から右へ読むだけなので、この「2 次元の広がり」を理解するのが苦手です。
計算が苦手:
AI は「推測」で数字を出そうとします。しかし、財務計算は「厳密な計算」が必要です。AI は「たぶん 100 くらいかな？」と推測して、実際に 98 だった場合、それが「間違い」となります。

🔮 6. 未来への提言：「AI 単体」ではなく「チームワーク」を

この論文の結論は、**「もっと賢い AI を待つだけではダメ」**というものです。

解決策: 「AI に計算させる」のではなく、**「AI にデータを読み取らせ、計算は人間（またはプログラム）に任せる」**という仕組みが必要です。
新しいアプローチ:
1. AI: 「このセルは『売上』、このセルは『コスト』だね」と、データの意味を解釈する（ここは得意）。
2. プログラム: 解釈されたデータを Excel の計算式のように、厳密に足し算・引き算する（ここは人間がやる）。
3. 人間: 最終チェックをする。

📝 まとめ

この論文は、**「AI は財務スプレッドシートの『翻訳者』にはなれるが、まだ『会計士』にはなれない」**と伝えています。

現状: AI は進歩が速く、2 年前に比べれば劇的に良くなりました。
課題: しかし、複雑な計算や巨大なデータ処理では、まだ人間がチェックしないと危険です。
未来: 「AI がすべてやる」のではなく、「AI が下準備をし、人間が最終判断をする」という**「人間と AI のチームワーク」**が、金融業界の正解のようです。

つまり、**「AI に任せて安心する」のではなく、「AI を賢く使いこなす」**ための新しいルール作りが始まった、というのがこの論文のメッセージです。

FinSheet-Bench: From Simple Lookups to Complex Reasoning, Where LLMs Break on Financial Spreadsheets

🏠 1. 背景：AI は「文章」は得意だが、「表」は苦手？

🧪 2. 実験：「FinSheet-Bench」というテスト

📊 3. 結果：AI は「単純な検索」は得意だが、「計算」は苦手

✅ 得意なこと：「どこに何があるか探す」

❌ 苦手なこと：「計算して答えを出す」

📉 最大の発見：「ファイルが大きいと AI は混乱する」

🏆 4. どの AI が一番？

💡 5. なぜ AI は失敗するのか？（3 つの理由）

🔮 6. 未来への提言：「AI 単体」ではなく「チームワーク」を

📝 まとめ

FinSheet-Bench: 金融スプレッドシートにおける LLM の限界と複雑な推論の課題

1. 背景と課題 (Problem)

2. 手法とデータセット (Methodology)

2.1 FinSheet-Bench データセットの構築

2.2 評価プロトコル

3. 主要な結果 (Key Results)

3.1 全体性能

3.2 推論機能の影響

3.3 失敗要因の分析

4. 主要な貢献 (Key Contributions)

5. 意義と今後の展望 (Significance & Future Work)

FinSheet-Bench: From Simple Lookups to Complex Reasoning, Where LLMs Break on Financial Spreadsheets

🏠 1. 背景：AI は「文章」は得意だが、「表」は苦手？

🧪 2. 実験：「FinSheet-Bench」というテスト

📊 3. 結果：AI は「単純な検索」は得意だが、「計算」は苦手

✅ 得意なこと：「どこに何があるか探す」

❌ 苦手なこと：「計算して答えを出す」

📉 最大の発見：「ファイルが大きいと AI は混乱する」

🏆 4. どの AI が一番？

💡 5. なぜ AI は失敗するのか？（3 つの理由）

🔮 6. 未来への提言：「AI 単体」ではなく「チームワーク」を

📝 まとめ

FinSheet-Bench: 金融スプレッドシートにおける LLM の限界と複雑な推論の課題

1. 背景と課題 (Problem)

2. 手法とデータセット (Methodology)

2.1 FinSheet-Bench データセットの構築

2.2 評価プロトコル

3. 主要な結果 (Key Results)

3.1 全体性能

3.2 推論機能の影響

3.3 失敗要因の分析

4. 主要な貢献 (Key Contributions)

5. 意義と今後の展望 (Significance & Future Work)

関連論文

Model2Kernel: Model-Aware Symbolic Execution For Safe CUDA Kernels

Algorithmic Barriers to Detecting and Repairing Structural Overspecification in Adaptive Data-Structure Selection

Zero-Cost NDV Estimation from Columnar File Metadata

Persistence-based topological optimization: a survey

Multi-LLM Query Optimization