FinSheet-Bench: From Simple Lookups to Complex Reasoning, Where LLMs Break on Financial Spreadsheets

Each language version is independently generated for its own context, not a direct translation.

📊 FinSheet-Bench: Wenn KI auf Finanz-Excel-Tabellen trifft

Stell dir vor, du hast einen riesigen Stapel alter, verworrener Excel-Tabellen von einer Firma, die in viele andere Firmen investiert hat. Diese Tabellen sind voller Zahlen,合并ter Zellen, seltsamer Überschriften und Notizen am Rand. Ein menschlicher Analyst würde Stunden brauchen, um herauszufinden: „Wie viel Geld hat diese Firma eigentlich verdient?" oder „Welche der 50 Firmen in dieser Liste hat den höchsten Gewinn?"

Jetzt kommt eine Künstliche Intelligenz (KI) ins Spiel. Die Hoffnung war: „Die KI liest das in Sekunden und gibt die perfekte Antwort."

Das Paper FinSheet-Bench ist wie ein großer, strenger Test, um herauszufinden, ob diese Hoffnung wahr ist. Die Forscher haben eine Art „Prüfungsheft" erstellt, das genau diese chaotischen Finanz-Tabellen simuliert, und haben die besten KIs der Welt (von OpenAI, Google und Anthropic) darauf getestet.

Hier ist, was sie herausgefunden haben – einfach erklärt:

1. Das Problem: KIs sind gute Leser, aber schlechte Rechner

Stell dir vor, die KI ist ein extrem schneller Bibliothekar.

Was sie gut kann: Wenn du fragst: „Wie viele Bücher stehen im Regal?", findet sie die Zahl sofort. Das nennt man „einfache Suche".
Was sie schlecht kann: Wenn du fragst: „Rechne den Durchschnitt der Preise aller Bücher aus, die rot sind, und teile das durch die Anzahl der Autoren", dann wird die KI verwirrt. Sie beginnt zu raten oder rechnet falsch.

Im Finanzbereich ist das fatal. Ein kleiner Rechenfehler kann bedeuten, dass eine Firma Millionen verliert. Die Forscher haben festgestellt: Keine der getesteten KIs ist aktuell gut genug, um allein und ohne menschliche Kontrolle zu arbeiten. Sie machen etwa einen Fehler auf jede 6. Frage. In der Finanzwelt ist das viel zu riskant.

2. Der Test: Ein Labyrinth aus Zahlen

Die Forscher haben keine echten, geheimen Finanzdaten verwendet (das wäre illegal), sondern künstlich erzeugte Daten, die genau so aussehen wie echte.

Die Analogie: Stell dir vor, sie haben 24 verschiedene „Labyrinthe" gebaut. Manche sind klein und einfach (wie ein kleiner Garten). Andere sind riesige, verwinkelte Dschungel mit 150 Firmen und 8 verschiedenen Fonds, die sich überlagern.
Das Ergebnis: Je größer und verworrener das Labyrinth, desto mehr verirrt sich die KI. Auf den einfachsten Tabellen lagen die KIs bei ca. 86 % richtigen Antworten. Auf den schwierigsten Tabellen fiel die Rate auf unter 50 % – das ist im Grunde ein Münzwurf!

3. Die Gewinner (und Verlierer)

Die Forscher haben 10 verschiedene KI-Modelle getestet.

Der aktuelle Champion: Das Modell „Gemini 3.1 Pro" von Google war das Beste. Es lag bei ca. 82 % Genauigkeit. Das klingt gut, aber bedeutet immer noch: Bei 100 Fragen macht es 18 Fehler.
Der Trend: Je neuer und „dümmer" (im Sinne von rechenstärker) die KI, desto besser. Modelle, die eine Art „Nachdenk-Modus" haben (wo sie sich Zeit lassen und Zwischenschritte durchdenken), waren deutlich besser als ihre Vorgänger. Aber selbst die Besten scheitern an den komplexesten Aufgaben.

4. Warum scheitern sie? (Die drei Hauptgründe)

Warum kann eine KI, die ganze Romane schreiben kann, keine einfache Excel-Tabelle lesen?

Das Übersetzungs-Problem: KIs können keine Excel-Dateien direkt „sehen". Man muss sie in einen Text umwandeln (wie wenn man ein Bild in eine lange Liste von Wörtern übersetzt). Dabei gehen wichtige Hinweise verloren.
- Analogie: Stell dir vor, du beschreibst einem blinden Freund ein Diagramm, indem du sagst: „Hier ist eine Zahl, dort eine andere." Aber du vergisst zu sagen, dass die rote Zahl in der Spalte „Gewinn" steht und die blaue in „Verlust". Der Freund vermischt alles.
Die räumliche Orientierung: In Excel ist die Position einer Zahl wichtig (diese Zahl gehört zu dieser Zeile). KIs lesen aber nur Wort für Wort. Sie verlieren den Überblick, welche Zahl zu welcher Firma gehört, wenn die Tabelle lang wird.
Die Rechen-Schwäche: KIs sind keine Taschenrechner. Sie „erraten" Zahlen basierend auf Wahrscheinlichkeiten. Bei komplexen Finanzformeln (wie „Durchschnittswert berechnen") rechnet sie oft falsch, weil sie nicht wirklich rechnen, sondern nur simulieren, wie eine Rechnung aussieht.

5. Die Lösung: Nicht die KI verbessern, sondern den Prozess ändern

Das Paper schlägt einen cleveren Weg vor, wie man das Problem löst, ohne auf eine magische Super-KI zu warten.

Stell dir vor, du willst ein riesiges Puzzle lösen.

Der falsche Weg: Du versuchst, das ganze Bild auf einmal zu sehen und alle Teile gleichzeitig zu sortieren (das macht die aktuelle KI – und sie scheitert).
Der richtige Weg (der Vorschlag der Autoren):
1. Schritt 1 (Die KI): Die KI liest nur die Überschriften und sagt: „Okay, hier sind die Spalten für Firma A, B und C." (Das kann sie sehr gut).
2. Schritt 2 (Die KI): Die KI holt sich für jede Firma nur die einzelnen Zahlen heraus (z. B. „Wie viel Umsatz hat Firma A?"). Auch das kann sie fast perfekt.
3. Schritt 3 (Der Computer): Jetzt gibt man diese sauberen Zahlen einem ganz normalen Computerprogramm (einem Taschenrechner), das die Summen, Durchschnitte und Vergleiche berechnet.

Das Fazit: Man sollte die KI nicht als „Rechenknecht" benutzen, sondern als „Leser", der die Daten vorbereitet. Die eigentliche Rechnung sollte ein klassisches Computerprogramm übernehmen, das keine Fehler macht.

🏁 Zusammenfassung für den Alltag

Die KI ist heute wie ein sehr talentierter, aber manchmal unaufmerksamer Praktikant in einer Bank.

Er kann dir schnell sagen, wie viele Firmen in einer Liste stehen.
Aber wenn du ihn bittest, die komplexen Finanzberichte zu analysieren und die Gewinne zu berechnen, macht er zu viele Fehler, um ihm blind zu vertrauen.

Die Zukunft liegt nicht darin, noch intelligentere KIs zu bauen, die alles selbst machen, sondern darin, KI und klassische Computerprogramme zu mischen: Die KI liest und versteht die Struktur, der Computer rechnet sicher und präzise. Erst dann sind Finanz-Tabellen wirklich automatisiert.

FinSheet-Bench: From Simple Lookups to Complex Reasoning, Where LLMs Break on Financial Spreadsheets

📊 FinSheet-Bench: Wenn KI auf Finanz-Excel-Tabellen trifft

1. Das Problem: KIs sind gute Leser, aber schlechte Rechner

2. Der Test: Ein Labyrinth aus Zahlen

3. Die Gewinner (und Verlierer)

4. Warum scheitern sie? (Die drei Hauptgründe)

5. Die Lösung: Nicht die KI verbessern, sondern den Prozess ändern

🏁 Zusammenfassung für den Alltag

1. Problemstellung

2. Methodik und Datensatz (FinSheet-Bench)

Datenerstellung

Experimentelles Setup

3. Wichtige Ergebnisse

Gesamtleistung

Leistung nach Aufgabentyp

Einfluss von Reasoning und Token-Verbrauch

4. Hauptbeiträge des Papiers

5. Signifikanz und Implikationen

FinSheet-Bench: From Simple Lookups to Complex Reasoning, Where LLMs Break on Financial Spreadsheets

📊 FinSheet-Bench: Wenn KI auf Finanz-Excel-Tabellen trifft

1. Das Problem: KIs sind gute Leser, aber schlechte Rechner

2. Der Test: Ein Labyrinth aus Zahlen

3. Die Gewinner (und Verlierer)

4. Warum scheitern sie? (Die drei Hauptgründe)

5. Die Lösung: Nicht die KI verbessern, sondern den Prozess ändern

🏁 Zusammenfassung für den Alltag

1. Problemstellung

2. Methodik und Datensatz (FinSheet-Bench)

Datenerstellung

Experimentelles Setup

3. Wichtige Ergebnisse

Gesamtleistung

Leistung nach Aufgabentyp

Einfluss von Reasoning und Token-Verbrauch

4. Hauptbeiträge des Papiers

5. Signifikanz und Implikationen

Mehr davon

On the security of 2-key triple DES

Security issues in a group key establishment protocol

The impact of quantum computing on real-world security: A 5G case study

Yet another insecure group key distribution scheme using secret sharing

How not to secure wireless sensor networks: A plethora of insecure polynomial-based key pre-distribution schemes