FinSheet-Bench: From Simple Lookups to Complex Reasoning, Where LLMs Break on Financial Spreadsheets

Het paper introduceert FinSheet-Bench, een benchmark voor synthetische financiële spreadsheetdata die aantoont dat huidige LLM's, ondanks redelijke prestaties op eenvoudige taken, nog onbetrouwbaar zijn voor onbewaakte gebruik in complexe financiële analyses vanwege hun gebrek aan nauwkeurigheid bij numerieke redenering en het verwerken van grote, gestructureerde tabellen.

Jan Ravnik, Matjaž Ličen, Felix Bührmann, Bithiah Yuan, Felix Stinson, Tanvi Singh

Gepubliceerd 2026-03-10
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme, rommelige schuur moet opruimen. In deze schuur liggen duizenden documenten: sommige zijn nette lijsten, andere zijn krabbelige aantekeningen, en weer andere zijn ingewikkelde tabellen met cijfers die overal op staan.

Dit is precies wat FinSheet-Bench onderzoekt. Het is een nieuwe test voor de slimste computers ter wereld (de zogenaamde "AI's" of Large Language Models) om te zien of ze deze rommelige financiële documenten – zoals Excel-sheets van investeringsfondsen – echt kunnen begrijpen.

Hier is wat het paper vertelt, vertaald naar een simpel verhaal:

1. Het Probleem: De "Schuur" is te rommelig

In de financiële wereld (denk aan mensen die geld beheren voor grote fondsen) moeten ze vaak duizenden Excel-bestanden bekijken om te beslissen waar ze geld in steken. Deze bestanden zijn vaak een puinhoop:

  • Ze hebben geen vaste vorm.
  • Cijfers staan soms in samengevoegde vakjes.
  • Er staan opmerkingen en lijntjes die betekenis hebben, maar die een computer niet "ziet" als hij alleen tekst leest.

Vroeger deden mensen dit handmatig. Nu hopen ze dat AI het voor hen kan doen. Maar de vraag is: Kan een AI echt goed lezen in deze rommelige schuur?

2. De Test: Een Nieuwe "Rijbewijstest" voor AI

Omdat echte financiële documenten geheim zijn (zoals een kluis met geld), hebben de onderzoekers een synthetische schuur gebouwd. Ze hebben echte, ingewikkelde Excel-templates genomen en de cijfers erin veranderd in fictieve getallen. Zo hebben ze 24 verschillende "schuurtjes" gemaakt, variërend van klein en overzichtelijk tot gigantisch en chaotisch.

Ze hebben 10 verschillende AI-modellen (van bedrijven als Google, OpenAI en Anthropic) laten proberen vragen te beantwoorden over deze schuurtjes.

  • Vraag 1 (Eenvoudig): "Hoeveel fondsen zijn er?" (Dit is alsof je telt hoeveel dozen er in de schuur staan).
  • Vraag 2 (Moeilijk): "Wat is het gemiddelde rendement van de bedrijven in het tweede fonds, afgerond op twee decimalen?" (Dit is alsof je alle dozen moet openmaken, de inhoud moet wegen, optellen en delen).

3. De Resultaten: Slim, maar nog niet klaar voor de baan

De resultaten zijn een mix van goed nieuws en slecht nieuws:

  • Het goede nieuws: De nieuwste AI's zijn veel slimmer dan de oude. Twee jaar geleden kon een AI nauwelijks een zin begrijpen in zo'n bestand (ongeveer 25% goed). Vandaag de dag halen de beste modellen ongeveer 82%. Dat is een enorme sprong!
  • Het slechte nieuws: 82% is niet goed genoeg voor echte financiële beslissingen.
    • Stel je voor dat je een bankier bent. Als je AI 1 op de 6 vragen verkeerd beantwoordt, kan dat betekenen dat je miljoenen euro's verkeerd investeert. In de financiële wereld wil je 99% zekerheid.
    • De AI's zijn heel goed in het vinden van losse feiten (zoals "Hoe heet dit bedrijf?"). Maar zodra ze moeten rekenen, sorteren of samenvatten (bijvoorbeeld: "Bereken het gemiddelde"), gaan ze vaak de mist in. Het is alsof ze een briljant geheugen hebben, maar slecht kunnen tellen.

4. Waarom lukt het niet? De "Vertaalprobleem"

De onderzoekers ontdekten een belangrijke oorzaak van de fouten.
Stel je voor dat je een 3D-puzzel (het Excel-bestand) moet beschrijven aan iemand die alleen tekst kan horen. Je moet de puzzel platdrukken tot een lange rij letters en komma's.

  • In het Excel-bestand staat een cijfer in een vakje dat visueel duidelijk bij een kolomhoofd hoort.
  • Als je dit omzet naar tekst, verdwijnt die visuele structuur. De AI moet nu raden welk cijfer bij welke kolom hoort.
  • Daarnaast zijn AI's niet gemaakt om exact te rekenen. Ze zijn gemaakt om taal te voorspellen. Als je vraagt om een complexe som, "gokken" ze vaak het antwoord in plaats van het stap voor stap uit te rekenen.

5. De Oplossing: Geen superheld, maar een team

De conclusie van het paper is dat we niet hoeven te wachten op een AI die plotseling perfect wordt. In plaats daarvan moeten we de taak opsplitsen:

  1. De AI als "Schrijver": Laat de AI de documenten lezen en de losse feiten eruit halen (bijv. "Bedrijf A heeft 10 miljoen omzet"). Dit lukt ze al heel goed.
  2. De Computer als "Rekenaar": Laat een traditionele, simpele computer (die niet slim is, maar wel exact kan rekenen) de sommen maken op basis van die feiten.

Dit is als het verschil tussen een chef-kok en een rekenmachine. De chef (AI) kan de ingrediënten (gegevens) uit de koelkast halen en de recepten lezen. Maar laat de chef niet de exacte gewichten berekenen; gebruik daarvoor de weegschaal (de rekenmachine).

Samenvatting in één zin

De slimste AI's van vandaag kunnen prima door een rommelige financiële schuur lopen en dingen vinden, maar ze zijn nog niet betrouwbaar genoeg om zelf de complexe rekenwerkjes te doen; daarvoor hebben we een slimme combinatie van AI en traditionele software nodig.