Empirical Evaluation of PDF Parsing and Chunking for Financial Question Answering with RAG

Dit artikel presenteert een empirische evaluatie van verschillende PDF-parsers en chunking-strategieën voor vraag-antwoordsystemen in de financiële sector, waarbij een nieuwe benchmark (TableQuest) wordt gebruikt om praktische richtlijnen te bieden voor het bouwen van robuuste RAG-pipelines.

Omar El Bachyr, Yewei Song, Saad Ezzini, Jacques Klein, Tegawendé F. Bissyandé, Anas Zilali, Ulrick Ble, Anne Goujon

Gepubliceerd 2026-04-15
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme bibliotheek hebt vol met financiële rapporten. Maar er is een groot probleem: deze rapporten zijn geschreven in PDF-formaat. Een PDF is als een ingepakt cadeau dat perfect is om te bekijken (voor mensen), maar heel lastig om te openen en te lezen door een robot (voor computers).

Deze paper is een uitgebreid onderzoek van een team van de Universiteit van Luxemburg en BGL BNP Paribas. Ze wilden erachter komen hoe je die ingepakte cadeautjes het beste kunt openen, zodat een slimme AI (een "Retrieval-Augmented Generation" of RAG-systeem) er de juiste antwoorden uit kan halen.

Hier is de uitleg, vertaald naar alledaags taal met een paar creatieve vergelijkingen:

1. Het Probleem: De "PDF-Puzzel"

PDF-bestanden zijn een bonte verzameling van tekst, tabellen en plaatjes. Voor een computer is dit als een doos vol Lego-blokjes die door elkaar zijn gegooid. Als je de computer vraagt: "Wat was de winst in 2023?", moet de computer eerst de Lego-blokjes (de tekst) uit de doos halen, de juiste stukjes vinden en die in de juiste volgorde leggen.

Als de computer de doos verkeerd openmaakt (slechte parsing), raken de blokjes in de war. Als hij de blokjes in te kleine stukjes snijdt (slechte chunking), mist hij de context.

2. De Oplossing: De RAG-Robot

De auteurs gebruiken een systeem dat RAG heet. Je kunt dit zien als een supersterke rechercheur met een assistent:

  1. De Rechercheur (Retrieval): Kijkt in de bibliotheek naar de juiste pagina's die bij de vraag passen.
  2. De Assistent (Generator): Een slimme AI (zoals een geavanceerde Chatbot) die die pagina's leest en het antwoord formuleert.

Het probleem is: als de rechercheur de verkeerde pagina's pakt, of als de assistent de tekst niet goed kan lezen, is het antwoord fout.

3. De Experimenten: Wat werkt het beste?

De auteurs hebben een gigantisch experiment gedaan met twee soorten "testvragen":

  • FinanceBench: Vragen over gewone tekst (verhalen in het rapport).
  • TableQuest (Nieuw!): Een door hen bedachte test met vragen over tabellen. Tabellen zijn voor computers vaak net als een ingewikkeld kruiswoordpuzzel; ze zijn moeilijk te lezen als de kolommen en rijen niet perfect worden herkend.

Ze hebben gekeken naar drie belangrijke onderdelen:

A. De "Open-Maker" (PDF Parsers)

Dit zijn de tools die de PDF openen. Ze hebben 6 verschillende tools getest, variërend van simpele tot zeer geavanceerde.

  • De bevinding: Het is als het kiezen van een mes om een taart te snijden.
    • Voor gewone tekst werkt een simpele, snelle tool (zoals pdfminer) prima.
    • Voor tabellen heb je een speciaal mes nodig dat de structuur herkent (zoals pdfplumber). Als je een simpele tool gebruikt voor tabellen, krijg je een rommelig resultaat, alsof je de taart met je handen probeert te snijden.

B. De "Snijder" (Chunking)

Nadat de tekst open is, moet hij in stukjes worden gesneden zodat de AI het kan verwerken.

  • De bevinding: Je mag de stukjes niet te klein maken, maar ook niet te groot.
    • Te groot: De AI raakt de weg kwijt in de massa informatie.
    • Te klein: De AI mist de context (bijvoorbeeld: het getal staat in de rij, maar de kop van de kolom staat in het vorige stukje).
    • De gouden tip: Laat de stukjes een beetje overlappen (zoals tegels op een dak die over elkaar heen liggen). Als je 25% overlap gebruikt, weet de AI zeker dat hij geen belangrijke informatie mist aan de randen van de stukjes.

C. De "Denker" (LLM - De AI)

Hoe slim moet de AI zijn die het antwoord schrijft?

  • De bevinding: Grotere, slimmere modellen geven betere antwoorden, maar ze zijn ook zwaarder en duurder.
    • Voor simpele tekstvragen doen kleinere modellen het redelijk.
    • Voor complexe tabelvragen (zoals in TableQuest) heb je echt een "zwaargewicht" nodig. Een slimme AI kan de logica van een tabel doorgronden, terwijl een kleine AI vaak in de war raakt.

4. De Grote Leerlessen (De "Takeaways")

  1. Geen "One-Size-Fits-All": Er is geen enkele tool die voor alles perfect is. Als je veel tabellen hebt, kies dan een parser die goed is in tabellen. Als je vooral tekst hebt, kies dan iets snellers.
  2. Overlap is je vriend: Laat je stukjes tekst een beetje over elkaar heen lopen (25%). Dit kost iets meer ruimte, maar het voorkomt dat de AI halve zinnen of losse getallen krijgt.
  3. De juiste combinatie: De beste resultaten haal je niet door het duurste onderdeel te kiezen, maar door de juiste combinatie van "Open-Maker" en "Snijder". Soms werkt een simpele combinatie net zo goed als een dure, complexe setup.
  4. Tabellen zijn lastig: De meeste bestaande systemen zijn goed in tekst, maar slecht in tabellen. Met hun nieuwe test (TableQuest) laten ze zien dat dit een groot zwak punt is dat we moeten oplossen.

Conclusie

Kortom: Als je een bedrijf bent dat duizenden financiële rapporten wilt laten analyseren door een AI, moet je niet zomaar een willekeurige tool pakken. Je moet kiezen voor de juiste "open-maker" voor je documenttype, zorg dat je tekststukjes netjes overlappen, en gebruik een slimme AI die groot genoeg is om de complexiteit van de data aan te kunnen.

Dit onderzoek geeft een handleiding voor bedrijven om hun "digitale bibliotheek" niet alleen te openen, maar er ook echt iets nuttigs uit te halen.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →