Empirical Evaluation of PDF Parsing and Chunking for Financial Question Answering with RAG

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie sind ein Finanzanalyst und müssen aus einem riesigen Stapel von hunderten von PDF-Dokumenten (wie Jahresberichten) die eine entscheidende Information finden: „Wie hoch war der Gewinn von Firma X im letzten Quartal?"

Das Problem ist: Diese PDFs sind wie schön gestaltete, aber verschlossene Bücher. Sie sehen für uns Menschen perfekt aus, mit Tabellen, Grafiken und Textblöcken. Aber für einen Computer sind sie ein chaotischer Haufen aus Pixeln und Codes, die er nicht versteht.

Diese Forschungsarbeit ist wie ein Leitfaden für einen perfekten Bibliothekar, der diesen Stapel für einen KI-Assistenten (einen „RAG"-System) vorbereiten soll. Hier ist die Erklärung, wie sie das gemacht haben, einfach und mit Analogien erklärt:

1. Das Problem: Der „Roboter-Leser"

Ein KI-Modell (wie ein sehr intelligenter Chatbot) kann nicht einfach das ganze PDF auf einmal lesen. Es hat ein begrenztes „Gedächtnis" (wie ein Kaffeebecher, der nur eine bestimmte Menge Wasser fasst).

Die Aufgabe: Man muss das PDF in kleine, logische Stücke zerschneiden (das nennt man „Chunking").
Die Gefahr: Wenn man die Stücke falsch schneidet, zerreißt man eine wichtige Tabelle in zwei Hälften oder trennt eine Grafik von ihrer Erklärung. Dann versteht die KI den Kontext nicht mehr und gibt falsche Antworten.

2. Die Lösung: Der „Bibliothekars-Test"

Die Forscher haben verschiedene Werkzeuge getestet, um herauszufinden, wie man diese Bücher am besten für die KI vorbereitet. Sie haben zwei große „Prüfungen" (Benchmarks) erstellt:

Prüfung A (FinanceBench): Hier ging es um Fließtext. Fragen wie: „Was sagt der CEO über die Zukunft?"
Prüfung B (TableQuest – Die neue Erfindung): Hier ging es nur um Tabellen. Fragen wie: „Wie hoch war der Umsatz in Spalte 3, Zeile 5?" Die Forscher haben extra eine neue Datenbank namens TableQuest gebaut, weil bisherige Tests die Tabellen oft ignoriert haben.

3. Die drei Hauptakteure im Test

Um die beste Kombination zu finden, haben sie drei Dinge variiert:

A. Der Scanner (PDF-Parser)

Stellen Sie sich vor, Sie müssen ein Dokument scannen.

Scanner 1 (einfach): Nimmt nur den Text heraus, ignoriert aber die Struktur. (Wie ein Scanner, der nur Buchstaben liest, aber nicht weiß, wo eine Tabelle beginnt).
Scanner 2 (fortgeschritten): Erkennt, wo Tabellen sind und wie sie aufgebaut sind. (Wie ein Scanner, der auch die Linien der Tabelle sieht).
Scanner 3 (Super-Scanner mit Kamera): Scannt das Bild und liest es mit KI. (Sehr genau, aber extrem langsam).

Ergebnis: Für normale Texte reicht ein schneller, einfacher Scanner. Aber für Tabellen braucht man einen Scanner, der die Struktur wirklich versteht (wie pdfplumber). Der „Super-Scanner" war zwar genau, aber so langsam, dass er für den Alltag unpraktisch ist.

B. Der Schere (Chunking-Strategie)

Wie schneidet man das Dokument auf?

Willkürlich: Einfach alle 512 Zeichen abschneiden. (Gefahr: Man schneidet mitten in einem Wort oder einer Tabelle).
Intelligent: Schneiden nur an sinnvollen Stellen (z. B. am Ende eines Satzes oder einer Tabelle).
Die Überlappung: Die Forscher haben getestet, ob man die Schnitte leicht überlappen lassen soll (wie beim Tape, wo man ein Stück überlappt, damit nichts abfällt).
Ergebnis: Eine kleine Überlappung (25%) ist der „Sweet Spot". Sie sorgt dafür, dass keine wichtigen Informationen an den Rändern verloren gehen, ohne den Speicherplatz unnötig zu sprengen.

C. Der Sucher (Retriever)

Wenn die KI eine Frage stellt, muss sie zuerst die richtigen Seiten finden.

Wort-Sucher (Keyword): Sucht nur nach exakten Wörtern. (Gut für Tabellen, schlecht für komplexe Fragen).
Verstehender Sucher (Dense/Neural): Versteht die Bedeutung der Frage. (Gut für Text, z. B. „Wie ging es dem Unternehmen?" statt nur „Gewinn").
Ergebnis: Für Textfragen ist der „verstehende Sucher" am besten. Für Tabellenfragen ist der „Wort-Sucher" überraschend gut, weil Tabellen oft sehr präzise Daten enthalten.

4. Die große Erkenntnis: Der KI-Geist

Am Ende haben sie getestet, wie „klug" der KI-Assistent selbst sein muss, um die gefundenen Informationen zu beantworten.

Kleine KI: Macht oft Fehler, besonders bei komplexen Tabellen.
Große KI: Ist viel genauer.
Aber: Man braucht nicht unbedingt die riesigste (und teuerste) KI. Eine mittelgroße KI, kombiniert mit den richtigen vorbereiteten Dokumenten (guter Scanner, gute Schnitte), liefert fast genauso gute Ergebnisse wie die Super-KI.

Fazit für den Alltag

Diese Studie sagt uns: Man muss nicht das teuerste Werkzeug kaufen, um gute Ergebnisse zu erzielen.

Wenn Sie ein Unternehmen haben, das Finanzdaten aus PDFs auswerten will, lautet die Empfehlung:

Nutzen Sie einen guten Scanner, der Tabellen erkennt (nicht nur Text).
Schneiden Sie die Dokumente intelligent auf, mit einer kleinen Überlappung.
Wählen Sie einen Sucher, der je nach Frageart (Text vs. Tabelle) passt.
Dann reicht eine mittlere KI völlig aus, um präzise Antworten zu geben.

Es geht also nicht darum, die stärkste KI zu haben, sondern darum, die Bibliothek (die Daten) so perfekt zu organisieren, dass auch ein durchschnittlicher Bibliothekar (die KI) die richtige Antwort findet.

Empirical Evaluation of PDF Parsing and Chunking for Financial Question Answering with RAG

1. Das Problem: Der „Roboter-Leser"

2. Die Lösung: Der „Bibliothekars-Test"

3. Die drei Hauptakteure im Test

A. Der Scanner (PDF-Parser)

B. Der Schere (Chunking-Strategie)

C. Der Sucher (Retriever)

4. Die große Erkenntnis: Der KI-Geist

Fazit für den Alltag

1. Problemstellung

2. Methodik

3. Wichtige Beiträge

4. Schlüsselergebnisse

5. Bedeutung und Fazit

Empirical Evaluation of PDF Parsing and Chunking for Financial Question Answering with RAG

1. Das Problem: Der „Roboter-Leser"

2. Die Lösung: Der „Bibliothekars-Test"

3. Die drei Hauptakteure im Test

A. Der Scanner (PDF-Parser)

B. Der Schere (Chunking-Strategie)

C. Der Sucher (Retriever)

4. Die große Erkenntnis: Der KI-Geist

Fazit für den Alltag

1. Problemstellung

2. Methodik

3. Wichtige Beiträge

4. Schlüsselergebnisse

5. Bedeutung und Fazit

Mehr davon

Filtered Reasoning Score: Evaluating Reasoning Quality on a Model's Most-Confident Traces

Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

LLMs Struggle with Abstract Meaning Comprehension More Than Expected

Benchmarking Deflection and Hallucination in Large Vision-Language Models

Think Through Uncertainty: Improving Long-Form Generation Factuality via Reasoning Calibration