From PDF to RAG-Ready: Evaluating Document Conversion Frameworks for Domain-Specific Question Answering

Diese Studie zeigt, dass bei der Entwicklung von RAG-Systemen die Qualität der Datenaufbereitung, insbesondere durch hierarchisches Chunking und Metadatenanreicherung, einen größeren Einfluss auf die Antwortgenauigkeit hat als die Wahl des PDF-Konvertierungsframeworks selbst.

José Guilherme Marques dos Santos, Ricardo Yang, Rui Humberto Pereira, Alexandre Sousa, Brígida Mónica Faria, Henrique Lopes Cardoso, José Duarte, José Luís Reis, Luís Paulo Reis, Pedro Pimenta, José Paulo Marques dos Santos

Veröffentlicht 2026-04-08
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

📚 Vom staubigen Aktenkoffer zum klugen Assistenten: Was diese Studie über KI und Dokumente sagt

Stellen Sie sich vor, Sie möchten einen extrem klugen, aber etwas vergesslichen Assistenten (eine KI) einstellen, der Ihnen Fragen zu alten, staubigen Akten aus dem Keller beantworten soll. Diese Akten sind als PDFs gespeichert – also wie eingewickelte Bilder von Papier, die man nicht einfach durchsuchen kann.

Die Forscher haben untersucht: Wie gut muss man diese Akten vorbereiten, damit der Assistent wirklich gute Antworten gibt?

1. Das Problem: Der "Müll-in, Müll-out"-Effekt

Viele Leute denken, das Geheimnis einer guten KI liegt darin, den besten Assistenten zu kaufen (das Modell) oder die beste Suchmaschine zu bauen.
Aber diese Studie sagt: Nein! Das Wichtigste ist, was Sie dem Assistenten geben.

  • Die Analogie: Stellen Sie sich vor, Sie geben einem Koch (der KI) Zutaten. Wenn Sie ihm verrottetes Gemüse und Schmutz geben (schlecht vorbereitete PDFs), wird er auch mit dem besten Kochbuch der Welt keinen leckeren Salat daraus machen. Wenn Sie ihm frische, gewaschene und geschnittene Zutaten geben (gut vorbereitete Daten), wird das Essen fantastisch schmecken.
  • Das Ergebnis: Die Art und Weise, wie die PDFs in Text umgewandelt werden, ist viel wichtiger als die KI selbst. Ein schlechter Umwandlungsprozess kann die KI um fast 23 % schlechter machen!

2. Die vier "Kochhelfer" (Die Werkzeuge)

Die Forscher haben vier verschiedene Werkzeuge getestet, die PDFs in lesbaren Text verwandeln (wie einen Übersetzer, der aus einem Bild Text macht):

  1. Docling: Ein sehr ordentlicher, strukturierter Helfer.
  2. MinerU: Ein starker Helfer, der aber manchmal die Reihenfolge durcheinanderbringt.
  3. DeepSeek OCR: Ein sehr genauer Helfer für Text, aber er vergisst oft, wo die Abschnitte beginnen und enden.
  4. PDFLoader (Der "Faule"): Ein einfaches Werkzeug, das einfach nur den Text rauszieht, ohne sich um Struktur oder Tabellen zu kümmern.

Das Überraschende: Der "faule" Helfer (PDFLoader) war gar nicht so schlecht (86,9 % Erfolg). Aber der Docling-Helfer, der sich besonders um die Struktur kümmerte, war mit 94,1 % der Gewinner. Er lag nur knapp hinter einem menschlichen Experten, der die Akten von Hand perfekt sortiert hatte (97,1 %).

3. Die drei Geheimtipps für den Erfolg

Was hat den Docling-Helfer so erfolgreich gemacht? Nicht nur das Werkzeug, sondern drei Dinge, die man damit macht:

  • Der "Brotkrumen-Pfad" (Metadaten):
    • Vergleich: Wenn Sie in einem riesigen Wald sind und jemand fragt: "Wo ist der Baum?", ist es besser zu sagen: "Der Baum steht im Wald, im Bereich 'Norden', auf dem Weg 'Hauptallee'."
    • Die Studie zeigte: Wenn man dem KI-Assistenten sagt, in welchem Kapitel und Abschnitt ein Text steht (durch "Brotkrumen"), findet er die Antwort viel besser. Das war sogar wichtiger als das Werkzeug selbst!
  • Die richtige Zerteilung (Chunking):
    • Vergleich: Wenn Sie ein Buch in zufällige Buchstaben-Schnipsel schneiden, kann man den Sinn nicht mehr verstehen. Wenn man es aber in sinnvolle Sätze und Absätze schneidet, versteht man es sofort.
    • Die besten Ergebnisse kamen, wenn die Texte so geschnitten wurden, dass sie die natürliche Struktur des Dokuments (Überschriften, Abschnitte) bewahrten.
  • Die Bilder-Beschreibung:
    • Die PDFs hatten viele Bilder und Diagramme. Der beste Helfer hat diese Bilder nicht ignoriert, sondern sie mit Text beschrieben ("Hier ist ein Diagramm über die Personalstärke"). Das half der KI enorm.

4. Der große Flop: Der "Wissens-Graph" (GraphRAG)

Es gab eine Idee, die sehr modern klingt: Statt nur Text zu suchen, baut man eine riesige Landkarte (einen Graphen) aus allen Zusammenhängen in den Dokumenten. Man nennt das GraphRAG.

  • Die Erwartung: "Das wird super sein! Die KI versteht dann alle Zusammenhänge wie ein Mensch."
  • Die Realität: Es funktionierte schlecht (nur 82 %).
  • Warum? Man hat versucht, die Landkarte mit einem Automaten zu bauen, ohne vorher genau zu wissen, was wichtig ist (wie ein Architekt, der ohne Plan ein Haus baut). Die Landkarte war voller Fehler und verwirrte den Assistenten mehr, als dass sie half.
  • Die Lehre: Ein gut vorbereiteter, einfacher Text ist oft besser als eine komplizierte, schlecht gebaute Landkarte.

5. Ein spezielles Problem: Die deutschen Buchstaben (und portugiesische "Ç")

Da die Dokumente auf Portugiesisch waren, gab es ein kleines, aber tückisches Problem: Das Zeichen "ç" (C mit Häkchen).

  • Manche Werkzeuge haben aus "Caça" (Wild) plötzlich "Caca" (Kot) gemacht.
  • Das ist wie wenn Sie in einer deutschen Küche "Müller" (der Bäcker) plötzlich in "Müller" (der Müll) verwandeln würden. Die KI sucht dann nach Müll und findet keine Antwort.
  • Das beste Werkzeug (Docling) hat diese Buchstaben korrekt behalten, die anderen nicht.

🏁 Das Fazit für den Alltag

Wenn Sie eine KI bauen wollen, die Ihre Dokumente verstehen soll:

  1. Hören Sie auf, nur über die KI nachzudenken. (Welches Modell? Welche Suchmaschine?)
  2. Fangen Sie bei den Daten an. (Wie reinige ich die PDFs? Wie strukturiere ich sie?)
  3. Investieren Sie in die Vorbereitung. Ein guter "Koch" (Werkzeug wie Docling) mit frischen Zutaten (saubere Daten) und einer guten Anleitung (Struktur/Metadaten) ist besser als ein Genie-Koch mit verdorbenen Zutaten.

Kurz gesagt: Der Müll im Computer kommt vom Müll in den Akten, nicht vom Computer selbst.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →