Index Light, Reason Deep: Deferred Visual Ingestion for Visual-Dense Document Question Answering

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen riesigen, unübersichtlichen Schrank voller technischer Baupläne – Tausende von Seiten mit detaillierten Zeichnungen, Zahlen und Pfeilen. Ein Ingenieur kommt und fragt: „Wie dick ist die Bewehrung im Pfeiler 3 der Brücke A?"

Das ist das Problem, das dieses Papier löst. Hier ist die Erklärung in einfacher Sprache, mit ein paar anschaulichen Vergleichen.

Das alte Problem: Der „blindes Beschreiben"-Ansatz (Pre-Ingestion)

Bisher haben Computer versucht, diesen Schrank zu organisieren, indem sie jeden einzelnen Plan sofort von einem sehr schlauen, aber teuren KI-Roboter (einem „Vision Language Model" oder VLM) durchsuchen ließen.

Der Vergleich: Stellen Sie sich vor, Sie haben 500 Bücher. Bevor Sie überhaupt wissen, wonach jemand sucht, lassen Sie einen Übersetzer jeden einzelnen Satz in jedem Buch zusammenfassen und diese Zusammenfassungen in eine Datenbank schreiben.
Das Problem:
1. Verlust von Details: Der Roboter muss raten, was wichtig ist. Er schreibt vielleicht: „Hier ist eine Brücke." Aber er vergisst die winzigen Zahlen, die genau sagen, wie dick der Stahl ist. Diese Details gehen in der „Zusammenfassung" verloren.
2. Die Such-Illusion: Wenn Sie nach „Brücke A" suchen, findet die Datenbank oft 20 fast identische Pläne für 20 verschiedene Brücken. Da die Zusammenfassungen alle ähnlich klingen („Hier ist eine Brücke"), kann die KI nicht unterscheiden, welcher Plan der richtige ist. Es ist wie der Versuch, eine spezifische Nadel im Heuhaufen zu finden, indem man nur nach „Heu" sucht.

Das Ergebnis: Die KI findet den falschen Plan, und die Antwort ist falsch.

Die neue Lösung: „Deferred Visual Ingestion" (DVI) – Das „Warten bis nötig"-Prinzip

Das Papier schlägt einen völlig anderen Weg vor: Index nur zum Finden, nicht zum Verstehen.

Statt alle Pläne vorher zu analysieren, baut das System nur einen sehr einfachen, strukturierten Katalog auf.

Der Vergleich: Stellen Sie sich vor, Sie haben einen Bibliothekar, der nicht die Bücher liest. Stattdessen schaut er nur auf die Rücken der Bücher und die Inhaltsverzeichnisse.
- Er sieht: „Buch 101013 gehört zur Kategorie 'Pfeiler-Details'."
- Er sieht: „Buch 501521 gehört zu 'Brücke A'."
- Er schreibt diese Nummern und Kategorien in eine Liste. Das kostet nichts und dauert nur Sekunden. Er liest kein Wort aus dem Buch.

Was passiert, wenn eine Frage kommt?

Die Suche: Der Ingenieur fragt: „Wie dick ist der Stahl im Pfeiler 3?"
Der Katalog: Das System schaut in seine einfache Liste (den Katalog). Es findet sofort die Seite mit der Nummer „Pfeiler 3". Es muss nicht raten, es nutzt exakte Übereinstimmung (wie ein Suchbegriff in Google).
Das „Aha"-Moment: Erst jetzt, wenn die Seite gefunden wurde, schickt das System das Originalbild dieser einen Seite zusammen mit der Frage an den schlauen KI-Roboter.
- Der Roboter sagt: „Ah, du willst genau diese Zahl hier sehen?" und liest sie direkt vom Bild ab.

Warum ist das so viel besser?

Kein Informationsverlust: Der Roboter sieht das Originalbild mit allen Details, nicht nur eine mühsam erstellte Zusammenfassung.
Keine Verwechslung: Da das System nach genauen Nummern und Kategorien sucht (wie ein Postleitzahl-System), findet es genau die richtige Seite, auch wenn es 100 ähnliche Pläne gibt.
Kosten & Geschwindigkeit: Man muss nicht 500 Pläne vorher analysieren (was teuer und langsam ist). Man analysiert nur die 1-2 Seiten, die jemand wirklich braucht.

Die Ergebnisse im echten Leben

Die Forscher haben das an echten Bauplänen getestet:

Bei Brückenplänen: Die alte Methode hatte nur eine Erfolgsquote von 24 %. Die neue Methode (DVI) lag bei 65 %. Das ist ein riesiger Sprung!
Warum? Weil die alte Methode die falschen Pläne fand. Die neue Methode fand den richtigen Plan, und der Roboter konnte die Antwort lesen.

Zusammenfassung in einem Satz

Statt jeden Plan vorher mühsam zu „verstehen" und dabei Details zu verlieren, baut das System nur einen klaren Katalog aus den Nummern. Wenn jemand eine Frage hat, sucht es im Katalog nach dem richtigen Plan und schickt dann erst das Originalbild zum Verstehen – so wie man ein Buch erst aufschlägt, wenn man weiß, welches Kapitel man lesen will.

Index Light, Reason Deep: Deferred Visual Ingestion for Visual-Dense Document Question Answering

Das alte Problem: Der „blindes Beschreiben"-Ansatz (Pre-Ingestion)

Die neue Lösung: „Deferred Visual Ingestion" (DVI) – Das „Warten bis nötig"-Prinzip

Warum ist das so viel besser?

Die Ergebnisse im echten Leben

Zusammenfassung in einem Satz

1. Problemstellung: Die Herausforderung visuell dichter Dokumente

2. Methodik: Deferred Visual Ingestion (DVI)

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Fazit

Index Light, Reason Deep: Deferred Visual Ingestion for Visual-Dense Document Question Answering

Das alte Problem: Der „blindes Beschreiben"-Ansatz (Pre-Ingestion)

Die neue Lösung: „Deferred Visual Ingestion" (DVI) – Das „Warten bis nötig"-Prinzip

Warum ist das so viel besser?

Die Ergebnisse im echten Leben

Zusammenfassung in einem Satz

1. Problemstellung: Die Herausforderung visuell dichter Dokumente

2. Methodik: Deferred Visual Ingestion (DVI)

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

One Pic is All it Takes: Poisoning Visual Document Retrieval Augmented Generation with a Single Image

The Geometric Anatomy of Capability Acquisition in Transformers

Disentangling Prompt Element Level Risk Factors for Hallucinations and Omissions in Mental Health LLM Responses

ASCAT: An Arabic Scientific Corpus and Benchmark for Advanced Translation Evaluation

Semantic Shifts of Psychological Concepts in Scientific and Popular Media Discourse: A Distributional Semantics Analysis of Russian-Language Corpora