CMRAG: Co-modality-based visual document retrieval and question answering

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache Erklärung der Forschungspublikation „CMRAG", die sich an ein breites Publikum richtet, ohne Fachjargon zu verwenden.

📚 Das Problem: Der „Halb-Blinde" Bibliothekar

Stell dir vor, du suchst in einer riesigen Bibliothek nach einer Antwort auf eine Frage. Aber die Bücher in dieser Bibliothek sind seltsam: Sie bestehen aus Text, aber auch aus vielen Bildern, Diagrammen, Tabellen und komplexen Layouts.

Es gab bisher zwei Arten von Bibliothekaren (Algorithmen), die dir helfen sollten:

Der Text-Leser: Er ignoriert alle Bilder komplett. Er nimmt das Buch, liest nur den Text heraus und vergisst, dass es auf Seite 50 ein wichtiges Diagramm gibt, das die Antwort enthält. Er ist blind für das Visuelle.
Der Bild-Betrachter: Er schaut sich das Buch nur als großes Foto an. Er sieht das Diagramm, versteht aber den feinen Text daneben nicht, weil er nur „sieht", aber nicht „liest". Er verpasst die genauen Zahlen im Fließtext.

Beide haben ein Problem: Sie nutzen nur eine Hälfte des Gehirns. Das führt zu ungenauen Antworten.

💡 Die Lösung: CMRAG – Der „Zwei-Augen-Bibliothekar"

Die Forscher von Baidu und verschiedenen Universitäten haben CMRAG entwickelt. Man kann sich das wie einen Super-Bibliothekar vorstellen, der beide Augen gleichzeitig benutzt.

Er schaut sich ein Dokument nicht nur als Text oder nur als Bild an, sondern betrachtet beides gleichzeitig und in Einklang.

Wie funktioniert das? (Die drei Schritte)

1. Der Übersetzer (UEM – Unified Encoding Model)
Stell dir vor, der Bibliothekar muss alle Informationen in eine gemeinsame Sprache übersetzen, damit sie verglichen werden können.

Er nimmt deine Frage (den Text).
Er nimmt den Text aus dem Buch.
Er nimmt das Bild des Buches.
Die Magie: Er wandelt alles in einen einzigen, gemeinsamen „Code" um. So kann er sagen: „Hey, diese Frage passt gut zu diesem Textabschnitt und zu diesem Bildausschnitt." Früher waren Text und Bild wie zwei verschiedene Sprachen, die sich nicht verstanden. Jetzt sprechen sie dieselbe Sprache.

2. Der Richter (UCMR – Unified Co-Modality Retrieval)
Wenn der Bibliothekar 100 Seiten durchsucht hat, hat er für jede Seite zwei Bewertungen: eine für den Text und eine für das Bild.

Das Problem: Ein Text-Bewertungsscore ist oft eine große Zahl, ein Bild-Score eine kleine. Man kann sie nicht einfach addieren, wie wenn man Äpfel und Orangen zusammenzählt.
Die Lösung: Der Richter normalisiert die Scores. Er macht aus den Äpfeln und Orangen einen „Fruchtsalat", bei dem alle Zutaten fair gewichtet sind. So weiß er genau, welche Seite die beste Kombination aus Text und Bild ist, um deine Frage zu beantworten.

3. Der Antwort-Geber (Generierung)
Sobald die besten Seiten gefunden sind, gibt er sie einem sehr klugen KI-Modell (einem „VLM"), das die Antwort formuliert. Da es jetzt sowohl den Text als auch das Bild der richtigen Seite sieht, kann es eine viel präzisere Antwort geben.

🧪 Ein Beispiel aus der Praxis

Stell dir vor, du fragst: „Wie viel Prozent der Republikaner glauben, dass die Tests die Ursache für die steigenden Fallzahlen sind?"

Der alte Text-Leser könnte den Satz im Fließtext finden, aber wenn die Prozentzahl in einem kleinen Diagramm steht, übersieht er sie.
Der alte Bild-Betrachter sieht das Diagramm, aber wenn die Zahl sehr klein gedruckt ist oder der Kontext im Text steht, rät er vielleicht falsch.
CMRAG sieht das Diagramm und liest den Text daneben. Er kombiniert beides und sagt dir: „Genau 62 %".

🚀 Warum ist das wichtig?

In der echten Welt sind Dokumente selten nur Text. Verträge haben Klauseln und Unterschriften (Bilder), Finanzberichte haben Tabellen und Grafiken, und Handbücher haben Bilder von Schaltern.

CMRAG zeigt uns, dass wir nicht mehr wählen müssen zwischen „Text lesen" oder „Bild anschauen". Wenn wir beides intelligent verbinden, werden unsere KI-Assistenten viel schlauer, genauer und nützlicher.

Kurz gesagt: CMRAG ist wie ein Bibliothekar, der nicht nur liest, sondern auch sieht – und beides perfekt zusammenbringt, um dir die richtige Antwort zu geben.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „CMRAG: Co-modality–based visual document retrieval and question answering" auf Deutsch:

1. Problemstellung

Retrieval-Augmented Generation (RAG) hat sich als Paradigma für Dokumenten-Frage-Antwort-Systeme etabliert. Bei multimodalen Dokumenten (PDFs, Scans mit Text, Tabellen, Bildern und komplexen Layouts) stoßen bestehende Methoden jedoch an Grenzen:

Textbasierte Ansätze: Diese verlassen sich auf Layout-Analyse und OCR (Textextraktion). Sie nutzen zwar explizite Textinformationen, verlieren aber visuelle Informationen (Bilder, Diagramme, Layout-Kontext) und haben Schwierigkeiten mit unstrukturierten Inhalten.
Bildbasierte Ansätze: Diese behandeln Dokumentenseiten direkt als Bilder und nutzen Vision Language Models (VLMs). Obwohl sie nicht-textuelle Informationen erfassen, ignorieren sie oft die semantische Präzision von Text, was zu suboptimalen Retrieval- und Generierungsergebnissen führt.

Es fehlt ein Framework, das Text und Bilder nahtlos und gleichberechtigt für das Retrieval und die Generierung nutzt, um die Stärken beider Modalitäten zu vereinen.

2. Methodik: Der CMRAG-Rahmen

Die Autoren schlagen CMRAG (Co-Modality-based RAG) vor, ein Framework, das Text und Bilder gleichzeitig nutzt. Der Prozess gliedert sich in drei Hauptschritte:

A. Dokumenten-Parsing (Offline)

Jede Dokumentenseite wird von einem VLM (Qwen2.5-VL) analysiert, um eine strukturierte multimodale Repräsentation zu erstellen:

Visuelle Repräsentation ( $I_i$ ): Das gesamte Seitenbild.
Textuelle Repräsentation ( $T_i$ ): Der extrahierte, strukturierte Text (z. B. im HTML-Format).

B. Unified Encoding Model (UEM)

Das Herzstück ist ein einheitliches Kodierungsmodell, das Abfragen, Bilder und geparsten Text in einen gemeinsamen latenten Raum projiziert.

Architektur: Basierend auf dem SigLIP-Backbone. Es verwendet drei Encoder: einen für Abfragen ( $E_q$ ), einen für Bilder ( $E_I$ ) und einen für Text ( $E_T$ ).
Initialisierung: $E_q$ und $E_I$ werden vortrainiert von SigLIP übernommen (frozen), während $E_T$ als längenangepasste Kopie von $E_q$ initialisiert wird, um lange Dokumententexte zu verarbeiten.
Training: Das Modell wird mit einem Dual-Sigmoid Alignment (DSA)-Verlust trainiert. Dies ist eine paarweise kontrastive Verlustfunktion, die sicherstellt, dass die Embeddings von Abfrage-Bild und Abfrage-Text im selben Raum gut ausgerichtet sind. Nur $E_T$ wird während des Trainings aktualisiert, um die vortrainierte multimodale Ausrichtung der anderen Encoder zu bewahren.

C. Unified Co-Modality-informed Retrieval (UCMR)

Um die Ähnlichkeitswerte aus den beiden Modalitäten effektiv zu fusionieren, wird ein statistischer Normalisierungsansatz verwendet, da die rohen Scores unterschiedliche Verteilungen und Skalen haben.

Sigmoid-Normalisierung: Die inneren Produkte (Similarity Scores) zwischen Abfrage und Text/Bild werden mittels Sigmoid-Funktion auf den Bereich [0, 1] skaliert.
Z-Score-Normalisierung: Anschließend werden die Scores zentriert und skaliert (Mittelwert 0, Varianz 1), um Verteilungsunterschiede zwischen den Modalitäten zu eliminieren.
Fusion: Die normalisierten Scores werden gewichtet kombiniert: $\tilde{s}_i = \beta \tilde{z}^T_i + (1-\beta) \tilde{z}^I_i$ . In den Experimenten wurde dem Bild-Modus ein höheres Gewicht gegeben ( $\beta=0.1$ für Text), da das Bild den gesamten Kontext enthält, während der Text feingranulare Details liefert.

D. Generierung

Die top-k relevanten Seiten (sowohl Bild als auch Text) werden zusammen mit der Abfrage in einen strukturierten Prompt eingegeben, der von einem starken VLM-Generator (Qwen2.5-VL) zur Beantwortung der Frage genutzt wird.

3. Wichtige Beiträge

CMRAG-Framework: Ein neuartiger Ansatz, der Text und Bild-Repräsentationen für das Retrieval und die Generierung bei visuellen Dokumenten vereint.
UEM (Unified Encoding Model): Ein effizientes Modell, das alle Modalitäten in einem einzigen Embedding-Raum kodiert und durch Triplet-basiertes Training mit Sigmoid-Verlust trainiert wird.
UCMR (Unified Co-Modality-informed Retrieval): Eine Methode zur statistischen Normalisierung von Ähnlichkeitswerten, die die Herausforderung der Fusion von Scores unterschiedlicher Modalitäten löst.
Datensatz: Die Veröffentlichung eines großen, synthetischen Triple-Datensatzes (Abfrage, Bild, Text) aus einem Open-Source-Korpus visueller Dokumente, um die Forschung im Bereich Co-Modality-Learning zu fördern.
Umfassende Evaluation: Experimente auf mehreren VDQA-Benchmarks (z. B. MMLongBench, REAL-MM-RAG), die zeigen, dass CMRAG Single-Modality-Baselines übertrifft.

4. Ergebnisse

Die Experimente wurden auf sechs verschiedenen VDQA-Datensätzen durchgeführt (u. a. Finanzberichte, technische Slides, lange Dokumente).

Retrieval-Leistung: CMRAG-R (mit Retrieval) erreicht konsistent die besten oder zweitbesten Ergebnisse in Bezug auf MRR@10, Recall und nDCG im Vergleich zu starken Baselines wie BGE (nur Text), CLIP-Varianten und SigLIP (nur Bild).
- Besonders auffällig ist die Überlegenheit bei Dokumenten mit komplexen Layouts (z. B. TechSlides, LongDocURL), wo reine Text- oder reine Bildansätze scheitern.
- Auf rein textdominierten Datensätzen (z. B. Finreport) performt der reine Text-Baseline (BGE) stark, aber CMRAG bleibt konkurrenzfähig, da es die visuelle Information als zusätzlichen Kontext nutzt.
Generierungs-Leistung: Bei der Fragebeantwortung (VDQA) übertrifft das CMRAG-Framework alle Baselines. Oracle-Experimente (Verwendung von Ground-Truth-Evidence) zeigen, dass die Kombination aus Bild und Text die höchste Genauigkeit liefert.
Effizienz: Der Ansatz fügt in der Online-Phase kaum Latenz hinzu, da die Kodierung der Dokumente offline erfolgt und die Ähnlichkeitsberechnungen parallelisierbar sind.

5. Bedeutung und Ausblick

Die Arbeit demonstriert, dass die Integration von Co-Modality-Informationen in RAG-Frameworks auf einheitliche Weise ein effektiver Ansatz ist, um komplexe visuelle Dokumenten-Frage-Antwort-Systeme zu verbessern.

Praktische Relevanz: CMRAG ist nicht nur für akademische Benchmarks relevant, sondern für reale Anwendungen wie Unternehmenswissenssuche (in Präsentationen, Handbüchern), technisches Troubleshooting (Fehlermeldungen, Schaltpläne) und wissenschaftliche Dokumentenanalyse.
Zukunftsperspektiven: Die Ergebnisse deuten darauf hin, dass die Leistung des UEM durch Skalierung der Trainingsdaten weiter gesteigert werden kann. Zudem wird die dynamische Kontrolle der Modalitäten (wann Text oder Bild priorisiert werden soll) als wichtiger Forschungsweg identifiziert, um Halluzinationen bei nicht beantwortbaren Fragen zu vermeiden.

Zusammenfassend bietet CMRAG eine robuste Lösung für das „Multimodale Retrieval-Dilemma", indem es die semantische Stärke von Text mit der kontextuellen Reichtum von Bildern verbindet, ohne dabei die Effizienz zu opfern.