CMRAG: Co-modality-based visual document retrieval and question answering

Die Arbeit stellt CMRAG vor, ein Framework für die visuelle Dokumentenabfrage, das durch die gleichzeitige Nutzung von Text- und Bildinformationen sowie ein einheitliches Kodierungsmodell und eine abgestimmte Retrieval-Methode die Leistung von Retrieval-Augmented-Generation-Systemen verbessert und dabei einen großen tripletbasierten Datensatz bereitstellt.

Wang Chen, Wenhan Yu, Guanqiang Qi, Weikang Li, Yang Li, Lei Sha, Deguo Xia, Jizhou Huang

Veröffentlicht 2026-03-09
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache Erklärung der Forschungspublikation „CMRAG", die sich an ein breites Publikum richtet, ohne Fachjargon zu verwenden.

📚 Das Problem: Der „Halb-Blinde" Bibliothekar

Stell dir vor, du suchst in einer riesigen Bibliothek nach einer Antwort auf eine Frage. Aber die Bücher in dieser Bibliothek sind seltsam: Sie bestehen aus Text, aber auch aus vielen Bildern, Diagrammen, Tabellen und komplexen Layouts.

Es gab bisher zwei Arten von Bibliothekaren (Algorithmen), die dir helfen sollten:

  1. Der Text-Leser: Er ignoriert alle Bilder komplett. Er nimmt das Buch, liest nur den Text heraus und vergisst, dass es auf Seite 50 ein wichtiges Diagramm gibt, das die Antwort enthält. Er ist blind für das Visuelle.
  2. Der Bild-Betrachter: Er schaut sich das Buch nur als großes Foto an. Er sieht das Diagramm, versteht aber den feinen Text daneben nicht, weil er nur „sieht", aber nicht „liest". Er verpasst die genauen Zahlen im Fließtext.

Beide haben ein Problem: Sie nutzen nur eine Hälfte des Gehirns. Das führt zu ungenauen Antworten.


💡 Die Lösung: CMRAG – Der „Zwei-Augen-Bibliothekar"

Die Forscher von Baidu und verschiedenen Universitäten haben CMRAG entwickelt. Man kann sich das wie einen Super-Bibliothekar vorstellen, der beide Augen gleichzeitig benutzt.

Er schaut sich ein Dokument nicht nur als Text oder nur als Bild an, sondern betrachtet beides gleichzeitig und in Einklang.

Wie funktioniert das? (Die drei Schritte)

1. Der Übersetzer (UEM – Unified Encoding Model)
Stell dir vor, der Bibliothekar muss alle Informationen in eine gemeinsame Sprache übersetzen, damit sie verglichen werden können.

  • Er nimmt deine Frage (den Text).
  • Er nimmt den Text aus dem Buch.
  • Er nimmt das Bild des Buches.
  • Die Magie: Er wandelt alles in einen einzigen, gemeinsamen „Code" um. So kann er sagen: „Hey, diese Frage passt gut zu diesem Textabschnitt und zu diesem Bildausschnitt." Früher waren Text und Bild wie zwei verschiedene Sprachen, die sich nicht verstanden. Jetzt sprechen sie dieselbe Sprache.

2. Der Richter (UCMR – Unified Co-Modality Retrieval)
Wenn der Bibliothekar 100 Seiten durchsucht hat, hat er für jede Seite zwei Bewertungen: eine für den Text und eine für das Bild.

  • Das Problem: Ein Text-Bewertungsscore ist oft eine große Zahl, ein Bild-Score eine kleine. Man kann sie nicht einfach addieren, wie wenn man Äpfel und Orangen zusammenzählt.
  • Die Lösung: Der Richter normalisiert die Scores. Er macht aus den Äpfeln und Orangen einen „Fruchtsalat", bei dem alle Zutaten fair gewichtet sind. So weiß er genau, welche Seite die beste Kombination aus Text und Bild ist, um deine Frage zu beantworten.

3. Der Antwort-Geber (Generierung)
Sobald die besten Seiten gefunden sind, gibt er sie einem sehr klugen KI-Modell (einem „VLM"), das die Antwort formuliert. Da es jetzt sowohl den Text als auch das Bild der richtigen Seite sieht, kann es eine viel präzisere Antwort geben.


🧪 Ein Beispiel aus der Praxis

Stell dir vor, du fragst: „Wie viel Prozent der Republikaner glauben, dass die Tests die Ursache für die steigenden Fallzahlen sind?"

  • Der alte Text-Leser könnte den Satz im Fließtext finden, aber wenn die Prozentzahl in einem kleinen Diagramm steht, übersieht er sie.
  • Der alte Bild-Betrachter sieht das Diagramm, aber wenn die Zahl sehr klein gedruckt ist oder der Kontext im Text steht, rät er vielleicht falsch.
  • CMRAG sieht das Diagramm und liest den Text daneben. Er kombiniert beides und sagt dir: „Genau 62 %".

🚀 Warum ist das wichtig?

In der echten Welt sind Dokumente selten nur Text. Verträge haben Klauseln und Unterschriften (Bilder), Finanzberichte haben Tabellen und Grafiken, und Handbücher haben Bilder von Schaltern.

CMRAG zeigt uns, dass wir nicht mehr wählen müssen zwischen „Text lesen" oder „Bild anschauen". Wenn wir beides intelligent verbinden, werden unsere KI-Assistenten viel schlauer, genauer und nützlicher.

Kurz gesagt: CMRAG ist wie ein Bibliothekar, der nicht nur liest, sondern auch sieht – und beides perfekt zusammenbringt, um dir die richtige Antwort zu geben.