CMRAG: Co-modality-based visual document retrieval and question answering

Dit paper introduceert CMRAG, een co-modale RAG-framework dat tekst en afbeeldingen gelijktijdig benut via een unificatie-encoderingmodel en een co-modale zoekmethode om de prestaties van visuele documentvraag-antwoordsystemen te verbeteren.

Wang Chen, Wenhan Yu, Guanqiang Qi, Weikang Li, Yang Li, Lei Sha, Deguo Xia, Jizhou Huang

Gepubliceerd 2026-03-09
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme, rommelige bibliotheek binnenloopt. Deze bibliotheek bevat niet alleen boeken met tekst, maar ook posters, foto's, grafieken en handgeschreven notities. Je stelt een vraag, bijvoorbeeld: "Hoeveel procent van de mensen denkt dat het weer warmer wordt?"

De meeste oude systemen om deze vraag te beantwoorden hadden twee manieren van werken, en beide hadden een groot probleem:

  1. De "Tekst-Leslie": Deze robot las alleen de tekst uit de boeken. Maar als het antwoord in een foto of een ingewikkelde grafiek stond, was hij volledig blind. Hij zag de tekst niet, dus hij kon het antwoord niet vinden.
  2. De "Foto-Frank": Deze robot keek alleen naar de plaatjes. Hij kon prachtige foto's herkennen, maar als er een cruciaal antwoord in een klein lettertje in de tekst stond, miste hij dat vaak. Hij zag de "smaak" van het plaatje, maar niet de precieze details.

CMRAG: De Super-Regisseur

De auteurs van dit paper (Wang Chen en zijn team) hebben een nieuwe methode bedacht, genaamd CMRAG. Je kunt dit zien als een super-geavanceerde regisseur die zowel de tekst als de plaatjes tegelijkertijd in de gaten houdt.

Hier is hoe het werkt, in simpele termen:

1. De Vertaler (UEM)

Stel je voor dat tekst en plaatjes twee verschillende talen spreken. De tekst spreekt "Woorden", en de plaatjes spreken "Beelden". Normaal gesproken praten ze niet goed met elkaar.

CMRAG heeft een slimme vertaler (het Unified Encoding Model) gebouwd. Deze vertaler neemt een vraag, een stukje tekst én een plaatje en vertaalt ze allemaal naar één gemeenschappelijke taal: een soort "gevoels-code" of embeddings.

  • Het is alsof je een vraag over "rode auto's" en een foto van een rode auto beide omzet in hetzelfde nummer in een database. Zo weet het systeem direct: "Ah, deze vraag past bij dit plaatje én bij deze tekst!"

2. De Gelijke Weegschaal (UCMR)

Er is nog een probleem: Soms is de tekst heel duidelijk en geeft hij een hoge score, terwijl het plaatje vaag is en een lage score geeft. Als je ze zomaar optelt, is het alsof je een kilo veren en een kilo lood op één weegschaal legt en denkt dat ze even zwaar zijn. Ze hebben een andere "dichtheid".

CMRAG gebruikt een slimme statistische weegschaal. Het kijkt naar alle scores, past ze aan zodat ze eerlijk met elkaar kunnen worden vergeleken (dit noemen ze "normalisatie").

  • De analogie: Het is alsof je een wedstrijd hebt tussen een sprinter (tekst) en een marathonloper (plaatjes). Je kunt hun tijden niet direct vergelijken. CMRAG zet ze beide om in een "percentage van hun persoonlijke record", zodat je eerlijk kunt zeggen wie er beter presteert in deze specifieke situatie.

3. Het Grote Geheel

Uiteindelijk geeft CMRAG de beste stukjes tekst én de beste plaatjes aan een slimme AI (een VLM). Deze AI leest de tekst, kijkt naar de foto's, en geeft het perfecte antwoord.

Waarom is dit zo cool?

  • Geen gaten meer: Als het antwoord in een tabel staat, ziet de "Tekst-Leslie" het, en als het antwoord in een diagram staat, ziet de "Foto-Frank" het. CMRAG ziet alles.
  • Snelheid: Het systeem is zo ontworpen dat het niet langzamer is dan de oude methoden. Het is alsof je een tweede paar ogen krijgt zonder dat je langer hoeft te wachten.

Kortom:
CMRAG is als een detective die niet alleen leest wat er staat, maar ook kijkt naar wat er getekend is. Door beide bronnen slim te combineren en ze eerlijk met elkaar te vergelijken, kan hij vragen beantwoorden die voor andere systemen onmogelijk waren. Of het nu gaat om een financieel verslag met grafieken of een handleiding met foto's: deze nieuwe methode vindt het antwoord, ongeacht of het in woorden of in beelden staat.