Multimodal Adaptive Retrieval Augmented Generation through Internal Representation Learning

Dit paper introduceert MMA-RAG, een multimodaal adaptief systeem dat door middel van interne representatieleer dynamisch bepaalt wanneer externe kennis moet worden gebruikt om hallucinaties in visuele vraagbeantwoording te verminderen en de robuustheid te vergroten.

Ruoshuang Du, Xin Sun, Qiang Liu, Bowen Song, Zhongqi Chen, Weiqiang Wang, Liang Wang

Gepubliceerd 2026-03-03
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms wat naïeve assistent hebt. Deze assistent is een kunstmatige intelligentie (AI) die heel goed is in het beantwoorden van vragen over plaatjes. Maar er is een probleem: soms hallucineert deze assistent. Hij zegt dingen die klinken als waarheid, maar die helemaal niet kloppen met het plaatje dat hij voor zich heeft.

Om dit op te lossen, hebben onderzoekers een slimme truc bedacht, genaamd MMA-RAG. Laten we dit uitleggen met een paar alledaagse vergelijkingen.

1. Het Probleem: De "Verkeerde Vriend"

Stel je voor dat je een foto van een plant laat zien en vraagt: "Wat voor familie is dit?"
De AI kijkt naar de plant en denkt: "Oh, dat lijkt op een muntplant!" (Het juiste antwoord).

Maar dan besluit de AI om even op internet te zoeken naar "soortgelijke plaatjes" (dit heet Reverse Image Retrieval). Hij vindt een foto van een plant die er heel erg op lijkt, maar het is eigenlijk een heel andere soort (bijvoorbeeld een 'horehound').
De AI ziet die nieuwe foto, denkt: "O, die nieuwe foto is zo'n goede match, ik ga daar mijn antwoord op baseren!" en zegt: "Het is een horehound!"

Het resultaat: De AI was eerst goed, maar door het zoeken op internet is hij nu fout gegaan. De nieuwe informatie was visueel vergelijkbaar, maar semantisch (betekenis) verkeerd. Dit is als iemand die een verkeerde routebeschrijving krijgt van een vriend die eruitziet als een betrouwbare gids, maar die je naar de verkeerde stad brengt.

2. De Oplossing: De "Slimme Portier" (MMA-RAG)

De onderzoekers van dit papier hebben een systeem bedacht dat dit voorkomt. Ze noemen het MMA-RAG.

In plaats van dat de AI altijd op internet gaat zoeken, of nooit, heeft ze nu een slimme portier (een 'classifier') in haar hoofd. Deze portier kijkt niet naar het antwoord zelf, maar naar hoe de AI voelt over het antwoord.

  • Hoe werkt de portier?
    De portier luistert naar twee dingen tegelijk:

    1. Wat de AI ziet op het plaatje (visuele signalen).
    2. Wat de AI denkt over de tekst van de vraag (tekstuele signalen).

    De portier analyseert deze signalen op verschillende niveaus in het brein van de AI (net als een dieet van lagen in een gebouwencomplex). Hij vraagt zich af: "Is de AI al zeker genoeg van het antwoord op basis van het originele plaatje? Of heeft ze echt hulp nodig van internet?"

  • De Beslissing:

    • Scenario A: De AI is al zeker en het antwoord is waarschijnlijk goed. De portier zegt: "Nee, zoek niet op internet. Dat zou ons alleen maar in de war brengen met verkeerde plaatjes." -> De AI geeft het antwoord zonder hulp.
    • Scenario B: De AI twijfelt, of het originele plaatje is niet genoeg. De portier zegt: "Ja, ga snel op internet zoeken! Die extra plaatjes kunnen ons helpen." -> De AI zoekt op en gebruikt de nieuwe informatie.

3. Waarom is dit slim? (De "Lagen" van het Brein)

Een van de coolste ontdekkingen in dit papier is dat ze gekeken hebben naar waar in het brein van de AI deze beslissingen worden genomen.

Stel je het brein van de AI voor als een fabriek met veel verdiepingen:

  • Op de lage verdiepingen (shallow layers) kijken ze alleen naar de tekst of alleen naar de pixels. Dat is nog te vaag om te weten of een antwoord goed is.
  • Op de hogere verdiepingen (deep layers) komen tekst en plaatjes samen. Hier wordt duidelijk of het antwoord logisch is.

De onderzoekers ontdekten dat als je tekst en plaatjes samen bekijkt, de AI al heel vroeg (op de middelste verdiepingen) kan zien of er een probleem zit. Het is alsof je niet wacht tot het hele gerecht op tafel staat om te proeven, maar al tijdens het koken ruikt of het goed gaat.

4. Twee Manieren om te Beslissen

De portier kan op twee manieren werken, afhankelijk van hoe voorzichtig je wilt zijn:

  1. De Pessimistische Portier (Voorzichtig): "Ik zoek alleen op internet als ik 100% zeker weet dat we het zonder internet fout gaan doen." Dit is veilig, maar soms missen we nuttige informatie.
  2. De Optimistische Portier (Avontuurlijk): "Ik zoek altijd op internet, tenzij ik 100% zeker weet dat het internet ons gaat verwarren." Dit is handig als je veel specifieke kennis nodig hebt (zoals bij zeldzame planten of monumenten), maar het is riskanter.

Conclusie

Kort samengevat: MMA-RAG is als het geven van een slimme "intuïtie" aan een AI. In plaats van blindelings te vertrouwen op wat het internet zegt, leert de AI eerst naar zichzelf te kijken. Als ze zelf al weet wat het antwoord is, laat ze het internet buiten spel. Als ze twijfelt, haalt ze hulp erbij.

Dit zorgt ervoor dat de AI minder vaak "hallucineert" (foute antwoorden geeft) en betrouwbaarder wordt, of het nu gaat om het herkennen van een plant, een historisch gebouw of een zeldzaam dier. Het is een balans vinden tussen "weten wat je zelf weet" en "weten wanneer je hulp nodig hebt".

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →