QA-Dragon: Query-Aware Dynamic RAG System for Knowledge-Intensive Visual Question Answering

Het paper introduceert QA-Dragon, een querybewust dynamisch RAG-systeem dat door middel van een hybride zoekstrategie en gespecialiseerde routers multimodale, multi-hop redeneerredenering mogelijk maakt voor kennisintensieve visuele vraagbeantwoording, wat leidt tot aanzienlijke prestatieverbeteringen op de KDD Cup 2025 Meta CRAG-MM Challenge.

Zhuohang Jiang, Pangjing Wu, Xu Yuan, Wenqi Fan, Qing Li

Gepubliceerd 2026-03-17
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

🐉 QA-Dragon: De slimme detective voor vragen over plaatjes

Stel je voor dat je een Multimodale Large Language Model (MLLM) hebt. Dit is een super-intelligente robot die plaatjes kan zien en vragen kan beantwoorden. Maar deze robot heeft een groot probleem: hij heeft een "geheugen" dat stopt op het moment dat hij is getraind. Als je hem iets vraagt over een heel nieuw apparaat, een specifieke auto uit 2025, of een vreemd dier, begint hij te hallucineren. Hij verzint feiten omdat hij ze niet echt weet, net als iemand die probeert een quiz te winnen door te raden.

Om dit op te lossen, hebben onderzoekers QA-Dragon bedacht. Dit is geen simpele robot, maar een slimme zoekmachine met een team van specialisten.

Hier is hoe het werkt, stap voor stap, met een paar leuke vergelijkingen:

1. De Entree: De "Gastheer" (Domain Router)

Wanneer je een vraag stelt bij een plaatje (bijvoorbeeld: "Wat is de motorinhoud van deze blauwe auto?"), komt het niet direct bij de robot. Eerst komt het bij een Gastheer (de Domain Router).

  • De Analogie: Stel je voor dat je in een enorm ziekenhuis komt. De Gastheer kijkt naar je symptomen en zegt: "Ah, dit is een hartkwaal, ga naar de cardiologie!" of "Dit is een botbreuk, ga naar de orthopedie!"
  • In het paper: De Gastheer kijkt naar je vraag en het plaatje en zegt: "Dit is een vraag over auto's" of "Dit is een vraag over voedsel". Hierdoor weet het systeem welke "specialist" (een speciaal getrainde versie van de AI) de vraag moet beantwoorden. Dit voorkomt dat de robot probeert een auto te verklaren met kennis over koken.

2. De Denker: De "Voor-denker" (Pre-Answer & D-CoT)

Voordat de robot überhaupt gaat zoeken, denkt hij even na. Dit heet de D-CoT (Domain-aware Chain of Thought).

  • De Analogie: Het is alsof je een detective bent die een misdaadplek bekijkt. Voordat je de politie belt, vraag je jezelf af: "Zie ik hier genoeg bewijs om de dader te vinden, of moet ik het archief in?"
  • In het paper: De robot probeert het antwoord te bedenken op basis van wat hij ziet. Als hij zeker weet dat het antwoord op het plaatje staat (bijv. "Wat staat er op dit bord?"), zegt hij: "Ik weet het, ik hoef niet te zoeken!" en geeft direct het antwoord. Dit bespaart tijd.

3. De Wegwijzer: De "Verkeersregelaar" (Search Router)

Als de "Voor-denker" twijfelt, komt de Verkeersregelaar in actie.

  • De Analogie: Een verkeersregelaar op een druk kruispunt. Hij kijkt naar de auto's (vragen) en beslist:
    • Ga je rechtdoor? (Direct antwoord geven).
    • Moet je linksaf naar de bibliotheek? (Zoeken op internet).
    • Moet je rechtsaf naar de fotoarchief? (Zoeken in beeldbestanden).
  • In het paper: Deze regelaar kijkt naar de twijfel van de robot. Als de robot zegt: "Ik denk dat het een BMW is, maar ik weet niet zeker welk model," stuurt de regelaar de vraag naar de zoekmachines.

4. De Zoekers: De "Twee Hulptroepen" (Image & Text Agents)

Nu de regelaar heeft besloten dat er gezocht moet worden, worden twee specialisten ingezet:

  • De Foto-Detective (Image Search Agent):
    • Wat doet hij? Hij snijdt het plaatje in stukjes (zoals een puzzel) en zoekt in een gigantische database naar andere foto's die lijken op het stukje dat je hebt.
    • Voorbeeld: Je vraagt naar een auto. Hij zoekt naar andere foto's van dezelfde auto om te zien welk model het is.
  • De Boekwurm (Text Search Agent):
    • Wat doet hij? Hij zoekt op internet naar feiten die je niet op de foto kunt zien, zoals de prijs, de bouwdatum of de motorinhoud.
    • De Slimme Twist: Hij combineert de informatie. Als de Foto-Detective zegt "Het is een rode BMW M4", zegt de Boekwurm: "Oké, ik zoek nu specifiek naar 'prijs van rode BMW M4' in plaats van alleen 'prijs van deze auto'." Dit maakt de zoekresultaten veel scherper.

5. De Filter: De "Scheidingsrechter" (Reranker)

De zoekers vinden misschien wel 50 resultaten, maar de meeste zijn onzin (zoals reclames of verkeerde foto's).

  • De Analogie: Stel je voor dat je 50 brieven krijgt. Een Scheidingsrechter leest ze allemaal snel door en kiest alleen de 3 brieven die écht relevant zijn voor je vraag. Hij gooit de rest weg.
  • In het paper: Dit gebeurt in twee stappen. Eerst een snelle filter (coarse) en daarna een diepere, slimme filter (fine) die precies kijkt of de tekst of foto bij de vraag past.

6. De Finale: De "Controleur" (Verifier)

Voordat het antwoord naar jou gaat, kijkt een laatste Controleur of het antwoord klopt.

  • De Analogie: Een leraar die je huiswerk nakijkt. Hij vraagt zich af: "Is dit antwoord logisch? Komen de feiten overeen met de bronnen die we hebben gevonden? Of is de robot weer aan het fantaseren?"
  • In het paper: Als de controleur twijfelt, zegt de robot: "Ik weet het niet zeker" in plaats van een leugen te vertellen.

🏆 Waarom is dit zo goed?

De onderzoekers hebben dit systeem getest in een grote wedstrijd (de KDD Cup 2025) waar robots moesten antwoorden op moeilijke vragen over plaatjes.

  • Resultaat: QA-Dragon won ruimschoots.
  • De winst: Het systeem was 5% tot 6% beter dan de beste andere methoden.
  • De reden: Omdat het niet blindelings zoekt, maar eerst nadenkt over wat er nodig is, waar het te vinden is, en hoe het moet worden samengevoegd. Het is als een goed georganiseerd team in plaats van één persoon die alles probeert te doen.

Kortom: QA-Dragon is de slimme detective die eerst luistert, dan de juiste specialisten roept, de beste bewijsstukken selecteert en pas dan het antwoord geeft. Zo voorkomt hij dat hij dingen verzonnen.