MIRROR: Multimodal Iterative Reasoning via Reflection on Visual Regions

Each language version is independently generated for its own context, not a direct translation.

MIRROR: De "Kijk-Nog-Eens" Methode voor Slimme AI

Stel je voor dat je een kunstgalerij binnenloopt met een zeer intelligente, maar soms wat overhaaste gids. Deze gids (de AI) ziet een schilderij en zegt direct: "Ah, ik zie hier drie vogels!" Maar als je goed kijkt, zie je dat er eigenlijk vier vogels zijn, waarvan één verstopt zit achter een boom. De gids heeft niet goed gekeken; hij heeft gewoon geraden op basis van wat hij denkt dat er zou moeten zijn.

Dit is precies het probleem met huidige beeld-spraakmodellen (VLMs). Ze zijn slim, maar ze "hallucineren" vaak: ze verzinnen details die er niet zijn, of ze missen belangrijke dingen omdat ze te snel een antwoord geven.

De onderzoekers van dit paper hebben een oplossing bedacht genaamd MIRROR. De naam staat voor Multimodal Iterative Reasoning via Reflection On Visual Regions. In het Nederlands kunnen we het zien als een "Spiegel-Methode".

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Gooi-en-Vergeet" Gids

Normaal gesproken kijkt de AI naar een foto, denkt even na en schrijft een antwoord. Als hij een fout maakt, probeert hij die soms te corrigeren door alleen maar tekst te herschrijven.

De analogie: Het is alsof je een fout in een briefje schrijft, het briefje dichtvouwt, en dan alleen maar in je hoofd denkt: "Nee, dat klopt niet." Je kijkt niet terug naar de foto. Je herschrijft het antwoord op basis van wat je denkt dat waar is, niet wat je ziet.

2. De Oplossing: MIRROR (De Actieve Spiegel)

MIRROR verandert dit proces. In plaats van alleen maar te praten, dwingt het de AI om echt terug te kijken naar de foto. Het is een cyclus van vier stappen:

Het Gist: De AI geeft een eerste antwoord (bijv. "Ik zie 3 vogels").
De Reflectie: De AI zegt tegen zichzelf: "Wacht even, ik ben niet zeker. Misschien heb ik iets gemist."
Het Kijken (De Magische Stift): Dit is het belangrijkste deel. De AI gebruikt een digitaal hulpmiddel om direct op de foto te tekenen. Het plaatst een stip, een cirkel of een pijl op het gebied waar het twijfelt.
- Analogie: Het is alsof de gids een laserpointer pakt en zegt: "Kijk hier, achter die boom! Daar zit de vierde vogel!" Hij markeert het gebied visueel.
De Correctie: Nu de AI weer naar het gemarkeerde gebied kijkt, ziet hij de vierde vogel echt staan. Hij past zijn antwoord aan: "Oh, ik zie nu 4 vogels!"

3. De Oefening: ReflectV (De Trainingscampus)

Om deze AI te leren hoe dit werkt, hebben de onderzoekers een speciale trainingsset gemaakt genaamd ReflectV.

Stel je voor dat ze een school hebben gebouwd waar de AI-oefeningen doet. In deze oefeningen krijgt de AI een vraag, maakt hij een fout, en krijgt hij een "leraar" die zegt: "Kijk nog eens naar die hoek!"
De AI leert dan niet alleen het juiste antwoord, maar leert ook hoe hij moet kijken. Hij leert dat hij niet moet gissen, maar moet markeren waar hij naar moet kijken.

4. Waarom is dit zo belangrijk?

Zonder MIRROR is de AI als iemand die een raadsel oplost terwijl hij zijn ogen dichthoudt. Hij kan wel een goed antwoord gissen, maar hij kan het niet bewijzen.
Met MIRROR is de AI als een detective die een vergrootglas gebruikt. Hij zegt niet alleen "Ik denk dat de moordenaar links zat", maar hij wijst ook precies op de plek in de kamer waar de voetafdruk zit.

Kort samengevat:
MIRROR leert AI's om niet alleen te denken, maar ook om actief te kijken. Het dwingt de computer om bij twijfel een "visuele check" uit te voeren door specifieke delen van de foto te markeren. Hierdoor maken ze veel minder fouten en verzinnen ze minder dingen die er niet zijn. Het is de overstap van "gissen" naar "bewijzen".

Each language version is independently generated for its own context, not a direct translation.

Titel: MIRROR: Multimodaal Iteratief Redeneren via Reflectie op Visuele Regio's

1. Het Probleem

In het tijdperk van Vision-Language Models (VLM's) blijft het verbeteren van multimodale redeneercapaciteiten een kritieke uitdaging, vooral bij het verwerken van ambigu of complex visueel materiaal. Bestaande VLM's hebben de neiging om plausibele maar ongegronde antwoorden te genereren, een fenomeen dat bekend staat als hallucinatie.

De beperking van huidige methoden: Bestaande aanpakken die gebruikmaken van "Chain-of-Thought" (CoT) of zelfcorrectie-strategieën, lijden vaak onder een "modality disconnect" (modale disconnectie). Wanneer deze modellen worden gevraagd om te "reflecteren", gebeurt dit voornamelijk via tekstuele revisie. Zonder een expliciete mechanisme om visuele details opnieuw te inspecteren, baseren modellen hun correcties vaak op taalkundige aannames in plaats van op feitelijke visuele bewijzen.
Het doel: Er is een paradigmaverschuiving nodig van een open-lus tekstgeneratie naar een gesloten-lus verificatieproces waarbij het model actief terugkeert naar de afbeelding om fouten te verifiëren en te corrigeren.

2. Methodologie: Het MIRROR Framework

MIRROR is een nieuw framework dat visuele reflectie als kernmechanisme integreert om het redeneerproces om te vormen tot een iteratieve, gesloten-lus cyclus. Het proces bestaat uit vier fasen die worden herhaald totdat het antwoord visueel onderbouwd is:

Draft (Opstellen): Het model genereert een eerste antwoord op basis van de afbeelding en de vraag.
Critique (Kritiek/Reflectie): Het model voert een zelfreflectie uit om onzekerheden of potentiële fouten in het initiële antwoord te identificeren.
Region-based Verification (Verificatie op basis van regio's): Dit is de kerninnovatie. Het model roept een visuele prompt-generator aan om specifieke regio's in de afbeelding te markeren die relevant zijn voor de reflectie (bijvoorbeeld met punten, kaders of ellipsen).
- Technische implementatie: Het model genereert een tool-call (bijv. <tool call>) met een "anchor" (tekstuele target) en argumenten (kleur, vorm). Een generator (gebaseerd op Molmo-7B en SAM 2) vertaalt dit naar visuele markers op de originele afbeelding, waardoor een nieuwe, aangepaste visuele context ( $I_k$ ) ontstaat.
Revision (Herziening): Het model gebruikt de gemarkeerde afbeelding ( $I_k$ ) en de interactiegeschiedenis om het antwoord te herzien en te verfijnen.

Dit proces wordt formeel beschreven als een multi-turn generatieproces waarbij de output van elke stap ( $y_k$ ) bestaat uit een tekstueel antwoord ( $a_k$ ), reflectie-inhoud ( $r_k$ ) en visuele tool-tokens ( $v_k$ ).

3. Belangrijkste Bijdragen

Het MIRROR Framework: Een visueel reflectief systeem dat VLM's in staat stelt om gesloten-lus redenering uit te voeren door iteratief zelfreflectie te triggeren en visuele hulpmiddelen in te roepen om visuele details te verifiëren. Dit vermindert hallucinaties aanzienlijk in complexe taken.
ReflectV Dataset: De auteurs hebben een hoogwaardige dataset van ongeveer 24.000 samples geconstrueerd met behulp van een multi-agent pijplijn.
- Constructie: De dataset transformeert externe feedback (van een "leraar") naar interne zelfreflectie (van een "student").
- Kenmerken: Het bevat expliciete reflectietriggers, verificatieacties op basis van regio's en antwoorden die zijn herzien op basis van visueel bewijs. De dataset omvat diverse domeinen zoals OCR, documentbegrip en diagramredenering.
MIRROR Model: Een op Qwen2.5-VL-7B gefinetuned model dat de bovenstaande methoden toepast. Het model presteert superieur ten opzichte van sterke baselines op diverse benchmarks.

4. Resultaten

Experimentele evaluaties op algemene vision-language benchmarks en specifieke redeneerbenchmarks tonen aan dat MIRROR aanzienlijke verbeteringen levert:

Algemene Capabiliteiten & Redenering: MIRROR overtreft de basismodellen (zoals Qwen2.5-VL en InternVL3) en state-of-the-art baselines op benchmarks zoals MM-Vet, MMStar en SeedBench-2-Plus.
Hallucinatiemitigatie: Het model toont een sterke verbetering in het verminderen van hallucinaties, met name op de HallusionBench (+13,36% verbetering) en POPE (94,42% score).
OCR & Documentbegrip: Op tekstintensieve taken zoals OCRBench en ChartQA behaalt MIRROR state-of-the-art resultaten, wat aantoont dat het model beter in staat is verwaarloosde visuele details te detecteren.
Vergelijking met andere redeneerparadigma's: MIRROR presteert beter dan modellen die alleen gebruikmaken van tekstuele reflectie (zoals VL-Rethinker) en modellen die "Thinking with Images" toepassen maar geen gesloten-lus verificatie hebben (zoals PixelReasoner en DeepEyes). De gesloten-lus verificatie is cruciaal voor het corrigeren van perceptiefouten.
Efficiëntie: Ondanks de iteratieve aard, is MIRROR efficiënter dan veel bestaande "Thinking with Images" modellen, met een lagere inferentietijd en token-gebruik dankzij gerichte visuele verificatie in plaats van willekeurige zooms of lange tekstketens.

5. Significantie en Impact

De paper introduceert een fundamentele verschuiving in hoe multimodale modellen omgaan met fouten. In plaats van te vertrouwen op tekstuele aannames voor correctie, dwingt MIRROR het model om actief terug te keren naar de visuele input ("look again") en bewijs te zoeken in specifieke beeldregio's.

Technische Impact: Het bewijst dat het trainen van reflectie als een evidence-seeking proces (bewijszoekend proces) effectiever is dan het trainen als een simpele tekstuele revisiestap.
Toekomstperspectief: Hoewel het framework zeer succesvol is in concrete visuele taken, worden er beperkingen erkend bij abstracte domeinen (zoals complexe wiskundige afleidingen) waar visuele ankerpunten moeilijk te definiëren zijn. Toekomstig werk richt zich op het verfijnen van de granulariteit van verificatie en het ankeren van symbolisch redeneren in visuele contexten.

Samenvattend biedt MIRROR een robuust kader voor het bouwen van betrouwbaardere, minder hallucinerende en visueel onderbouwde AI-systemen voor complexe redeneertaken.

MIRROR: Multimodal Iterative Reasoning via Reflection on Visual Regions

1. Het Probleem: De "Gooi-en-Vergeet" Gids

2. De Oplossing: MIRROR (De Actieve Spiegel)

3. De Oefening: ReflectV (De Trainingscampus)

4. Waarom is dit zo belangrijk?

Titel: MIRROR: Multimodaal Iteratief Redeneren via Reflectie op Visuele Regio's

1. Het Probleem

2. Methodologie: Het MIRROR Framework

3. Belangrijkste Bijdragen

4. Resultaten

5. Significantie en Impact

Meer zoals dit

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation