MIRROR: Multimodal Iterative Reasoning via Reflection on Visual Regions

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr klugen, aber manchmal etwas voreiligen Freund, der Bilder beschreiben kann. Wenn du ihm ein Bild zeigst und eine Frage stellst, antwortet er schnell. Aber manchmal „halluziniert" er: Er sieht Dinge, die gar nicht da sind, oder übersieht wichtige Details, weil er zu schnell urteilt.

Das ist das Problem, das die Forscher mit MIRROR lösen wollen.

Hier ist die einfache Erklärung, wie MIRROR funktioniert, verpackt in ein paar Bilder:

1. Das Problem: Der „Blitzentscheider"

Die aktuellen KI-Modelle sind wie ein Schüler, der bei einer Mathearbeit sofort die erste Antwort hinschreibt, die ihm in den Sinn kommt, ohne nachzudenken. Wenn er einen Fehler macht (z. B. eine Zahl falsch liest), korrigiert er sich oft nur im Kopf: „Vielleicht war es ja eine 5 statt einer 3." Aber er schaut sich das Bild nicht noch einmal genau an. Er verlässt sich nur auf sein Gedächtnis und seine Vermutungen. Das führt zu falschen Antworten.

2. Die Lösung: MIRROR – Der „Zweites-Mal-Hinschauen"-Bot

MIRROR ist wie ein sehr gewissenhafter Lehrer, der dem Schüler sagt: „Halt! Schau noch einmal genau hin, bevor du antwortest."

Statt nur zu reden, hat MIRROR eine spezielle Brille (ein Werkzeug), mit der er auf das Bild zeigen kann. Der Prozess läuft in vier Schritten ab, wie ein Kreislauf:

Der erste Entwurf (Draft): Der KI gibt eine erste Antwort. „Ich sehe 4 Flugzeuge."
Die Selbstkritik (Critique): Die KI denkt nach: „Warte mal... ich bin mir nicht sicher. Ich habe vielleicht eines übersehen."
Das gezielte Nachschauen (Visual Verification): Hier kommt die Magie ins Spiel. Die KI nutzt ihr Werkzeug, um einen kleinen Kreis oder einen Punkt direkt auf das Bild zu malen. Sie sagt: „Schau mal hier, hinter diesem anderen Flugzeug!" (Stell dir vor, sie würde mit einem roten Stift auf das Bild tippen).
Die Korrektur (Revision): Jetzt sieht die KI das Bild mit dem roten Punkt. Sie erkennt: „Ah! Da ist noch ein Flugzeug versteckt!" und ändert ihre Antwort: „Entschuldigung, es sind eigentlich 5 Flugzeuge."

3. Der Trainings-Coach: ReflectV

Damit die KI das lernt, haben die Forscher eine riesige Bibliothek mit Beispielen erstellt, die sie ReflectV nennen.
Stell dir das wie ein Training mit einem Coach vor:

Der Coach zeigt der KI ein Bild.
Die KI macht einen Fehler.
Der Coach sagt nicht nur: „Das ist falsch."
Sondern: „Du hast das Flugzeug übersehen. Schau genau hierhin (und zeigt mit dem Finger). Jetzt korrigiere deine Antwort."

Die KI lernt so, dass sie nicht nur „besser reden" muss, sondern aktiv nach Beweisen im Bild suchen muss, bevor sie sich sicher ist.

4. Warum ist das so wichtig?

Früher haben KIs versucht, Fehler zu korrigieren, indem sie einfach den Text umformuliert haben („Vielleicht meinte ich das anders"). Das ist wie jemand, der eine falsche Landkarte benutzt und einfach sagt: „Ich glaube, ich bin woanders."

MIRROR zwingt die KI, die Landkarte (das Bild) neu zu lesen.

Ohne MIRROR: Die KI halluziniert Dinge, die nicht da sind (wie einen Stuhl in einem leeren Raum).
Mit MIRROR: Die KI zeigt auf den leeren Raum und sagt: „Da ist kein Stuhl. Ich habe gerade genau hingeschaut."

Zusammenfassung in einem Satz

MIRROR ist wie ein Detektiv, der nicht nur spekuliert, sondern bei jedem Verdacht aktiv mit einer Lupe (dem visuellen Werkzeug) auf das Tatort-Bild zeigt, um sicherzustellen, dass seine Schlussfolgerung wirklich auf dem steht, was er sieht, und nicht nur auf dem, was er denkt.

Das Ergebnis: Die KI macht weniger Fehler, halluziniert weniger und ist viel verlässlicher, wenn es um komplexe Bilder geht.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Vision-Language Models (VLMs) haben zwar große Fortschritte in allgemeinen multimodalen Aufgaben gemacht, leiden jedoch weiterhin unter erheblichen Schwächen beim multimodalen Reasoning, insbesondere bei mehrdeutigen oder komplexen visuellen Eingaben.

Halluzinationen: Modelle liefern oft plausible, aber nicht durch das Bild begründete Antworten.
Modality Disconnect (Modus-Trennung): Bestehende Ansätze zur Selbstkorrektur oder „Reflexion" (z. B. Chain-of-Thought) basieren primär auf textueller Revision. Selbst wenn Modelle aufgefordert werden, ihre Antworten zu überdenken, bleiben die Korrekturen oft lose von den tatsächlichen Bildbeweisen getrennt. Sie „erfinden" Korrekturen basierend auf linguistischen Priors statt visuelle Fakten zu überprüfen.
Fehlende geschlossene Schleife: Der aktuelle Reflexionsprozess ist oft ein offener, einmaliger Textgenerierungsschritt ohne aktive Rückkopplung zur visuellen Quelle.

2. Methodik: Das MIRROR-Framework

Die Autoren schlagen MIRROR vor, ein Framework für multimodales iteratives Reasoning durch Reflexion über visuelle Regionen. Der Kernansatz ist die Umwandlung der Reflexion von einer rein textuellen Revision in einen geschlossenen Kreislauf (Closed-Loop) der visuellen Verifikation.

Der Prozess besteht aus vier wiederholten Schritten:

Drafting (Entwurf): Das Modell generiert eine initiale Antwort.
Critique (Kritik/Selbstreflexion): Das Modell bewertet die eigene Antwort auf Unsicherheiten oder potenzielle Fehler.
Region-based Verification (Regionale Verifikation): Wenn ein Fehler erkannt wird, ruft das Modell einen Visual Prompt Generator auf. Dieses Tool markiert spezifische, relevante Bildregionen (z. B. durch Punkte, Ellipsen oder Bounding Boxes), die im vorherigen Schritt übersehen oder falsch interpretiert wurden.
- Technische Umsetzung: Der Generator nutzt Modelle wie Molmo-7B zur Verankerung von Text-Ankern in Koordinaten und SAM 2 (Segment Anything Model) zur Generierung präziser visueller Marker auf dem Originalbild.
Revision (Überarbeitung): Das Modell erhält das neu markierte Bild ( $I_k$ ) als Kontext und passt seine Antwort basierend auf den nun sichtbaren Beweisen an.

Dieser Zyklus läuft so lange, bis die Antwort visuell fundiert ist.

3. Schlüsselbeiträge

A. Das MIRROR-Framework

MIRROR ermöglicht es VLMs, aktiv Fehler zu diagnostizieren und visuelle Werkzeuge einzusetzen, um Details zu verifizieren. Im Gegensatz zu statischen Methoden erzwingt dieser Ansatz, dass jede Korrektur an konkreten visuellen Beweisen verankert ist.

B. Der ReflectV-Datensatz

Um dieses Verhalten zu trainieren, wurde ReflectV, ein hochwertiger Datensatz mit ca. 24.000 Proben, erstellt.

Aufbau: Der Datensatz wurde mittels einer Multi-Agent-Pipeline generiert, die eine „Schüler-Lehrer"-Interaktion simuliert.
Inhalt: Er enthält explizite Reflexionsauslöser, regionenbasierte Verifikationsaktionen und Antworten, die auf visuellen Beweisen basieren.
Filterung: Ein strenger Filterprozess (basierend auf Scores und Ground-Truth-Alignment) stellt sicher, dass nur Trajektorien mit nachweislicher Fehlerkorrektur und visueller Konsistenz verwendet werden.
Self-Reflective Conversion: Externes Feedback wird in erste-person-Reflexionen umgewandelt, um dem Modell beizubringen, eigene Fehler zu diagnostizieren.

C. Training und Architektur

Das Framework wurde durch Supervised Fine-Tuning (SFT) auf Qwen2.5-VL angewendet. Das Trainingsziel optimiert die Wahrscheinlichkeit der strukturierten Sequenz (Antwort, Reflexion, Tool-Nutzung) über mehrere Runden hinweg.

4. Ergebnisse

Experimente auf allgemeinen Vision-Language-Benchmarks sowie spezialisierten Reasoning-Benchmarks zeigen signifikante Verbesserungen:

Leistung: MIRROR übertrifft starke Baselines (wie Qwen2.5-VL, InternVL3, LLaVA-OneVision) konsistent in Bereichen wie OCR, Dokumentenverständnis, mathematischem Reasoning und feinkörniger Wahrnehmung.
Halluzinationsreduktion: Auf Benchmarks wie HallusionBench und POPE (Point of Presence Evaluation) wurden deutliche Steigerungen erzielt (z. B. +13,36% auf HallusionBench).
Vergleich mit anderen Reasoning-Paradigmen:
- Gegenüber rein textbasierten Reflexionsmodellen (z. B. VL-Rethinker) ist MIRROR überlegen, da es die „Modality Disconnect" behebt.
- Gegenüber „Thinking with Images"-Ansätzen (die oft offene Schleifen ohne Korrekturmechanismus nutzen) bietet MIRROR durch den geschlossenen Verifikationszyklus eine robustere Fehlerkorrektur.
Effizienz: Trotz des iterativen Ansatzes ist MIRROR effizienter als viele vergleichbare Methoden, da es den Verifikationsprozess nur bei Bedarf (bei Unsicherheit) auslöst und redundante Textschleifen vermeidet.

5. Bedeutung und Fazit

Die Arbeit demonstriert, dass Reflexion in VLMs nicht als bloßer textlicher Revisionsschritt, sondern als evidenzsuchender, regionenbewusster Verifikationsprozess trainiert werden muss.

Paradigmenwechsel: MIRROR etabliert einen neuen Standard, bei dem Modelle aktiv „noch einmal hinschauen" (Look Again), indem sie visuelle Werkzeuge nutzen, um ihre eigenen Schlussfolgerungen zu validieren.
Robustheit: Der Ansatz reduziert Halluzinationen signifikant und erhöht die Zuverlässigkeit von VLMs in komplexen Szenarien, in denen reine Textgenerierung versagt.
Zukunft: Obwohl das System bei abstrakten mathematischen Symbolen oder sehr komplexen Attributbindungen noch Grenzen hat, legt es den Grundstein für vertrauenswürdigere, visuell fundierte KI-Systeme.

Zusammenfassend zeigt MIRROR, dass die Integration von visuellen Werkzeugen in den Reflexionszyklus entscheidend ist, um Vision-Language-Modelle von bloßen Textgeneratoren zu verlässlichen visuellen Analytikern zu entwickeln.