VisRef: Visual Refocusing while Thinking Improves Test-Time Scaling in Multi-Modal Large Reasoning Models

Each language version is independently generated for its own context, not a direct translation.

VisRef: Wie KI wieder „hinsehen" lernt, während sie nachdenkt

Stell dir vor, du hast einen sehr intelligenten Assistenten, der dir bei schwierigen Aufgaben hilft, bei denen Bilder und Text eine Rolle spielen – zum Beispiel bei einer Matheaufgabe mit einem Diagramm oder beim Lesen einer Uhr.

Das Problem ist folgendes: Wenn dieser Assistent beginnt, über das Bild nachzudenken, fängt er an, eine lange Gedankenkette zu schreiben. Aber je länger er schreibt, desto mehr vergisst er das Bild. Es ist, als würde er beim Lösen eines Rätsels die Augen schließen und nur noch raten, was auf dem Bild zu sehen sein könnte, basierend auf dem, was er in der Vergangenheit gelernt hat. Er verliert den Bezug zur Realität.

Die Forscher haben eine Lösung namens VisRef entwickelt. Hier ist die Erklärung, wie das funktioniert, ohne Fachchinesisch:

1. Das Problem: Der „verlorene Blick"

Normalerweise schaut sich die KI das Bild einmal an, speichert die wichtigsten Informationen kurz im Gedächtnis und beginnt dann zu „denken". Aber je mehr Sätze sie schreibt, desto mehr wird dieser erste Blick auf das Bild im Gedächtnis verwässert.

Die Analogie: Stell dir vor, du versuchst, einen komplexen Weg zu beschreiben, während du ein Foto auf dem Handy hast. Du schaust es dir an, legst es weg und fängst an zu reden. Nach fünf Minuten hast du das Foto vergessen und beschreibst plötzlich Dinge, die gar nicht darauf zu sehen sind, weil du nur noch dein eigenes Wissen nutzt.

2. Die Lösung: VisRef (Visuelles Nachfokussieren)

VisRef ist wie ein intelligenter Regisseur, der dem KI-Assistenten sagt: „Warte kurz! Schau noch einmal auf das Bild, bevor du weitermachst!"

Aber es gibt ein Problem: Das Bild besteht aus Tausenden von winzigen Details (Pixeln oder „Tokens"). Wenn die KI bei jedem Gedanken-Schritt das ganze Bild neu lesen würde, würde sie extrem langsam werden und die Rechenleistung würde explodieren.

3. Die Magie: Der „Kern-Schatz" (Coreset)

Hier kommt die Cleverness von VisRef ins Spiel. Anstatt das ganze Bild neu zu lesen, wählt die KI bei jedem Schritt nur die wichtigsten 30 % der Bild-Details aus, die gerade für die aktuelle Frage relevant sind.

Die Analogie: Stell dir vor, du suchst in einem riesigen Schrank nach einem bestimmten Werkzeug. Du musst nicht den ganzen Schrank durchwühlen. Du öffnest nur die Schublade, in der du das Werkzeug vermutest, und nimmst genau das heraus. VisRef macht das mit dem Bild: Es sucht sich die „Schatzkiste" mit den wichtigsten Details heraus und legt sie direkt vor die Nase der KI, während sie denkt.

4. Wie wählt sie die richtigen Details aus? (DPP)

Wie weiß die KI, welche Details wichtig sind? Sie nutzt eine mathematische Methode namens „Determinantal Point Processes" (DPP). Das klingt kompliziert, ist aber eigentlich sehr logisch:

Die KI sucht nach Details, die relevant sind (z. B. die Zahlen auf der Uhr).
Aber sie sucht auch nach Vielfalt. Sie will nicht fünfmal dasselbe Detail auswählen. Sie will sicherstellen, dass sie verschiedene Teile des Bildes abdeckt.
Die Analogie: Es ist wie beim Packen eines Rucksacks für eine Wanderung. Du willst nicht nur fünf Wasserflaschen (zu viel Wiederholung), sondern du willst Wasser, Essen, eine Karte und eine Taschenlampe (Vielfalt), damit du für alles gerüstet bist. VisRef packt den „perfekten Rucksack" aus Bild-Details für den aktuellen Denk-Schritt.

5. Wann hört sie auf? (Der Stopp-Knopf)

Manchmal denkt die KI zu lange und wird unsicher. VisRef hat einen cleveren Stopp-Mechanismus. Es misst, wie sicher sich die KI bei ihrer Antwort ist.

Die Analogie: Stell dir vor, du löst ein Sudoku. Wenn du unsicher bist, schaust du nochmal hin. Aber wenn du zu 100 % sicher bist, dass die 7 in das Feld gehört, hörst du auf zu grübeln und schreibst sie auf. VisRef hört auf zu denken, sobald die KI „sicher genug" ist, um die Antwort zu geben.

Warum ist das so cool?

Bisher mussten Forscher die KI neu trainieren (wie einen Schüler, der jahrelang zur Schule geht), damit sie lernt, wieder auf Bilder zu schauen. Das kostet Zeit und Geld.
VisRef braucht kein Training. Es funktioniert wie ein Plug-and-Play-Tool. Du kannst es auf jede bereits trainierte KI legen, und sie wird sofort besser, weil sie während des Denkens immer wieder kurz auf das Bild „zurückblickt".

Zusammenfassung:
VisRef verhindert, dass KI beim Nachdenken die Augen schließt. Es gibt ihr bei jedem Schritt einen kurzen, gezielten Blick auf die wichtigsten Teile des Bildes zurück, damit sie nicht in Fantasiewelten abdriftet, sondern die Lösung wirklich im Bild findet. Und das alles, ohne dass die KI neu lernen muss.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Multimodale Large Reasoning Models (MLRMs) haben durch die Erweiterung von Chain-of-Thought (CoT)-Verfahren auf visuelle Aufgaben beeindruckende Fortschritte erzielt. Ein kritisches Problem wurde jedoch identifiziert: Bei visuell abhängigen Aufgaben führt eine Verlängerung des textuellen Reasoning-Prozesses (Test-Time Scaling) oft zu einer Verwässerung der visuellen Aufmerksamkeit.

Visuelle Dilution: Während das Modell längere Denkketten generiert, verlieren die visuellen Token (Bilddaten) im expandierenden Kontextfenster an Gewicht. Das Modell verlässt sich zunehmend auf textuelle Priors anstatt auf den tatsächlichen Bildinhalt.
Folgen: Dies führt zu visuellen Halluzinationen und einem Leistungsabfall bei komplexen visuellen Aufgaben.
Bestehende Lösungen & deren Mängel:
- Reinforcement Learning (RL): Methoden wie „Look-Back" erfordern teures Fine-Tuning und große annotierte Datensätze, um dem Modell beizubringen, visuell zurückzublicken.
- Text-zentriertes Test-Time Scaling: Methoden wie „Textual Self-Reflection" verlängern den Denkprozess rein textuell, ignorieren aber das visuelle Grounding, wodurch das Problem der Dilution bestehen bleibt.

Die zentrale Forschungsfrage lautet: Kann die visuelle Verankerung (Grounding) vollständig zur Laufzeit (Test-Time) wiederhergestellt werden, ohne das Modell neu zu trainieren?

2. Methodik: VisRef

Das Paper stellt VisRef (Visual Refocusing) vor, ein training-freies Framework, das den Reasoning-Prozess dynamisch anpasst, indem es relevante visuelle Token zu jedem Schritt neu injiziert.

Kernkomponenten:

Adaptive visuelle Token-Auswahl (DPP-basiert):
- Anstatt alle visuellen Token bei jedem Schritt neu einzufügen (was rechenintensiv wäre), wählt VisRef eine kompakte Teilmenge (Coreset) aus.
- Optimierungsziel: Die ausgewählten Token müssen sowohl relevant für den aktuellen textuellen Reasoning-Zustand als auch divers in ihrer visuellen Abdeckung sein, um Redundanz zu vermeiden.
- Mathematischer Ansatz: Das Problem wird als Optimierung unter Verwendung von Determinantal Point Processes (DPP) formuliert.
  - Ein Kernel $L_k$ wird definiert, der die Ähnlichkeit von visuellen Token im Unterraum des aktuellen Text-Reasonings misst.
  - Die Zielfunktion maximiert die Determinante der Kernel-Matrix der ausgewählten Teilmenge: $\max \det(L_{V_k})$ .
  - Dies lässt sich in zwei Terme zerlegen:
    - Relevanz: Alignment der visuellen Token mit dem Textkontext.
    - Diversität: Sicherstellung, dass die Token sich gegenseitig nicht ähneln (maximale Abdeckung des Bildes).
- Algorithmus: Da die exakte Optimierung NP-schwer ist, wird eine gierige (greedy) Approximation verwendet, um die $m$ besten Token pro Schritt auszuwählen.
Adaptives Stopp-Kriterium:
- Um „Overthinking" zu vermeiden, wird der Reasoning-Prozess nicht willkürlich gestoppt, sondern basierend auf der Entropie der Antwortverteilung des Modells.
- Wenn die Entropie $H_k$ einen Schwellenwert $\delta_{entropy}$ unterschreitet (hohe Konfidenz), wird die Generierung beendet.
Workflow:
- Eingabe: Bild + Text.
- Schritt $k$ : Das Modell generiert einen Text-Schritt $z_k$ .
- VisRef projiziert die visuellen Token in den Text-Subraum, wählt ein Coreset $V_k$ via DPP aus und injiziert diese Token in den Kontext für den nächsten Schritt.
- Dies wiederholt sich, bis das Entropie-Kriterium erfüllt ist.

3. Wichtige Beiträge

Training-freier Ansatz: VisRef erfordert keine Parameter-Updates, kein RL-Fine-Tuning und keine speziellen Trainingsdaten. Es ist ein „Plug-and-Play"-Modul für vortrainierte MLRMs.
DPP-Formulierung: Die erstmalige Anwendung von Determinantal Point Processes zur Balance zwischen Relevanz und Diversität bei der visuellen Token-Auswahl im Test-Time-Scaling-Kontext.
Adaptive Stopp-Mechanik: Ein Entropie-basiertes Kriterium, das die Rechenressourcen effizient nutzt und Overthinking verhindert.
Umfassende Validierung: Evaluation auf drei Benchmarks (MathVista, MM-Star, MathVision) mit drei State-of-the-Art-Modellen (InternVL-3.5, Qwen3-VL, SAIL-VL2).

4. Ergebnisse

Die Experimente zeigen konsistente und signifikante Verbesserungen gegenüber bestehenden Methoden:

Leistungsgewinn: Unter festen Rechenbudgets übertrifft VisRef sowohl das Standard-Reasoning (ST) als auch Textual Self-Reflection (TSR).
- Auf MathVision mit SAIL-VL2: +7,5% gegenüber ST und +5,4% gegenüber TSR.
- Auf MathVista mit InternVL-3.5: +5,4% gegenüber ST.
- Auf MM-Star mit SAIL-VL2: +6,4% gegenüber ST.
Test-Time Scaling: Bei der Generierung mehrerer paralleler Reasoning-Ketten (Self-Consistency) skaliert VisRef besser als textbasierte parallele Ansätze. Es erzielt bei jedem gegebenen Token-Budget eine höhere Genauigkeit.
Vergleich mit RL-Methoden: VisRef erreicht konkurrenzfähige Ergebnisse zu RL-basierten Methoden wie „Look-Back", jedoch ohne die Kosten des Trainings. Die Kombination aus Look-Back und VisRef erzielt die besten Ergebnisse, was zeigt, dass die Ansätze komplementär sind.
Ablationsstudien:
- Die Kombination aus Relevanz und Diversität ist entscheidend; reine Relevanz führt zu schlechteren Ergebnissen.
- Ein Token-Budget von ca. 30% der visuellen Token pro Schritt ( $m=0.3|V|$ ) und ein Entropie-Schwellenwert von 0,25 bieten den besten Trade-off zwischen Genauigkeit und Latenz.
Effizienz: Der Overhead durch die DPP-Auswahl beträgt nur ca. 0,5 Sekunden pro Prompt im Vergleich zu Text-Self-Reflection, was den Genauigkeitsgewinn rechtfertigt.

5. Bedeutung und Fazit

VisRef adressiert ein fundamentales Problem multimodaler Reasoning-Modelle: den Verlust des visuellen Bezugs bei langen Denkprozessen.

Paradigmenwechsel: Statt das Modell zu zwingen, durch Training „zurückzublicken", ermöglicht VisRef eine dynamische, kontextbewusste Fokussierung zur Laufzeit.
Praktische Anwendbarkeit: Da keine Neukonfiguration oder das Sammeln von Daten erforderlich ist, kann VisRef sofort auf jede vortrainierte MLRM angewendet werden.
Zukunftsperspektive: Die Arbeit zeigt, dass Test-Time-Scaling in multimodalen Szenarien effektiv nur dann ist, wenn die visuelle Grounding aktiv während des Reasonings erhalten bleibt. Dies legt den Grundstein für effizientere und robustere visuelle Reasoning-Systeme ohne den Bedarf an ressourcenintensivem Reinforcement Learning.

Zusammenfassend beweist VisRef, dass eine intelligente, adaptive Wiederaufnahme visueller Informationen den Reasoning-Prozess erheblich verbessern kann, indem sie das menschliche Muster des Wechsels zwischen visueller Prüfung und abstraktem Denken nachahmt.

VisRef: Visual Refocusing while Thinking Improves Test-Time Scaling in Multi-Modal Large Reasoning Models

1. Das Problem: Der „verlorene Blick"

2. Die Lösung: VisRef (Visuelles Nachfokussieren)

3. Die Magie: Der „Kern-Schatz" (Coreset)

4. Wie wählt sie die richtigen Details aus? (DPP)

5. Wann hört sie auf? (Der Stopp-Knopf)

Warum ist das so cool?

1. Problemstellung

2. Methodik: VisRef

Kernkomponenten:

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Bitboard version of Tetris AI

Multiverse: Language-Conditioned Multi-Game Level Blending via Shared Representation

Concerning Uncertainty -- A Systematic Survey of Uncertainty-Aware XAI

Neuro-Symbolic Learning for Predictive Process Monitoring via Two-Stage Logic Tensor Networks with Rule Pruning

Compliance-Aware Predictive Process Monitoring: A Neuro-Symbolic Approach