VisRef: Visual Refocusing while Thinking Improves Test-Time Scaling in Multi-Modal Large Reasoning Models

Each language version is independently generated for its own context, not a direct translation.

VisRef: De Kunst van het Terugkijken terwijl je Nadenkt

Stel je voor dat je een heel lastige raadsel oplost waarbij je naar een foto moet kijken en daarna een lange tekst moet schrijven om je antwoord te verklaren. Dit is precies wat moderne kunstmatige intelligentie (AI) doet: het kijkt naar een afbeelding en "denkt" na in tekst voordat het een antwoord geeft.

Maar er is een groot probleem. Als de AI te lang blijft "nadenken" (te veel tekst genereren), begint het de foto te vergeten. Het is alsof je een raadsel probeert op te lossen, maar na tien minuten praten je eigen ogen sluit en je antwoord baseert op wat je denkt dat er op de foto staat, in plaats van wat er echt staat. De AI raakt de visuele details kwijt en begint dingen te verzinnen.

Dit artikel introduceert VisRef, een slimme truc om dit probleem op te lossen zonder de AI opnieuw te hoeven trainen.

Het Probleem: De "Onderwater-Bril"

Stel je voor dat de AI een duiker is die een schatkaart (de afbeelding) en een instructie (de tekst) heeft.

Hoe het nu gaat: De duiker begint te lezen. Naarmate hij langer blijft lezen, wordt zijn bril steeds vager. Hij kijkt niet meer naar de kaart, maar praat alleen maar door op basis van wat hij eerder heeft gelezen. Uiteindelijk raakt hij de kaart volledig uit het oog.
Hoe mensen het doen: Als jij een lastig probleem oplost, kijk je steeds weer even naar de kaart, denk je na, kijk je weer, en denk je weer. Je wisselt voortdurend tussen kijken en denken.

De Oplossing: VisRef (Visueel Herfocusseren)

VisRef is een methode die de AI dwingt om die "duiker" te zijn die zijn bril schoonmaakt terwijl hij nadenkt.

Het "Kijkje" (Visuele Token Selectie):
In plaats van dat de AI de hele foto opnieuw moet laden (wat te langzaam zou zijn), kiest VisRef op elk moment van het denkproces een klein, slim geselecteerd stukje van de foto.
- De Analogie: Stel je voor dat je een grote kamer hebt vol met objecten. Je hoeft niet de hele kamer opnieuw te scannen. Je pakt gewoon een handvol objecten die op dat moment belangrijk zijn voor je raadsel (bijvoorbeeld: "Kijk eens naar de rode auto en de stopbord"). VisRef kiest deze objecten slim uit: ze moeten relevant zijn voor de vraag, maar ook verschillend van elkaar, zodat je een goed beeld van de hele situatie krijgt.
De "Slimme Gids" (DPP):
Hoe kiest de AI deze objecten? Het gebruikt een wiskundige truc genaamd "Determinantal Point Processes" (DPP).
- De Analogie: Stel je voor dat je een groep vrienden kiest voor een team. Je wilt niet alleen vrienden die allemaal hetzelfde denken (allemaal relevant), maar ook een mix van mensen die verschillende dingen zien (diversiteit). Als je alleen naar de "meest relevante" kijkt, kies je misschien tien keer dezelfde persoon. DPP zorgt ervoor dat je een gebalanceerd team hebt: iemand die naar de auto kijkt, iemand die naar de weg kijkt, en iemand die naar de bomen kijkt.
Wanneer stoppen? (De Entropie-Stop):
Soms blijft de AI te lang doorgaan en begint hij te twijfelen. VisRef heeft een slimme stopknop.
- De Analogie: Het is alsof je een kompas hebt. Als het kompas stopt met trillen en stabiel wijst naar het noorden (de AI is zeker van zijn antwoord), dan stopt het denkproces. Als het nog trilt (de AI is onzeker), dan blijft het kijken naar de foto en doordenken.

Waarom is dit zo speciaal?

Vroeger moesten onderzoekers de AI maandenlang trainen met duizenden voorbeelden om te leren dat hij "terug moest kijken" naar de foto. Dat kostte enorm veel tijd en geld.

VisRef doet dit zonder training. Het is alsof je een bestaande AI een nieuwe bril geeft die automatisch schoonmaakt terwijl hij werkt. Je hoeft de AI niet te herscholen; je geeft hem alleen een betere manier om te werken.

De Resultaten

De onderzoekers hebben dit getest op moeilijke wiskundige en visuele raadsels.

Resultaat: De AI met VisRef gaf veel betere antwoorden dan AI's die alleen maar bleven praten zonder terug te kijken.
Vergelijking: Het was zelfs beter dan methoden waarbij de AI zichzelf moest "reflecteren" (alleen tekstueel nadenken). VisRef hield de AI echt verbonden met de werkelijkheid van de foto.

Samenvatting in één zin

VisRef is een slimme methode die een AI dwingt om tijdens het nadenken steeds even terug te kijken naar de belangrijkste stukjes van een foto, zodat het antwoord niet gebaseerd is op fantasie, maar op de werkelijke afbeelding.

Het is de digitale versie van: "Wacht even, laat me nog even goed naar de foto kijken voordat ik mijn conclusie trek."

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Grote meervoudige redeneringsmodellen (MLRMs) hebben indrukwekkende prestaties geleverd door "Chain-of-Thought" (CoT) redenering uit te breiden naar visueel-taakken. Echter, recente studies tonen aan dat bij visie-afhankelijke taken een uitbreiding van de tekstuele redenering tijdens de inferentie (test-time) leidt tot een verslechtering van de prestaties.

Het kernprobleem is visuele verdunning (visual dilution): naarmate de tekstuele redeneringsketen langer wordt, neemt de aandacht van het model voor visuele tokens af. Het model begint steeds meer te vertrouwen op tekstuele priors in plaats van de feitelijke beeldinhoud, wat leidt tot hallucinaties en fouten. Bestaande oplossingen, zoals Reinforcement Learning (RL) fine-tuning om modellen "terug te kijken" naar het beeld, zijn computationally duur en vereisen grote datasets. Andere test-time scaling-methoden zijn vaak tekst-gecentreerd en lossen het visuele verdunningsprobleem niet op.

Methodologie: VisRef

Het paper introduceert VisRef, een trainingsvrij (training-free) framework dat visuele gronding (grounding) herstelt tijdens het redeneringsproces zonder de modelparameters aan te passen. De kern van de methode is het actief herinjecteren van een geselecteerde subset van visuele tokens op elk stapje van het redeneringsproces.

De methode bestaat uit twee hoofdcomponenten:

1. Selectie van Visuele Tokens (DPP-based Coreset)
In plaats van alle visuele tokens opnieuw in te voegen (wat te duur is), selecteert VisRef een compacte "coreset" van tokens die het meest relevant zijn voor de huidige redeneerstap en tegelijkertijd divers zijn in visuele dekking.

Relevantie: Tokens moeten semantisch aansluiten bij de huidige tekstuele redeneercontext ( $z_k$ ).
Diversiteit: De geselecteerde tokens moeten een brede dekking van het beeld bieden om redundantie te voorkomen.
Implementatie: Dit wordt gemodelleerd als een optimalisatieprobleem opgelost met Determinantal Point Processes (DPP). De kernelmatrix $L_k$ wordt berekend door visuele tokens te projecteren in de subruimte gedefinieerd door de tekstuele embeddings. Het doel is om de determinant van de kernelmatrix van de geselecteerde subset te maximaliseren:
$\hat{V}_k = \arg \max_{V_k \subseteq V} \det(L_{V_k}^k)$
Dit maximaliseren van de log-determinant balanceert automatisch relevantie (diagonaalelementen) en diversiteit (niet-diagonale correlaties). Een greedy algoritme wordt gebruikt om dit NP-moeilijke probleem efficiënt op te lossen binnen de inferentie-tijd.

2. Adaptief Stopcriterium
Om "overdenken" (overthinking) te voorkomen en de rekenkosten te beperken, gebruikt VisRef een entropie-gebaseerd stopcriterium.

Op elke stap $k$ wordt de entropie $H_k$ van de antwoordverdeling van het model berekend.
Als de entropie onder een drempelwaarde $\delta_{entropy}$ daalt (wat aangeeft dat het model zeker is van het antwoord), stopt het redeneringsproces.
Dit zorgt ervoor dat eenvoudige vragen snel worden beantwoord, terwijl complexe vragen meer redeneerstappen krijgen.

Belangrijkste Bijdragen

VisRef Framework: Een trainingsvrij framework dat dynamisch visuele informatie herinjecteert tijdens het redeneren, waardoor modellen kunnen "terugkijken" naar het beeld zonder retraining.
DPP-gebaseerde Selectie: Een wiskundig onderbouwde methode om visuele tokens te selecteren die zowel relevant voor de context als divers in de beeldruimte zijn, wat redundantie minimaliseert.
Adaptieve Stopconditie: Een mechanisme om het redeneren te beëindigen op basis van modelzekerheid, wat de efficiëntie verbetert.
Empirische Validatie: Uitgebreide experimenten die aantonen dat deze aanpak superieur is aan bestaande methoden.

Resultaten

De auteurs hebben VisRef getest op drie uitdagende benchmarks: MathVista, MM-Star en MathVision, met drie state-of-the-art MLRMs: InternVL-3.5-8B, Qwen-3-VL-8B en SAIL-VL2.

Prestatieverbetering: VisRef presteert consistent beter dan "Standard Thinking" (ST) en "Textual Self-Reflection" (TSR).
- Op MathVision met SAIL-VL2 behaalde VisRef een verbetering van 7,5% ten opzichte van ST en 5,4% ten opzichte van TSR.
- Op MM-Star met InternVL-3.5-8B was de verbetering 4,8% ten opzichte van ST.
Test-Time Scaling: Bij het genereren van meerdere parallelle redeneerketens binnen een vast token-budget, behaalde VisRef voor elke gegeven rekenbudget een hogere nauwkeurigheid dan methoden zonder visuele refocusing.
Vergelijking met RL-methoden: Hoewel RL-gebaseerde methoden (zoals Look-Back) sterke resultaten leveren, vereisen ze dure training. VisRef bereikt vergelijkbare prestaties zonder training en kan zelfs worden gecombineerd met RL-methoden voor nog betere resultaten.
Ablatie-studies: De studie bevestigt dat zowel relevantie als diversiteit essentieel zijn; het gebruik van alleen relevantie leidt tot slechtere prestaties. Ook toont het aan dat een token-budget van ongeveer 30% van de totale visuele tokens optimaal is.

Significantie

VisRef biedt een praktische en schaalbare oplossing voor een fundamenteel probleem in meervoudige AI-modellen: het behoud van visuele gronding tijdens langdurig redeneren.

Trainingsvrij: Het kan direct worden toegepast op elke vooraf getrainde MLRM zonder kostbare fine-tuning of nieuwe datasets.
Efficiëntie: Door slimme selectie van tokens (DPP) en een adaptief stopcriterium, wordt de extra rekenlast beperkt terwijl de nauwkeurigheid aanzienlijk stijgt.
Algemene Toepasbaarheid: De resultaten tonen aan dat het mechanisme werkt over verschillende modelgroottes (van 1B tot 8B parameters) en verschillende taaktypes, wat het een robuuste aanpak maakt voor de toekomst van visueel redeneren.

Kortom, VisRef imiteert de menselijke strategie van het afwisselen tussen het bekijken van een beeld en het uitwerken van een redenering, maar doet dit puur op inferentietijd via een geoptimaliseerde token-selectie.

VisRef: Visual Refocusing while Thinking Improves Test-Time Scaling in Multi-Modal Large Reasoning Models

Het Probleem: De "Onderwater-Bril"

De Oplossing: VisRef (Visueel Herfocusseren)

Waarom is dit zo speciaal?

De Resultaten

Samenvatting in één zin

Probleemstelling

Methodologie: VisRef

Belangrijkste Bijdragen

Resultaten

Significantie

Meer zoals dit

Pramana: Fine-Tuning Large Language Models for Epistemic Reasoning through Navya-Nyaya

Operational Noncommutativity in Sequential Metacognitive Judgments

Proximity Measure of Information Object Features for Solving the Problem of Their Identification in Information Systems

ReVEL: Multi-Turn Reflective LLM-Guided Heuristic Evolution via Structured Performance Feedback

Algebraic Structure Discovery for Real World Combinatorial Optimisation Problems: A General Framework from Abstract Algebra to Quotient Space Learning