VisRef: Visual Refocusing while Thinking Improves Test-Time Scaling in Multi-Modal Large Reasoning Models

Het paper introduceert VisRef, een framework dat de prestaties van meervoudige modale redeneermodellen tijdens het testen verbetert door semantisch relevante visuele tokens actief te herinjecteren, waardoor de aandacht voor visuele informatie behouden blijft zonder de noodzaak van kostbare reinforcement learning-finetuning.

Soumya Suvra Ghosal, Youngeun Kim, Zhuowei Li, Ritwick Chaudhry, Linghan Xu, Hongjing Zhang, Jakub Zablocki, Yifan Xing, Qin Zhang

Gepubliceerd 2026-03-03
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

VisRef: De Kunst van het Terugkijken terwijl je Nadenkt

Stel je voor dat je een heel lastige raadsel oplost waarbij je naar een foto moet kijken en daarna een lange tekst moet schrijven om je antwoord te verklaren. Dit is precies wat moderne kunstmatige intelligentie (AI) doet: het kijkt naar een afbeelding en "denkt" na in tekst voordat het een antwoord geeft.

Maar er is een groot probleem. Als de AI te lang blijft "nadenken" (te veel tekst genereren), begint het de foto te vergeten. Het is alsof je een raadsel probeert op te lossen, maar na tien minuten praten je eigen ogen sluit en je antwoord baseert op wat je denkt dat er op de foto staat, in plaats van wat er echt staat. De AI raakt de visuele details kwijt en begint dingen te verzinnen.

Dit artikel introduceert VisRef, een slimme truc om dit probleem op te lossen zonder de AI opnieuw te hoeven trainen.

Het Probleem: De "Onderwater-Bril"

Stel je voor dat de AI een duiker is die een schatkaart (de afbeelding) en een instructie (de tekst) heeft.

  • Hoe het nu gaat: De duiker begint te lezen. Naarmate hij langer blijft lezen, wordt zijn bril steeds vager. Hij kijkt niet meer naar de kaart, maar praat alleen maar door op basis van wat hij eerder heeft gelezen. Uiteindelijk raakt hij de kaart volledig uit het oog.
  • Hoe mensen het doen: Als jij een lastig probleem oplost, kijk je steeds weer even naar de kaart, denk je na, kijk je weer, en denk je weer. Je wisselt voortdurend tussen kijken en denken.

De Oplossing: VisRef (Visueel Herfocusseren)

VisRef is een methode die de AI dwingt om die "duiker" te zijn die zijn bril schoonmaakt terwijl hij nadenkt.

  1. Het "Kijkje" (Visuele Token Selectie):
    In plaats van dat de AI de hele foto opnieuw moet laden (wat te langzaam zou zijn), kiest VisRef op elk moment van het denkproces een klein, slim geselecteerd stukje van de foto.

    • De Analogie: Stel je voor dat je een grote kamer hebt vol met objecten. Je hoeft niet de hele kamer opnieuw te scannen. Je pakt gewoon een handvol objecten die op dat moment belangrijk zijn voor je raadsel (bijvoorbeeld: "Kijk eens naar de rode auto en de stopbord"). VisRef kiest deze objecten slim uit: ze moeten relevant zijn voor de vraag, maar ook verschillend van elkaar, zodat je een goed beeld van de hele situatie krijgt.
  2. De "Slimme Gids" (DPP):
    Hoe kiest de AI deze objecten? Het gebruikt een wiskundige truc genaamd "Determinantal Point Processes" (DPP).

    • De Analogie: Stel je voor dat je een groep vrienden kiest voor een team. Je wilt niet alleen vrienden die allemaal hetzelfde denken (allemaal relevant), maar ook een mix van mensen die verschillende dingen zien (diversiteit). Als je alleen naar de "meest relevante" kijkt, kies je misschien tien keer dezelfde persoon. DPP zorgt ervoor dat je een gebalanceerd team hebt: iemand die naar de auto kijkt, iemand die naar de weg kijkt, en iemand die naar de bomen kijkt.
  3. Wanneer stoppen? (De Entropie-Stop):
    Soms blijft de AI te lang doorgaan en begint hij te twijfelen. VisRef heeft een slimme stopknop.

    • De Analogie: Het is alsof je een kompas hebt. Als het kompas stopt met trillen en stabiel wijst naar het noorden (de AI is zeker van zijn antwoord), dan stopt het denkproces. Als het nog trilt (de AI is onzeker), dan blijft het kijken naar de foto en doordenken.

Waarom is dit zo speciaal?

Vroeger moesten onderzoekers de AI maandenlang trainen met duizenden voorbeelden om te leren dat hij "terug moest kijken" naar de foto. Dat kostte enorm veel tijd en geld.

VisRef doet dit zonder training. Het is alsof je een bestaande AI een nieuwe bril geeft die automatisch schoonmaakt terwijl hij werkt. Je hoeft de AI niet te herscholen; je geeft hem alleen een betere manier om te werken.

De Resultaten

De onderzoekers hebben dit getest op moeilijke wiskundige en visuele raadsels.

  • Resultaat: De AI met VisRef gaf veel betere antwoorden dan AI's die alleen maar bleven praten zonder terug te kijken.
  • Vergelijking: Het was zelfs beter dan methoden waarbij de AI zichzelf moest "reflecteren" (alleen tekstueel nadenken). VisRef hield de AI echt verbonden met de werkelijkheid van de foto.

Samenvatting in één zin

VisRef is een slimme methode die een AI dwingt om tijdens het nadenken steeds even terug te kijken naar de belangrijkste stukjes van een foto, zodat het antwoord niet gebaseerd is op fantasie, maar op de werkelijke afbeelding.

Het is de digitale versie van: "Wacht even, laat me nog even goed naar de foto kijken voordat ik mijn conclusie trek."

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →