Thinking with Images as Continuous Actions: Numerical Visual Chain-of-Thought

Dit artikel introduceert NV-CoT, een framework dat multimodale grote taalmodellen in staat stelt om door middel van continue numerieke coördinaten in plaats van discrete teksttokens te redeneren over afbeeldingen, wat leidt tot verbeterde localisatieprecisie, hogere antwoordnauwkeurigheid en snellere trainingsconvergentie.

Kesen Zhao, Beier Zhu, Junbao Zhou, Xingyu Zhu, Zhongqi Yue, Hanwang Zhang

Gepubliceerd 2026-03-02
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een multimodaal groot taalmodel (een slimme AI die zowel tekst als plaatjes begrijpt) bent die een raadsel moet oplossen op een foto.

Vroeger deden deze AI's dit zo: ze probeerden een bepaald deel van de foto aan te wijzen door te zeggen: "Ik kijk naar het vakje op rij 3, kolom 5." Of ze maakten een lijstje met getallen als tekst: "x1 is 4, y1 is 8...".

Dit had twee grote nadelen:

  1. Het was onnauwkeurig: Net als wanneer je iemand vraagt om een punt op een lijn aan te wijzen, maar je mag alleen zeggen "3" of "4". Als het punt eigenlijk op "3,2" ligt, is "3" net zo verkeerd als "4". De AI ziet het verschil niet.
  2. Het was rommelig: De AI moest eerst een lijstje met cijfers typen, en dan pas een gereedschap gebruiken om dat stukje foto uit te knippen. Dit is alsof je eerst een recept moet opschrijven voordat je de ingrediënten kunt pakken.

De Oplossing: NV-CoT (Numerical Visual Chain-of-Thought)

De auteurs van dit paper hebben een nieuwe manier bedacht, genaamd NV-CoT. Laten we het vergelijken met het verschil tussen een ouderwetse landkaart en een moderne GPS.

1. Van "Vakjes" naar "GPS-coördinaten"
In de oude methoden (de "patch-based" of "tekst-based" methoden) was de foto opgedeeld in een raster van vaste vakjes, of de coördinaten waren vastgezet in tekst.

  • De Analogie: Stel je voor dat je een schat zoekt op een eiland. De oude AI's zeiden: "De schat ligt in vakje B4." Maar wat als de schat precies op de grens tussen B4 en C4 ligt? Dan zit je fout.
  • NV-CoT: Deze AI zegt: "De schat ligt op coördinaat 42,2 meter oost en 21,4 meter noord." Het is alsof je een GPS hebt die exacte, vloeiende getallen kan geven, niet alleen hele getallen. De AI "denkt" nu direct in getallen, niet in tekst.

2. Het "Gooien" van de AI (Reinforcement Learning)
Hoe leert de AI dit?

  • Bij het oefenen (Supervised Fine-Tuning): De AI krijgt een foto en het juiste antwoord. Ze leert door te kijken: "Hoe ver zat mijn geschatte punt van het echte punt af?" en probeert dat verschil kleiner te maken.
  • Bij het trainen met beloningen (Reinforcement Learning): Dit is het slimme deel. Stel je voor dat de AI een spelletje speelt. Ze moet een object vinden om een vraag te beantwoorden.
    • De oude AI's deden dit alsof ze een dobbelsteen gooiden met vaste kanten (alleen "vakje A" of "vakje B").
    • NV-CoT gebruikt een Gaussische verdeling (een wiskundig concept dat je kunt zien als een "wolk van waarschijnlijkheid"). De AI zegt niet: "Ik denk dat het hier is." Ze zegt: "Ik denk dat het hier is, en ik heb een kleine twijfel, dus ik kijk ook even een beetje links en rechts."
    • Dit maakt het mogelijk om te "explore" (uitproberen). Als de AI een fout maakt, leert ze niet alleen dat het fout was, maar ook hoe ze haar twijfel (haar "wolk") moet verkleinen voor de volgende keer.

3. Waarom is dit beter?
De paper toont aan dat deze methode drie dingen verbetert:

  • Precisie: De AI wijst het juiste stukje foto veel nauwkeuriger aan. Het is alsof je van een grove schets overgaat op een laserpointer.
  • Snelheid: De AI leert sneller. Omdat ze direct in getallen denkt, hoeft ze geen tijd te verspillen aan het vertalen van ideeën naar tekst en weer terug naar getallen.
  • Betrouwbaarheid: De antwoorden zijn beter. Als de AI precies weet waar ze moet kijken, maakt ze minder fouten in de uiteindelijke vraag.

Samenvattend in één zin:

NV-CoT geeft de AI een GPS in plaats van een ouderwetse landkaart, waardoor ze niet meer hoeft te gissen in "vakjes", maar direct en precies kan wijzen waar ze moet kijken om het antwoord te vinden.

Dit maakt de AI niet alleen slimmer in het oplossen van raadsels op foto's, maar ook veel sneller in het leren van nieuwe vaardigheden.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →