Thinking with Images as Continuous Actions: Numerical Visual Chain-of-Thought

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een multimodaal groot taalmodel (een slimme AI die zowel tekst als plaatjes begrijpt) bent die een raadsel moet oplossen op een foto.

Vroeger deden deze AI's dit zo: ze probeerden een bepaald deel van de foto aan te wijzen door te zeggen: "Ik kijk naar het vakje op rij 3, kolom 5." Of ze maakten een lijstje met getallen als tekst: "x1 is 4, y1 is 8...".

Dit had twee grote nadelen:

Het was onnauwkeurig: Net als wanneer je iemand vraagt om een punt op een lijn aan te wijzen, maar je mag alleen zeggen "3" of "4". Als het punt eigenlijk op "3,2" ligt, is "3" net zo verkeerd als "4". De AI ziet het verschil niet.
Het was rommelig: De AI moest eerst een lijstje met cijfers typen, en dan pas een gereedschap gebruiken om dat stukje foto uit te knippen. Dit is alsof je eerst een recept moet opschrijven voordat je de ingrediënten kunt pakken.

De Oplossing: NV-CoT (Numerical Visual Chain-of-Thought)

De auteurs van dit paper hebben een nieuwe manier bedacht, genaamd NV-CoT. Laten we het vergelijken met het verschil tussen een ouderwetse landkaart en een moderne GPS.

1. Van "Vakjes" naar "GPS-coördinaten"
In de oude methoden (de "patch-based" of "tekst-based" methoden) was de foto opgedeeld in een raster van vaste vakjes, of de coördinaten waren vastgezet in tekst.

De Analogie: Stel je voor dat je een schat zoekt op een eiland. De oude AI's zeiden: "De schat ligt in vakje B4." Maar wat als de schat precies op de grens tussen B4 en C4 ligt? Dan zit je fout.
NV-CoT: Deze AI zegt: "De schat ligt op coördinaat 42,2 meter oost en 21,4 meter noord." Het is alsof je een GPS hebt die exacte, vloeiende getallen kan geven, niet alleen hele getallen. De AI "denkt" nu direct in getallen, niet in tekst.

2. Het "Gooien" van de AI (Reinforcement Learning)
Hoe leert de AI dit?

Bij het oefenen (Supervised Fine-Tuning): De AI krijgt een foto en het juiste antwoord. Ze leert door te kijken: "Hoe ver zat mijn geschatte punt van het echte punt af?" en probeert dat verschil kleiner te maken.
Bij het trainen met beloningen (Reinforcement Learning): Dit is het slimme deel. Stel je voor dat de AI een spelletje speelt. Ze moet een object vinden om een vraag te beantwoorden.
- De oude AI's deden dit alsof ze een dobbelsteen gooiden met vaste kanten (alleen "vakje A" of "vakje B").
- NV-CoT gebruikt een Gaussische verdeling (een wiskundig concept dat je kunt zien als een "wolk van waarschijnlijkheid"). De AI zegt niet: "Ik denk dat het hier is." Ze zegt: "Ik denk dat het hier is, en ik heb een kleine twijfel, dus ik kijk ook even een beetje links en rechts."
- Dit maakt het mogelijk om te "explore" (uitproberen). Als de AI een fout maakt, leert ze niet alleen dat het fout was, maar ook hoe ze haar twijfel (haar "wolk") moet verkleinen voor de volgende keer.

3. Waarom is dit beter?
De paper toont aan dat deze methode drie dingen verbetert:

Precisie: De AI wijst het juiste stukje foto veel nauwkeuriger aan. Het is alsof je van een grove schets overgaat op een laserpointer.
Snelheid: De AI leert sneller. Omdat ze direct in getallen denkt, hoeft ze geen tijd te verspillen aan het vertalen van ideeën naar tekst en weer terug naar getallen.
Betrouwbaarheid: De antwoorden zijn beter. Als de AI precies weet waar ze moet kijken, maakt ze minder fouten in de uiteindelijke vraag.

Samenvattend in één zin:

NV-CoT geeft de AI een GPS in plaats van een ouderwetse landkaart, waardoor ze niet meer hoeft te gissen in "vakjes", maar direct en precies kan wijzen waar ze moet kijken om het antwoord te vinden.

Dit maakt de AI niet alleen slimmer in het oplossen van raadsels op foto's, maar ook veel sneller in het leren van nieuwe vaardigheden.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Multimodale Large Language Models (MLLM's) worden steeds vaker ingezet voor visuele redenering via "visuele Chain-of-Thought" (CoT). Bestaande methoden om gebieden in een afbeelding te lokaliseren (region-grounded reasoning) kampen echter met twee fundamentele beperkingen:

Tekst-gebaseerde coördinaten (Discreet): Veel modellen serialiseren gebieden als tekstuele coördinaten (bijv. ["x1", "y1", "x2", "y2"]). Dit leidt tot:
- Modality mismatch: Coördinaten zijn continu in de visuele wereld, maar worden voorspeld als discrete tekst-tokens. Dit negeert geometrische nabijheid (bijv. een voorspelling van "3.2" wordt even zwaar bestraft als "4.1" als het doel "3.1" is, omdat ze als verschillende tokens worden behandeld).
- Semantische fragmentatie: Getallen worden opgesplitst in losse sub-tokens, wat numerieke vergelijking en redenering broos maakt en vatbaar voor hallucinaties.
Patch-gebaseerde methoden (Vaste granulariteit): Andere benaderingen werken direct op fijne visuele patches. Dit is echter beperkt door de vaste ruimtelijke granulariteit van de visuele backbone en vereist vaak ingrijpende architecturale wijzigingen, wat de modulariteit vermindert.

Methodologie: Numerical Visual Chain-of-Thought (NV-CoT)

NV-CoT is een raamwerk dat de actieruimte van MLLM's uitbreidt van discrete vocabulaire-tokens naar een continu Euclidische ruimte. In plaats van tekstuele coördinaten te genereren, genereert het model direct numerieke bounding-box-coördinaten als continue acties.

Kerncomponenten:

Architectuur: De standaard LLM-head wordt uitgebreid met vier lichte lineaire heads om de middelpunten ( $\mu$ ) van de coördinaten ( $x_1, y_1, x_2, y_2$ ) te voorspellen, en een vijfde head voor een gedeelde standaardafwijking ( $\sigma$ ). Dit vereist minimale architecturale wijzigingen.
Beleid (Policy): In plaats van een categorische verdeling over tokens, wordt een Gaussisch beleid (of Laplace-beleid) gebruikt over de coördinaten.
- Stochasticiteit: Voor Reinforcement Learning (RL) wordt stochasticiteit geïntroduceerd via de reparameterization trick: $b = \mu + \sigma \epsilon$ , waarbij $\epsilon$ uit een standaardnormale verdeling komt. Dit maakt sampling en verkenning mogelijk.
- SFT (Supervised Fine-Tuning): Hier wordt een regressieverlies (bijv. $\ell_2$ of $\ell_1$ ) gebruikt om de coördinaten direct te superviseren.
- RL (Reinforcement Learning): Het framework is compatibel met GRPO (Group Relative Policy Optimization). Omdat het beleid continu is, kunnen de importance ratios en de KL-divergentie analytisch worden berekend voor Gaussische of Laplace-verdelingen. Dit maakt het mogelijk om RL toe te passen zonder de noodzaak van discrete token-policies.

Varianten:

Gaussisch Beleid: Gebruikt $\ell_2$ -verlies en modelleert fouten als normaal verdeeld.
Laplace Beleid: Gebruikt $\ell_1$ -verlies en modelleert fouten als Laplace-verdeeld. Dit wordt aanbevolen vanwege de robuustheid tegen uitbijters en de scherpere error-profielen, wat vaak beter werkt voor lokalealisatie.

Belangrijkste Bijdragen

Uitbreiding van de Actieruimte: NV-CoT verschuift de actieruimte van discrete tokens naar een continue ruimte, waardoor modellen direct numerieke bounding-box-coördinaten kunnen genereren.
Compatibiliteit met RL: De ontwikkeling van Gaussische/Laplace-coördinatenbeleid met herparametrisatie en analytische importance ratios maakt continue lokalealisatie compatibel met mainstream RL-algoritmen zoals GRPO.
Uitgebreide Validatie: Het framework is getest op drie benchmarks (V*Bench, HR-Bench 4K/8K) tegen acht baselines, inclusief zowel tekst- als patch-gebaseerde methoden, en zowel SFT- als RL-gebaseerde modellen.

Resultaten

Experimenten tonen aan dat NV-CoT de prestaties significant verbetert ten opzichte van bestaande methoden:

Locatieprecisie: NV-CoT behaalt een hogere Intersection over Union (IoU) voor bounding boxes. Op het Vis-CoT-363K dataset steeg de IoU van 47.3% (Vis-CoT) naar 59.5% (NV-CoT met $\ell_1$ ).
Antwoordnauwkeurigheid: Op V*Bench overtrof NV-CoT (7B) de patch-gebaseerde LVR-7B met 9,5% en de tekst-gebaseerde DeepEyes-7B met 2,7%.
Convergentie: Het model convergeert sneller tijdens training en bereikt hogere nauwkeurigheid in zowel SFT- als RL-scenario's.
Efficiëntie: NV-CoT presteert beter dan veel grotere modellen (bijv. Qwen2.5-VL-32B) ondanks dat het is gebouwd op een 7B-backbone, wat de kracht van region-gebaseerd redeneren onderstreept.
Ablatie: De Laplace-beleid variant ( $\ell_1$ ) presteerde consistent beter dan de Gaussische variant ( $\ell_2$ ), wat bevestigt dat $\ell_1$ -verlies robuuster is voor lokalealisatietaken.

Significantie

NV-CoT biedt een elegante oplossing voor de fundamentele beperkingen van tekst-gebaseerde visuele CoT. Door coördinaten als continue acties te behandelen, elimineert het de modality mismatch en semantische fragmentatie, terwijl het de flexibiliteit van patch-gebaseerde methoden behoudt zonder hun vaste granulariteitsbeperkingen.

De methode is "plug-and-play" en vereist slechts minimale aanpassingen aan bestaande MLLM-architecturen, terwijl het volledig compatibel is met zowel toezicht (SFT) als versterkingslering (RL). Dit opent de deur voor nauwkeurigere, efficiëntere en schaalbare visuele redeneringssystemen die beter in staat zijn om complexe ruimtelijke relaties te begrijpen en te lokaliseren in afbeeldingen.

Thinking with Images as Continuous Actions: Numerical Visual Chain-of-Thought

De Oplossing: NV-CoT (Numerical Visual Chain-of-Thought)

Samenvattend in één zin:

Probleemstelling

Methodologie: Numerical Visual Chain-of-Thought (NV-CoT)

Belangrijkste Bijdragen

Resultaten

Significantie

Meer zoals dit

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation