Thinking with Images as Continuous Actions: Numerical Visual Chain-of-Thought

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un assistente molto intelligente (un'intelligenza artificiale) a cui mostri una foto complessa e gli chiedi: "Cosa sta facendo quell'uomo in alto a sinistra?".

Per rispondere, l'assistente deve prima guardare attentamente quella parte specifica della foto, ingrandirla mentalmente e poi pensare a cosa vede. Questo processo di "guardare e pensare" è chiamato Chain-of-Thought Visivo (Catena di Pensiero Visiva).

Il problema è che, fino ad oggi, questi assistenti erano un po' goffi quando dovevano indicare dove guardare. Ecco come funziona il nuovo metodo descritto in questo paper, chiamato NV-CoT, spiegato con parole semplici e analogie.

1. Il Problema: "Parlare" contro "Sentire"

Immagina di dover indicare un punto esatto su una mappa a un amico che non ha il GPS.

Il metodo vecchio (Text-based): L'assistente scrive: "Coordinate: 4, 8, 2, 1". Ma i numeri scritti come parole sono come indovinare a caso. Se il punto giusto è 3,9 e lui scrive 4,1, per il computer sono due cose completamente diverse, come dire "Mela" invece di "Pera". Inoltre, i numeri vengono spezzettati in pezzettini (token), rendendo difficile capire se 3,11 è più grande di 3,9. È come cercare di misurare la lunghezza di un tavolo usando solo i mattoncini LEGO: non è preciso e si perde la fluidità.
Il metodo alternativo (Patch-based): Un altro modo è tagliare la foto in quadratini fissi (come una griglia di scacchi) e dire "Guarda il quadratino numero 5". Il problema è che se l'oggetto è mezzo dentro e mezzo fuori dal quadratino, l'assistente non può essere preciso. È come cercare di ritagliare un'immagine con le forbici su una griglia rigida: non si adatta alla forma reale.

2. La Soluzione: NV-CoT (Il "Puntamento Continuo")

Il nuovo metodo, NV-CoT, cambia le regole del gioco. Invece di far "parlare" l'assistente con numeri scritti o di costringerlo a usare una griglia rigida, gli permette di puntare direttamente con un dito immaginario.

L'analogia del dito: Immagina che l'assistente non scriva coordinate, ma estenda un dito e tocchi esattamente il punto che gli interessa sulla foto. Può toccare un punto a 42,2 centimetri, o a 42,25. È un movimento fluido e continuo, non a scatti.
Come funziona tecnicamente: Invece di scegliere una parola da un elenco (come fa un umano che parla), l'assistente calcola una posizione precisa nello spazio (coordinate numeriche continue). È come passare da un telecomando con tasti fissi (su, giù, destra, sinistra) a un joystick che può muoversi in qualsiasi direzione con precisione millimetrica.

3. L'Addestramento: Imparare a Puntare

Per insegnare a questo assistente a usare il "joystick" invece delle "parole", gli autori usano due tecniche:

Supervisione (SFT): Come un insegnante che corregge un bambino. Se il bambino punta troppo a sinistra, l'insegnante gli dice: "No, sposta il dito di 0,5 cm a destra". L'assistente impara a correggere la sua posizione per avvicinarsi al bersaglio.
Rinforzo (RL): Come un videogioco. L'assistente prova a puntare in diversi punti. Se indovina e risponde correttamente alla domanda, riceve un "premio" (punti). Se sbaglia, non riceve nulla. Col tempo, impara da solo a puntare nel posto giusto per vincere il gioco.

4. Perché è così speciale?

Il paper dimostra che questo metodo è vincente per tre motivi principali:

Precisione: L'assistente individua gli oggetti molto meglio, come un cacciatore di precisione invece di un cacciatore che spara a caso.
Velocità: Impara più velocemente perché non deve "pensare" a come scrivere i numeri, ma semplicemente "calcola" la posizione.
Flessibilità: Funziona sia quando ha un insegnante che lo corregge (SFT) sia quando deve imparare da solo giocando (RL).

In sintesi

Prima, l'IA doveva descrivere a parole dove guardare, ed era come cercare di disegnare un cerchio perfetto usando solo linee rette. Con NV-CoT, l'IA può finalmente disegnare quel cerchio perfetto, fluendo direttamente sulla foto. È un passo avanti enorme per far sì che le macchine "vedano" e "capiscano" il mondo visivo con la stessa naturalezza con cui lo facciamo noi umani.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

I recenti Modelli Linguistici Multimodali (MLLM) stanno adottando il "Visual Chain-of-Thought" (CoT) per eseguire ragionamenti basati su regioni specifiche di un'immagine. Tuttavia, le approcci esistenti presentano due limiti fondamentali:

Coordinata testualizzate (Text-based): I modelli generano coordinate come token di testo discreti (es. ["x1", "y1", "x2", "y2"]). Questo causa:
- Disallineamento di modalità: Le coordinate sono continue nel mondo visivo ma vengono trattate come token discreti, ignorando la vicinanza geometrica (es. prevedere "3.2" invece di "3.1" viene penalizzato allo stesso modo di un errore molto più grande).
- Frammentazione semantica: I numeri vengono suddivisi in sottotoken non correlati, rendendo il confronto numerico e il ragionamento fragili e soggetti ad allucinazioni.
Patch a granularità fissa (Patch-based): Alcuni metodi operano direttamente su patch visive fini. Tuttavia, sono limitati dalla granularità fissa del backbone visivo, che impedisce una selezione di regioni precisa e flessibile, e spesso richiedono modifiche architetturali complesse.

2. Metodologia: NV-CoT

Il paper propone NV-CoT, un framework che estende lo spazio delle azioni degli MLLM da token di vocabolario discreti a uno spazio euclideo continuo. Il modello genera direttamente coordinate numeriche per i bounding box come azioni continue.

Componenti Chiave:

Espansione dello Spazio delle Azioni: Viene aggiunto un "testa" (head) lineare leggero al modello LLM standard per prevedere quattro valori continui ( $x_1, y_1, x_2, y_2$ ) invece di token di testo.
Politiche Stocastiche (Gaussian/Laplace):
- Per supportare l'addestramento con Reinforcement Learning (RL), il modello non predice solo il valore medio, ma anche la deviazione standard ( $\sigma$ ) o il parametro di scala ( $\alpha$ ).
- Vengono definite politiche di distribuzione Gaussiana o Laplace per modellare la regressione delle coordinate.
- L'uso del reparameterization trick permette di campionare coordinate stocastiche ( $b = \mu + \sigma \cdot \epsilon$ ), introducendo l'esplorazione necessaria per gli algoritmi RL come GRPO.
Adattamento a SFT e RL:
- Supervised Fine-Tuning (SFT): Sostituisce la perdita cross-entropy con una funzione di perdita di regressione (L2 per Gaussiana, L1 per Laplace) sulle coordinate continue.
- Reinforcement Learning (RL): Adatta l'algoritmo GRPO (Group Relative Policy Optimization) calcolando i rapporti di importanza (importance ratios) e le penalità KL in forma chiusa per distribuzioni continue, permettendo l'ottimizzazione della politica senza bisogno di annotazioni di bounding box a livello di step intermedio (basta il feedback sulla risposta finale).
Variante Laplace: Il paper introduce una variante basata sulla distribuzione di Laplace, motivata dalla maggiore robustezza della perdita L1 rispetto agli outlier nei task di regressione di bounding box.

3. Contributi Principali

NV-CoT: Un framework che trasforma la localizzazione visiva da un problema di generazione di token discreti a un problema di azione continua, permettendo la generazione diretta di coordinate numeriche.
Politiche Coordinate Stocastiche: Sviluppo di politiche Gaussiane e Laplace con campionamento reparametrizzato e rapporti di importanza analitici, rendendo la localizzazione continua compatibile con gli algoritmi RL moderni (GRPO).
Validazione Sperimentale: Dimostrazione che NV-CoT supera i metodi basati su testo e patch in termini di precisione di localizzazione, accuratezza della risposta finale e velocità di convergenza, con modifiche architetturali minime.

4. Risultati Sperimentali

Gli esperimenti sono stati condotti su tre benchmark: V*Bench, HR-Bench 4K e HR-Bench 8K, confrontando NV-CoT con 8 baseline rappresentativi (inclusi modelli SFT come Vis-CoT e modelli RL come DeepEyes).

Prestazioni Generali: NV-CoT ha mostrato miglioramenti consistenti rispetto ai modelli di base (backbone) in entrambi gli scenari SFT e RL.
- Nella configurazione SFT, NV-CoT ha superato Vis-CoT-7B con un miglioramento del +3.7% in media su V*Bench.
- Nella configurazione RL, NV-CoT ha superato DeepEyes-7B con un miglioramento del +2.6% su V*Bench.
Precisione di Localizzazione: NV-CoT ha ottenuto un IoU (Intersection over Union) significativamente più alto (59.5% con perdita L1 vs 47.3% per Vis-CoT) sul dataset Vis-CoT-363K.
Convergenza: Le curve di apprendimento mostrano che NV-CoT converge più velocemente e raggiunge una maggiore accuratezza finale rispetto ai metodi basati su testo.
Efficienza: Nonostante le modifiche, il framework richiede solo l'aggiunta di pochi layer lineari, mantenendo la modularità e la compatibilità con architetture MLLM esistenti.
Analisi Ablativa: La politica Laplace (con perdita L1) ha dimostrato prestazioni superiori rispetto alla politica Gaussiana (L2), confermando l'ipotesi che le perdite L1 siano più robuste per la regressione di bounding box.

5. Significato e Impatto

Il lavoro di NV-CoT è significativo perché:

Risolve il disallineamento di modalità: Elimina la necessità di tradurre coordinate continue in testo, preservando la natura geometrica dei dati visivi.
Supera i limiti delle patch fisse: Permette una selezione di regioni arbitrariamente precisa, non vincolata dalla griglia del backbone visivo.
Unifica SFT e RL: Fornisce un approccio coerente per l'addestramento di ragionamento visivo sia con dati supervisionati che con feedback di reward, facilitando l'adozione di tecniche RL avanzate.
Migliora le capacità di ragionamento: Dimostra che un'accurata localizzazione delle regioni è fondamentale per migliorare la comprensione visiva complessa, permettendo a modelli di dimensioni ridotte (7B) di superare modelli molto più grandi (32B) in compiti di ragionamento spaziale.

In sintesi, NV-CoT rappresenta un passo avanti verso un "pensiero con le immagini" più naturale ed efficace, trattando l'interazione con lo spazio visivo come un'azione continua e stocastica piuttosto che come una sequenza di parole.

Thinking with Images as Continuous Actions: Numerical Visual Chain-of-Thought

1. Il Problema: "Parlare" contro "Sentire"

2. La Soluzione: NV-CoT (Il "Puntamento Continuo")

3. L'Addestramento: Imparare a Puntare

4. Perché è così speciale?

In sintesi

1. Il Problema

2. Metodologia: NV-CoT

Componenti Chiave:

3. Contributi Principali

4. Risultati Sperimentali

5. Significato e Impatto

Articoli simili

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation