Thinking with Images as Continuous Actions: Numerical Visual Chain-of-Thought

Il paper propone NV-CoT, un framework che potenzia i modelli linguistici multimodali permettendo loro di eseguire un ragionamento visivo a catena di pensiero generando direttamente coordinate numeriche continue, superando così i limiti delle rappresentazioni testuali o a patch fisse e migliorando significativamente precisione e accuratezza.

Kesen Zhao, Beier Zhu, Junbao Zhou, Xingyu Zhu, Zhongqi Yue, Hanwang Zhang

Pubblicato 2026-03-02
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un assistente molto intelligente (un'intelligenza artificiale) a cui mostri una foto complessa e gli chiedi: "Cosa sta facendo quell'uomo in alto a sinistra?".

Per rispondere, l'assistente deve prima guardare attentamente quella parte specifica della foto, ingrandirla mentalmente e poi pensare a cosa vede. Questo processo di "guardare e pensare" è chiamato Chain-of-Thought Visivo (Catena di Pensiero Visiva).

Il problema è che, fino ad oggi, questi assistenti erano un po' goffi quando dovevano indicare dove guardare. Ecco come funziona il nuovo metodo descritto in questo paper, chiamato NV-CoT, spiegato con parole semplici e analogie.

1. Il Problema: "Parlare" contro "Sentire"

Immagina di dover indicare un punto esatto su una mappa a un amico che non ha il GPS.

  • Il metodo vecchio (Text-based): L'assistente scrive: "Coordinate: 4, 8, 2, 1". Ma i numeri scritti come parole sono come indovinare a caso. Se il punto giusto è 3,9 e lui scrive 4,1, per il computer sono due cose completamente diverse, come dire "Mela" invece di "Pera". Inoltre, i numeri vengono spezzettati in pezzettini (token), rendendo difficile capire se 3,11 è più grande di 3,9. È come cercare di misurare la lunghezza di un tavolo usando solo i mattoncini LEGO: non è preciso e si perde la fluidità.
  • Il metodo alternativo (Patch-based): Un altro modo è tagliare la foto in quadratini fissi (come una griglia di scacchi) e dire "Guarda il quadratino numero 5". Il problema è che se l'oggetto è mezzo dentro e mezzo fuori dal quadratino, l'assistente non può essere preciso. È come cercare di ritagliare un'immagine con le forbici su una griglia rigida: non si adatta alla forma reale.

2. La Soluzione: NV-CoT (Il "Puntamento Continuo")

Il nuovo metodo, NV-CoT, cambia le regole del gioco. Invece di far "parlare" l'assistente con numeri scritti o di costringerlo a usare una griglia rigida, gli permette di puntare direttamente con un dito immaginario.

  • L'analogia del dito: Immagina che l'assistente non scriva coordinate, ma estenda un dito e tocchi esattamente il punto che gli interessa sulla foto. Può toccare un punto a 42,2 centimetri, o a 42,25. È un movimento fluido e continuo, non a scatti.
  • Come funziona tecnicamente: Invece di scegliere una parola da un elenco (come fa un umano che parla), l'assistente calcola una posizione precisa nello spazio (coordinate numeriche continue). È come passare da un telecomando con tasti fissi (su, giù, destra, sinistra) a un joystick che può muoversi in qualsiasi direzione con precisione millimetrica.

3. L'Addestramento: Imparare a Puntare

Per insegnare a questo assistente a usare il "joystick" invece delle "parole", gli autori usano due tecniche:

  • Supervisione (SFT): Come un insegnante che corregge un bambino. Se il bambino punta troppo a sinistra, l'insegnante gli dice: "No, sposta il dito di 0,5 cm a destra". L'assistente impara a correggere la sua posizione per avvicinarsi al bersaglio.
  • Rinforzo (RL): Come un videogioco. L'assistente prova a puntare in diversi punti. Se indovina e risponde correttamente alla domanda, riceve un "premio" (punti). Se sbaglia, non riceve nulla. Col tempo, impara da solo a puntare nel posto giusto per vincere il gioco.

4. Perché è così speciale?

Il paper dimostra che questo metodo è vincente per tre motivi principali:

  1. Precisione: L'assistente individua gli oggetti molto meglio, come un cacciatore di precisione invece di un cacciatore che spara a caso.
  2. Velocità: Impara più velocemente perché non deve "pensare" a come scrivere i numeri, ma semplicemente "calcola" la posizione.
  3. Flessibilità: Funziona sia quando ha un insegnante che lo corregge (SFT) sia quando deve imparare da solo giocando (RL).

In sintesi

Prima, l'IA doveva descrivere a parole dove guardare, ed era come cercare di disegnare un cerchio perfetto usando solo linee rette. Con NV-CoT, l'IA può finalmente disegnare quel cerchio perfetto, fluendo direttamente sulla foto. È un passo avanti enorme per far sì che le macchine "vedano" e "capiscano" il mondo visivo con la stessa naturalezza con cui lo facciamo noi umani.

Ricevi articoli come questo nella tua casella di posta

Digest giornalieri o settimanali personalizzati in base ai tuoi interessi. Riassunti Gist o tecnici, nella tua lingua.

Prova Digest →