LanteRn: Latent Visual Structured Reasoning

Each language version is independently generated for its own context, not a direct translation.

Immagina di dover risolvere un enigma visivo complesso, come trovare un oggetto specifico in una foto affollata o capire la posizione di una bicicletta rispetto a un semaforo.

Il Problema: "Parlare" dell'immagine invece di "vederla"

Fino a poco tempo fa, i modelli di intelligenza artificiale (come i grandi assistenti visivi) facevano un po' come un turista che guarda un quadro e cerca di descriverlo a un amico al telefono.
Il modello guarda l'immagine, la "traduce" immediatamente in parole (testo) e poi usa quelle parole per ragionare.
Il problema? È come cercare di descrivere un'intera sinfonia usando solo le parole "suono forte" o "suono dolce". Si perdono i dettagli fini, le posizioni precise e la struttura spaziale. L'immagine viene "compressa" in un linguaggio troppo povero per fare ragionamenti complessi.

La Soluzione: LanteRn e i suoi "Sogni ad Occhi Aperti"

Gli autori di questo paper hanno creato LanteRn (Latent Visual Structured Reasoning).
Invece di costringere l'IA a trasformare ogni pensiero visivo in parole, LanteRn le permette di avere dei "pensieri visivi interni".

Facciamo un'analogia:

I modelli vecchi: Sono come un traduttore che deve scrivere ogni singola nota musicale su un foglio di spartito prima di poter dire "questa è una bella canzone".
LanteRn: È come un musicista che può sentire la melodia nella sua testa (i "pensieri visivi") mentre parla. Non deve descrivere ogni nota a parole; può mantenere la melodia nella sua mente e usarla per rispondere alla domanda.

Questi "pensieri visivi" non sono immagini reali (che richiederebbero troppa memoria e tempo), ma sono codici compatti e astratti (chiamati embedding latenti) che catturano l'essenza visiva senza doverla "disegnare" pixel per pixel.

Come funziona l'allenamento: Due Fasi

Per insegnare a LanteRn a fare questo, gli autori hanno usato un metodo in due tappe, simile all'educazione di un bambino:

Fase 1: La Scuola di Copia (Supervised Fine-Tuning)
Immagina di dare al modello un libro di testo con le soluzioni. Gli mostrano un'immagine e una domanda, e gli dicono: "Quando pensi a questa parte dell'immagine, immagina questo specifico codice visivo che corrisponde esattamente a ciò che vedi".
In questa fase, il modello impara a collegare i suoi "pensieri interni" a ciò che l'occhio artificiale vede davvero. È come se gli insegnassimo a usare la memoria visiva per non dimenticare i dettagli.
Fase 2: La Gara di Risoluzione (Reinforcement Learning)
Una volta che il modello sa "immaginare" le immagini, gli diamo un obiettivo: "Non importa se il tuo pensiero visivo è perfetto, l'importante è che ti aiuti a dare la risposta giusta!".
Qui, il modello impara a usare i suoi pensieri visivi in modo strategico. Se un certo "pensiero" lo aiuta a trovare la bicicletta nella foto, lo ripeterà. Se un pensiero è inutile, lo abbandona. Non deve più copiare fedelmente l'immagine, ma deve usare la sua "immaginazione visiva" per vincere la sfida.

I Risultati: Perché è importante?

I test hanno mostrato che LanteRn è molto bravo a compiti che richiedono precisione visiva (come dire "la bici è davanti al semaforo" e non solo "c'è una bici").

Efficienza: Non spreca tempo a generare immagini reali (che sarebbero lente e costose).
Precisione: Mantiene i dettagli spaziali che i modelli che parlano solo perdono.
Intelligenza: Riesce a ragionare meglio su relazioni complesse (es. posizioni, orientamenti) perché "vede" con la mente mentre pensa.

In sintesi

LanteRn è come dare a un'intelligenza artificiale la capacità di chiudere gli occhi e visualizzare un'immagine nella sua mente mentre parla, invece di doverla descrivere parola per parola. Questo le permette di essere molto più intelligente, veloce e precisa quando deve risolvere problemi visivi complessi, proprio come farebbe un essere umano che usa la sua immaginazione per ragionare.

Each language version is independently generated for its own context, not a direct translation.

Titolo e Contesto

LanteRn (Latent Visual Structured Reasoning) è un nuovo framework proposto per migliorare il ragionamento visivo nei Grandi Modelli Multimodali (LMM). Il lavoro è stato presentato al Workshop on Multimodal Intelligence di ICLR 2026.

1. Il Problema

I modelli LMM attuali eccellono in molti compiti, ma il ragionamento visivo rimane una sfida significativa.

Limitazione attuale: La maggior parte dei sistemi esistenti adotta un approccio di "pensare sulle immagini" (thinking about images). In questo regime, le informazioni visive vengono codificate una sola volta all'ingresso e tutto il successivo processo di ragionamento avviene esclusivamente in forma testuale.
Conseguenze: Questo forza informazioni percettive ad alta dimensionalità in un mezzo simbolico a bassa larghezza di banda (il testo), portando a una perdita di dettagli spaziali e strutturali fini.
Approcci esistenti e loro limiti:
- Metodi basati su strumenti: Richiedono moduli esterni (es. crop, rilevamento oggetti) che introducono overhead computazionale e dipendono da strumenti predefiniti.
- Generazione di immagini intermedie: Generano immagini reali (pixel) durante il ragionamento, sprecando risorse computazionali su dettagli fotorealistici non necessari per il compito.

2. Metodologia: LanteRn

LanteRn introduce un approccio di "pensare con le immagini" (thinking with images) internalizzato, permettendo al modello di intercalare ragionamento testuale con rappresentazioni visive latenti compatte (vettori continui) direttamente nello spazio delle caratteristiche del modello.

Architettura e Meccanismo

Modalità Testuale: Generazione standard di token lessicali.
Modalità Latente Visiva: Dopo il token di inizio, il modello genera un blocco di $K$ vettori latenti continui ( $z_t \in \mathbb{R}^d$ ) bypassando la testa di modellazione linguistica. Questi vettori agiscono come "pensieri visivi" interni che il modello può utilizzare per l'attenzione senza doverli verbalizzare.

Fasi di Addestramento

Il modello viene addestrato in due fasi distinte:

Fase 1: Supervised Fine-Tuning (SFT) - Grounding delle Stati Latenti

Obiettivo: Allineare le rappresentazioni latenti interne con le caratteristiche visive reali.
Dati: Utilizzo di un dataset derivato da Visual-CoT, dove le tracce di ragionamento includono bounding box specifiche.
Meccanismo: Un encoder visivo pre-addestrato (usato come "insegnante") estrae le caratteristiche dalle regioni di interesse (ROI) indicate dalle bounding box. Il modello viene addestrato a minimizzare l'errore quadratico medio (MSE) tra i vettori latenti generati e le caratteristiche visive estratte.
Funzione di perdita: Una combinazione di perdita di generazione testuale (Cross-Entropy) e perdita di allineamento latente (MSE).

Fase 2: Reinforcement Learning (RL) - Allineamento all'Utilità del Compito

Obiettivo: Passare dalla fedeltà percettiva (ricostruzione delle immagini) all'utilità per il compito (ragionamento astratto).
Algoritmo: Utilizzo di GRPO (Group Relative Policy Optimization).
Sfida tecnica: Lo spazio delle azioni è ibrido (token discreti + vettori continui). Per risolvere questo, il paper propone il Latent State Replay: durante l'aggiornamento della politica, il modello è costretto a condizionarsi sui vettori latenti esatti generati durante la fase di campionamento (rollout), stabilizzando il rapporto di importanza.
Ricompense:
- Ricompensa di Accuratezza: Binaria, basata sulla correttezza della risposta finale.
- Ricompensa di Formato: Penalizza la mancata generazione dei blocchi latenti, forzando l'uso del ragionamento visivo interno.

3. Risultati Sperimentali

Il modello è stato valutato su benchmark percettivi e di ragionamento visivo: VisCoT, V ⋆ (V-Star) e Blink.

Risultati SFT: L'addestramento supervisionato migliora le capacità di grounding percettivo (es. localizzazione oggetti su BlinkOL), ma i guadagni sono comparabili a un baseline che usa solo token testuali per il ragionamento intermedio. Le rappresentazioni latenti da sole non bastano per il ragionamento complesso.
Risultati RL: L'applicazione del RL porta a miglioramenti consistenti e significativi rispetto sia al modello base che alle varianti SFT o NTP (Next-Token Prediction).
- Miglioramenti Chiave: Si osservano guadagni sostanziali su compiti di ragionamento spaziale e relazionale (es. BlinkRP sale da 0.68 a 0.81; V ⋆ RP da 0.57 a 0.67).
- Efficienza: Il modello LanteRn (basato su 3B parametri) raggiunge prestazioni paragonabili a modelli di 7B parametri su diversi benchmark, suggerendo che il ragionamento visivo latente è un'alternativa efficiente alla semplice scalatura dei parametri.
Ablazione: È stato notato che dimensioni latenti troppo grandi ( $K=32$ ) possono talvolta degradare le prestazioni, indicando un trade-off tra capacità latente ed efficienza del ragionamento.

4. Contributi Chiave

Framework Ibrido: Introduzione di un meccanismo strutturato per intercalare token testuali e vettori latenti continui, permettendo il ragionamento visivo direttamente nello spazio delle caratteristiche del modello.
Training Ibrido: Proposta di una pipeline a due stadi (SFT per il grounding percettivo + RL per l'ottimizzazione orientata al compito) che risolve il problema della definizione di "ground truth" per i pensieri visivi interni.
Latent State Replay: Una tecnica innovativa per stabilizzare l'addestramento RL in spazi di azione ibridi, permettendo di ottimizzare la politica testuale mantenendo fissi i percorsi di ragionamento latente durante il calcolo delle ricompense.
Efficienza Computazionale: Dimostrazione che il ragionamento visivo interno può superare i limiti dei metodi basati su testo o generazione di immagini, offrendo prestazioni elevate con modelli di dimensioni ridotte.

5. Significato e Implicazioni

Il lavoro di LanteRn suggerisce che le rappresentazioni interne latenti sono una direzione promettente per il ragionamento multimodale. Superando la necessità di verbalizzare ogni dettaglio visivo o di generare immagini intermedie costose, il modello può mantenere e manipolare informazioni visive ad alta dimensionalità in modo efficiente. Questo approccio potrebbe diventare fondamentale per applicazioni che richiedono una comprensione spaziale fine e un ragionamento visivo complesso, riducendo al contempo il costo computazionale rispetto all'addestramento di modelli enormi.

Limitazioni e Futuro: Il framework dipende dalla qualità dei dati di addestramento e utilizza blocchi latenti di dimensione fissa. Futuri lavori potrebbero esplorare blocchi latenti dinamici adattivi alla complessità del compito e metodi migliori per visualizzare e interpretare questi stati latenti.