DeepEyes: Incentivizing "Thinking with Images" via Reinforcement Learning

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un assistente molto intelligente, ma che ha un piccolo difetto: è un po' come un lettore di libri che ha studiato milioni di pagine, ma non ha mai davvero guardato le immagini con i propri occhi. Quando gli mostri una foto complessa, tende a rispondere basandosi solo su quello che ha "letto" nella sua memoria, a volte inventando dettagli che non esistono (allucinazioni) o perdendosi nei minimi dettagli.

DeepEyes è la soluzione a questo problema. È un nuovo modello di intelligenza artificiale che ha imparato a "pensare con le immagini".

Ecco come funziona, usando delle metafore quotidiane:

1. Il Detective che non si fida delle prime impressioni

Immagina un detective che deve risolvere un caso guardando una scena del crimine.

I vecchi modelli (VLM) erano come detective che guardavano la foto da lontano, facevano una rapida occhiata e dicevano: "Sembra che ci sia un orologio qui". Spesso sbagliavano perché non avevano guardato bene.
DeepEyes è come un detective esperto che dice: "Aspetta, da qui non vedo bene. Devo avvicinarmi".
Invece di rispondere subito, il modello decide autonomamente di zoomare su una parte specifica dell'immagine (come se prendesse un binocolo o un ingranditore) per guardare i dettagli. Poi, dopo aver guardato, torna a ragionare. Se non è ancora sicuro, può zoomare di nuovo su un'altra zona.

2. L'allenamento senza manuale di istruzioni (Reinforcement Learning)

Di solito, per insegnare a un'IA a fare cose complesse, gli umani devono preparare migliaia di esempi scritti a mano (come un manuale di istruzioni: "Se vedi X, fai Y"). È un processo lento e costoso.

DeepEyes, invece, è stato allenato come un gatto che impara a cacciare:

Non gli abbiamo dato un manuale.
Gli abbiamo detto: "Ecco una foto e una domanda. Se rispondi giusto e hai guardato bene i dettagli, ti do un premio (punti)". Se sbagli o non guardi bene, non prendi punti.
Dopo migliaia di tentativi, il modello ha imparato da solo che zoomare e guardare i dettagli è la strategia migliore per vincere il premio. Ha scoperto da solo il metodo, senza che nessuno gliel'avesse insegnato passo dopo passo.

3. Le tre fasi della crescita (Da principiante a maestro)

Gli autori hanno osservato come DeepEyes è maturato durante l'allenamento, proprio come un bambino che impara a camminare:

Fase dell'esplorazione confusa: All'inizio, il modello zoomava a caso, come un bambino che tocca tutto senza sapere perché. Spesso guardava la parte sbagliata.
Fase dell'entusiasmo eccessivo: Poi, ha capito che zoomare era utile, ma lo faceva troppo! Zoomava ovunque, come se volesse controllare ogni singolo granello di sabbia, perdendo tempo.
Fase del maestro: Infine, ha imparato la saggezza. Ora sa esattamente quando e dove zoomare. È diventato efficiente: guarda solo dove serve, come un esperto che sa dove cercare il colpevole.

4. Cosa ha imparato a fare?

Grazie a questo metodo, DeepEyes ha sviluppato quattro "superpoteri" che ricordano il modo in cui pensiamo noi umani:

La ricerca visiva: Se cerca un oggetto piccolo (come un orologio in una stanza piena di mobili), non indovina, ma scansiona la stanza pezzo per pezzo.
Il confronto: Se deve paragonare due cose, le ingrandisce una alla volta per vedere le differenze sottili.
La conferma: Se è incerto, si ferma e guarda di nuovo per essere sicuro al 100%.
Anti-allucinazione: Se il modello aveva un pregiudizio (es. "c'è una roccia perché c'è la spiaggia"), zoomando vede che in realtà è un orologio e corregge l'errore.

In sintesi

DeepEyes è un'intelligenza artificiale che ha smesso di "indovinare" guardando le immagini da lontano e ha imparato a interagire con esse. Non si limita a leggere l'immagine come un testo, ma la "tocca", la ingrandisce e la esamina con curiosità, proprio come farebbe un essere umano.

Il risultato? Risponde molto meglio a domande difficili, sbaglia meno e, soprattutto, ci fa vedere come sta ragionando, rendendo l'IA più trasparente e affidabile. È un passo avanti verso macchine che non solo "vedono", ma davvero "capiscono" ciò che guardano.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

I moderni Modelli Vision-Language (VLM) hanno mostrato capacità notevoli nel comprendere input multimodali, ma spesso falliscono nell'integrare profondamente le informazioni visive nei loro processi di ragionamento, che rimangono prevalentemente basati sul testo.

Limitazione attuale: I modelli esistenti tendono a confinare il ragionamento nella modalità linguistica (Chain-of-Thought testuale), trattando l'immagine come un input statico e non dinamico.
Divario cognitivo: A differenza della cognizione umana, che combina visione e pensiero attraverso fissazioni visive sequenziali per prendere decisioni percettive accurate, i VLM faticano a "pensare con le immagini".
Sfide delle soluzioni precedenti: I metodi basati su workflow predefiniti o modelli specializzati esterni (API) soffrono di prestazioni subottimali, complessità di integrazione e mancanza di generalizzazione. Inoltre, molti approcci richiedono un cold-start tramite Supervised Fine-Tuning (SFT) su dati di ragionamento pre-collezionati, che sono difficili da ottenere.

2. Metodologia: DeepEyes

Il paper introduce DeepEyes, un modello che apprende nativamente a "pensare con le immagini" attraverso un processo di Reinforcement Learning (RL) end-to-end, senza necessità di SFT iniziale su dati di ragionamento.

Meccanismo di Percezione Attiva

Il cuore di DeepEyes è un meccanismo di percezione attiva integrato in un framework agentic. Il modello può decidere autonomamente, durante il processo di ragionamento, di:

Rispondere direttamente.
Chiamare uno strumento di zoom-in (crocatura) su una specifica regione dell'immagine originale, fornendo coordinate di bounding box.
Integrare l'immagine ritagliata nel flusso di ragionamento (Chain-of-Thought) per un'analisi più dettagliata.

Questo crea un Interleaved Multi-modal Chain-of-Thought (iMCoT), dove ragionamento testuale e visivo sono intrecciati dinamicamente.

Addestramento e Strategia di Reward

L'addestramento avviene tramite Group Relative Policy Optimization (GRPO). Poiché non ci sono dati di supervisione per i passaggi intermedi, il modello è guidato da segnali di reward basati sul risultato finale:

Reward di Accuratezza ( $R_{acc}$ ): Basato sulla correttezza della risposta finale.
Reward di Formato ( $R_{format}$ ): Penalizza output non strutturati.
Bonus Condizionale ( $R_{tool}$ ): Un componente cruciale che premia le traiettorie che ottengono la risposta corretta solo se hanno utilizzato almeno un passo di percezione attiva (zoom-in). Questo incentiva il modello a non usare lo strumento in modo casuale, ma solo quando necessario per risolvere il compito.

Selezione dei Dati

Per superare la mancanza di dati SFT, gli autori propongono una strategia di selezione dei dati:

Utilizzo di dataset diversificati (V* per percezione fine, ArxivQA per grafici, ThinkLite-VL per ragionamento).
Filtraggio per difficoltà (rimozione di campioni troppo facili o impossibili).
Filtro di utilità percettiva: vengono mantenuti solo i campioni risolvibili tramite percezione attiva, massimizzando il guadagno informativo iniziale.

3. Contributi Chiave

Natività della Capacità: DeepEyes sviluppa la capacità di "pensare con le immagini" in modo nativo tramite RL, eliminando la necessità di modelli esterni specializzati o di un costoso SFT iniziale.
Meccanismo iMCoT: Introduce un approccio di ragionamento multimodale intrecciato che permette al modello di adattarsi dinamicamente, decidendo quando e come esplorare visivamente un'immagine.
Strategie di Incentivazione: Dimostrano che una combinazione di selezione dei dati mirata e una strategia di reward condizionale (bonus solo se l'azione porta a successo) è fondamentale per ottimizzare l'efficienza e l'accuratezza della percezione attiva.
Analisi della Dinamica di Apprendimento: Rivelano che il comportamento di percezione attiva evolve in tre fasi distinte durante l'addestramento RL:
- Esplorazione iniziale: Tentativi disordinati e poco efficaci.
- Coinvolgimento ad alta frequenza: Uso intensivo ma non sempre efficiente.
- Sfruttamento efficiente: Un approccio selettivo e preciso che attiva lo zoom solo quando necessario, imitando i processi cognitivi umani.

4. Risultati Sperimentali

DeepEyes ha mostrato miglioramenti significativi su una vasta gamma di benchmark, utilizzando un modello base da 7B parametri (basato su Qwen2.5-VL):

Benchmark ad Alta Risoluzione:
- Su V Bench*, ha raggiunto il 90.1% di accuratezza (+18.9% rispetto a Qwen2.5-VL 7B).
- Su HR-Bench-8K, miglioramento del 7.3%.
- Supera modelli proprietari come GPT-4o e o3 in alcuni contesti specifici di risoluzione, e batte tutti i modelli open-source basati su pipeline complesse.
Percezione Generale e Ragionamento:
- Miglioramenti su MME-RealWorld-Lite (+10.9% sul totale), superando anche la versione da 32B del modello base.
- Miglioramenti consistenti su benchmark di ragionamento matematico (MathVista, MathVerse, WeMath) e logica.
Grounding e Allucinazioni:
- Aumento dell'accuratezza nel visual grounding (refCOCO, ReasonSeg).
- Riduzione significativa delle allucinazioni: il modello è in grado di "fact-checkare" le proprie ipotesi linguistiche confrontandole con dettagli visivi ingranditi, correggendo errori derivanti da bias linguistici.

5. Significato e Impatto

Il lavoro di DeepEyes rappresenta un passo avanti significativo verso il ragionamento multimodale vero e proprio.

Efficienza: Dimostra che un RL semplice e end-to-end può sbloccare capacità di ragionamento visivo sofisticate senza la complessità delle pipeline modulari.
Ispirazione Biologica: Il modello replica i pattern di ragionamento umano (ricerca visiva, confronto, conferma, mitigazione delle allucinazioni), suggerendo che l'integrazione dinamica di percezione e cognizione è la chiave per VLM più robusti.
Scalabilità: Gli esperimenti mostrano che la metodologia scala bene con modelli più grandi (32B), migliorando ulteriormente la precisione del grounding e la lunghezza delle catene di ragionamento.
Generalizzazione Zero-Shot: Il framework dimostra la capacità di integrare nuovi strumenti (es. rotazione delle immagini) senza riaddestramento, aprendo la strada a sistemi agentici più flessibili.

In sintesi, DeepEyes trasforma il VLM da un osservatore passivo a un agente attivo che "guarda" e "esplora" l'immagine per ragionare, colmando il divario tra percezione visiva e comprensione cognitiva.