GeoEyes: On-Demand Visual Focusing for Evidence-Grounded Understanding of Ultra-High-Resolution Remote Sensing Imagery

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere una fotografia aerea di una città intera, scattata da un satellite, così dettagliata che puoi vedere ogni singola auto, ogni albero e persino le persone che camminano. Questa è un'immagine "ultra-ad alta risoluzione" (UHR).

Ora, immagina di dover rispondere a una domanda molto specifica su questa foto, tipo: "Quante macchine rosse ci sono parcheggiate vicino al supermercato nel quartiere nord-ovest?".

Se guardi l'immagine intera, è come cercare un ago in un pagliaio gigante. È troppo grande, troppo piena di dettagli inutili per la tua domanda specifica.

Il Problema: Il "Zoom Automatico" che non funziona

Fino a poco tempo fa, i computer intelligenti (chiamati modelli di intelligenza artificiale multimodale) che dovevano rispondere a queste domande avevano un problema curioso. Avevano a disposizione uno strumento "Zoom", ma lo usavano in modo stupido e automatico.

Pensa a un bambino che ha appena ricevuto un nuovo giocattolo con lo zoom:

Gli chiedi: "C'è un gatto?". Lui zooma.
Gli chiedi: "Che tempo fa?". Lui zooma.
Gli chiedi: "Quanti edifici ci sono?". Lui zooma.

Non importa la domanda, lui zooma sempre. Questo è quello che gli autori chiamano "Omogeneizzazione dell'uso degli strumenti". Il computer perde la capacità di capire quando è necessario ingrandire e quando è meglio guardare l'immagine intera. Spesso, zooma anche quando non serve, perdendo tempo e confondendosi, oppure non zooma abbastanza quando serve.

La Soluzione: GeoEyes, l'occhio che sa quando fermarsi

Gli autori di questo paper hanno creato un nuovo sistema chiamato GeoEyes. L'idea è insegnare all'IA a comportarsi come un investigatore esperto o un fotografo professionista, non come un bambino curioso.

Ecco come funziona, diviso in due fasi semplici:

1. La Fase di Apprendimento (Il "Tirocinio")

Prima di far lavorare l'IA da sola, gli hanno dato un "libro di esercizi" speciale chiamato UHR-CoZ.

L'analogia: Immagina di insegnare a un tirocinante di detective. Non gli dici solo "trova il colpevole". Gli mostri casi diversi:
- Caso A: "Guarda la mappa intera, non serve zoomare." (Nessun uso dello zoom).
- Caso B: "C'è un oggetto grande, ingrandisci una volta." (Uno zoom).
- Caso C: "C'è un dettaglio minuscolo, devi ingrandire tre volte di fila per vederlo bene." (Zoom progressivo).
In questa fase, l'IA impara che non tutte le domande richiedono lo stesso sforzo. Impara a dire "stop" quando ha abbastanza informazioni.

2. La Fase di Allenamento con Ricompense (Il "Gioco a Punti")

Dopo il tirocinio, l'IA inizia a giocare da sola, ma con un nuovo sistema di premi (chiamato AdaZoom-GRPO).

La regola del gioco: Non basta dare la risposta giusta. L'IA viene premiata in base a come ha trovato la risposta.
- Se fa uno zoom inutile, perde punti (spreca energia).
- Se non fa lo zoom quando serve e indovina a caso, perde punti (non è stato un vero detective).
- Se fa lo zoom giusto, al momento giusto, e si ferma quando ha trovato la prova, guadagna molti punti.
Inoltre, c'è una regola speciale: se l'IA deve cercare qualcosa di minuscolo (come un'auto specifica), deve fare uno zoom "a imbuto" (da grande a piccolo) senza saltare a caso. Se salta a caso, non prende punti.

Il Risultato: Un Detective Intelligente

Grazie a questo metodo, GeoEyes è diventato molto meglio dei suoi rivali.

Mentre gli altri modelli (come DeepEyes) zoomavano su ogni singola domanda (anche quelle facili), GeoEyes ha imparato a scegliere: a volte guarda tutto, a volte ingrandisce una volta, a volte ingrandisce più volte.
Su un test molto difficile (chiamato XLRS-Bench), GeoEyes ha raggiunto un punteggio del 54,23%, battendo modelli molto più grandi e costosi che usavano metodi vecchi.

In Sintesi

GeoEyes è come un cacciatore di dettagli che ha imparato la pazienza e la strategia.

Non spara a caso (non fa zoom inutili).
Non si ferma troppo presto (sa quando serve ingrandire).
Sa esattamente quando mettere via il binocolo e dire: "Ho trovato la prova, la risposta è questa".

Questo lavoro ci insegna che per far funzionare bene l'intelligenza artificiale su immagini complesse, non basta dargli più potenza di calcolo; bisogna insegnargli quando e come usare gli strumenti che già possiede.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema: L'Omogeneizzazione dell'Uso degli Strumenti

Il lavoro affronta una sfida critica nell'intersezione tra i Modelli Linguistici Multimodali (MLLM) e l'analisi di immagini satellitari ad ultra-alta risoluzione (UHR).

Contesto: Le immagini UHR contengono dettagli fini e strutture complesse, ma le informazioni rilevanti per un compito specifico (es. un piccolo oggetto o un pattern strutturale sottile) occupano spesso una frazione minima dell'intera scena.
Il Fenomeno Critico: Gli autori identificano un fallimento sistematico nei modelli MLLM esistenti dotati di strumenti di zoom, denominato "Tool Usage Homogenization" (Omogeneizzazione dell'uso degli strumenti).
- Invece di adattarsi dinamicamente al compito, questi modelli tendono a collassare in un pattern di chiamata degli strumenti task-agnostico e costante (spesso una singola chiamata per ogni domanda, indipendentemente dalla necessità).
- Questo comportamento è causato da due fattori specifici del dominio UHR:
  1. Eterogeneità del compito: Alcuni quesiti richiedono una visione globale (senza zoom), mentre altri necessitano di ispezioni progressive multi-step. Una strategia uniforme porta a sovraccarico computazionale o esplorazione insufficiente.
  2. Bassa densità di evidenze efficaci: La maggior parte delle regioni dell'immagine non fornisce informazioni utili. Senza un feedback specifico, i modelli tendono a fermarsi in ottimi locali inefficienti.

2. Metodologia: Il Framework GeoEyes

Per risolvere questo problema, gli autori propongono GeoEyes, un framework di training a due stadi che combina Supervised Fine-Tuning (SFT) e Reinforcement Learning (RL) adattivo.

A. Dataset di Cold-Start: UHR-CoZ

Per inizializzare il modello con comportamenti di zoom corretti, è stato costruito un nuovo dataset chiamato UHR Chain-of-Zoom (UHR-CoZ).

Origine: Derivato da HighRS-VQA, ma arricchito con traiettorie di ragionamento intercalate (immagine-testo).
Caratteristiche: Copre tre regimi di zoom distinti:
1. Nessuno strumento (per compiti globali).
2. Singola chiamata (per target di scala media).
3. Focalizzazione progressiva multi-step (per oggetti minuscoli).
Costruzione: Utilizza un pipeline automatizzata orchestrata da agenti (basata su GLM-4.5V) per generare e pulire le traiettorie di ragionamento, assicurando che le chiamate agli strumenti siano giustificate dall'evidenza visiva.

B. Addestramento: AdaZoom-GRPO

Sulla base del SFT, viene applicato un metodo di Reinforcement Learning chiamato AdaZoom-GRPO (Group Relative Policy Optimization), che introduce una funzione di ricompensa innovativa per guidare l'agente verso un uso "on-demand" degli strumenti. La ricompensa totale $R$ è composta da:

Ricompensa di Efficienza Adattiva ( $R_{tool}$ ):
- Penalizza l'uso eccessivo degli strumenti per compiti semplici (dove il modello base è sufficiente).
- Premia l'uso degli strumenti per compiti difficili, adattando il "quota" di passi consentiti in base alla difficoltà della categoria e dell'istanza specifica.
Ricompensa Chain-of-Focus ( $R_{cof}$ ):
- Affronta la bassa densità di evidenze imponendo una traiettoria strutturata "dal grezzo al fine" (Coarse-to-Fine).
- Premia il restringimento geometrico delle finestre di visualizzazione ( $b_{t+1} \subset b_t$ ) e permette un "ritorno" sicuro (backtrack) senza penalità se l'agente si perde, ma penalizza le derive disgiunte.
Ricompensa di Verifica del Processo ( $R_{proc}$ ):
- Un giudice "consapevole della necessità" che verifica non solo la coerenza logica, ma anche la necessità dell'azione. Penalizza le risposte confidenti a domande dettagliate se non sono state eseguite le azioni di zoom corrispondenti, prevenendo allucinazioni non basate su evidenze visive.

3. Risultati Sperimentali

Il modello è stato valutato sul benchmark XLRS-Bench, uno standard per il VQA (Visual Question Answering) su immagini satellitari UHR.

Performance Complessiva: GeoEyes ha raggiunto un'accuratezza media del 54.23%, stabilendo un nuovo stato dell'arte (SOTA).
Confronto con i Baseline:
- Supera i modelli specializzati nel remote sensing come GeoLLaVA-8K (51.5%) e DeepEyes (50.0%).
- Supera modelli generalisti molto più grandi, come Qwen3-VL-235B (51.1%) e Qwen2.5-VL-72B (50.2%), pur utilizzando un backbone di soli 7B parametri.
Miglioramenti Specifici: I guadagni sono più marcati nelle capacità di percezione fine-granulare:
- Classificazione Oggetti (OCL): 66.1% (vs 39.0% di Qwen3-VL-235B).
- Conteggio Complessivo (OCC): 59.5%.
Ablation Study: Gli esperimenti dimostrano che:
- Il SFT cold-start è essenziale per insegnare al modello quando non usare lo strumento.
- La ricompensa geometrica (Chain-of-Focus) è superiore alle metriche IoU standard per guidare lo zoom progressivo.
- La verifica della necessità previene l'uso inutile degli strumenti e le allucinazioni.

4. Contributi Chiave

Identificazione del Problema: Diagnosi del fenomeno di "Omogeneizzazione dell'uso degli strumenti" nei MLLM per il remote sensing UHR, attribuendolo all'eterogeneità dei compiti e alla bassa densità di evidenze.
Dataset UHR-CoZ: Creazione del più grande dataset cold-start per il remote sensing ad alta risoluzione, che annota esplicitamente traiettorie di ragionamento intercalate con uso di strumenti (nessuno, singolo, multi-step).
Framework GeoEyes: Sviluppo di un modello che impara politiche di zoom adattive e comportamenti di arresto corretti, combinando SFT iniziale e una strategia RL (AdaZoom-GRPO) con ricompense specifiche per l'efficienza, la geometria e la necessità logica.

5. Significato e Impatto

Questo lavoro dimostra che per comprendere immagini satellitari ad ultra-alta risoluzione, non è sufficiente scalare la potenza del modello (brute-force scaling). È fondamentale addestrare politiche di controllo degli strumenti che sappiano differenziare:

Quando astenersi (quando la visione globale è sufficiente).
Quando iterare (quando serve esplorazione multi-step).
Quando fermarsi (quando l'evidenza è stata acquisita).

GeoEyes offre una soluzione efficiente e scalabile, dimostrando che un approccio "thinking-with-images" guidato da evidenze e adattivo può superare i limiti di risoluzione senza richiedere modelli di dimensioni proibitive, aprendo la strada a sistemi di analisi terrestre più intelligenti e autonomi.