GeoEyes: On-Demand Visual Focusing for Evidence-Grounded Understanding of Ultra-High-Resolution Remote Sensing Imagery

Each language version is independently generated for its own context, not a direct translation.

GeoEyes: De Slimme Verrekijker voor Satellietbeelden

Stel je voor dat je een gigantische foto van de aarde hebt, zo groot als een heel stadion. Op deze foto staan miljoenen kleine details: auto's, bomen, huizen en zelfs kleine daken. Als je nu iemand vraagt: "Hoeveel rode auto's staan er op die parkeerplaats?", en je kijkt alleen naar de hele foto van bovenaf, dan zie je ze niet. Ze zijn te klein.

Dit is het probleem waar wetenschappers mee worstelen bij het analyseren van ultra-hoogresolutie satellietbeelden. De informatie is er wel, maar hij is verstopt in een zee van pixels.

Het Probleem: De "Automatische Knop"

Recente kunstmatige intelligentie (AI) heeft een nieuwe truc geleerd: "Denken met beelden". In plaats van alleen naar de hele foto te kijken, kan de AI een "zoom-tool" gebruiken om dichterbij te komen, net als met een vergrootglas.

Maar er was een groot probleem. Bestaande AI-modellen werden te dom in het gebruik van deze tool. Ze deden precies hetzelfde voor elke vraag, ongeacht of het nodig was.

De analogie: Stel je voor dat je een detective bent. Als je een vraag krijgt over het weer (dat je van ver kunt zien), pak je toch ook je vergrootglas en loop je 10 kilometer door de stad om een wolk te tellen? Nee, dat is zonde van de tijd.
De realiteit: De oude AI's deden dit wel. Ze gebruikten de zoom-tool voor elke vraag, zelfs voor simpele dingen. Dit noemen de auteurs "Tool Usage Homogenization" (vergelijkbaar met: "Iedereen doet precies hetzelfde, ook als het niet slim is"). Ze zoomden in op de verkeerde plekken of deden het te vaak, waardoor ze de echte aanwijzingen misten.

De Oplossing: GeoEyes

De onderzoekers hebben GeoEyes bedacht. Dit is een slimme AI die leert wanneer hij moet zoomen, waar hij moet zoomen en wanneer hij moet stoppen.

Ze hebben dit gedaan in twee stappen, alsof ze een leerling trainen:

Stap 1: De "Leerboeken" (UHR-CoZ)

Eerst leerden ze de AI met een speciaal gemaakt trainingsboek. In dit boek staan voorbeelden van situaties waarin:

Je niets hoeft te zoomen (want het antwoord is al duidelijk).
Je één keer moet inzoomen (voor een gemiddeld groot object).
Je meerdere keren moet inzoomen (voor heel kleine details, zoals een klein dier in een bos).

Dit hielp de AI om te begrijpen dat niet elke vraag hetzelfde is. Het gaf haar een goed startpunt.

Stap 2: De "Slimme Trainer" (AdaZoom-GRPO)

Vervolgens lieten ze de AI oefenen met een speciale beloningssysteem. Dit is als een trainer die niet alleen kijkt of het antwoord goed is, maar ook hoe de AI het antwoord vond.

De beloning: Als de AI de juiste plek vindt met de minste zoom-beurten, krijgt ze een sterretje.
De straf: Als de AI te veel zoomt (en tijd verspillen) of in de war raakt, krijgt ze geen sterretje.
De "Noodcheck": De trainer vraagt ook: "Was het echt nodig om in te zoomen?" Als de AI zelfverzekerd een antwoord gaf zonder in te zoomen, terwijl het antwoord onmogelijk te zien was zonder zoom, krijgt ze een straf. Dit dwingt de AI om echt te kijken voordat ze spreekt.

Het Resultaat

Het resultaat is een AI die zich gedraagt als een echte expert:

Ze weet precies wanneer ze moet stoppen met zoeken.
Ze zoomt alleen in op de plekken waar het echt toe doet.
Ze is veel sneller en accurater dan de oude modellen.

In tests bleek GeoEyes beter te zijn dan zelfs veel grotere en duurdere AI-modellen. Met een relatief kleine "hersenen" (een 7B model) behaalde ze een score van 54,23%, terwijl de grootste concurrenten rond de 50% bleven hangen.

Samenvattend

GeoEyes is als het verschil tussen een persoon die blindelings door een bibliotheek loopt en elke boekenkast openmaakt, en een slimme bibliothecaris die precies weet welk boek hij nodig heeft en alleen dat boek van de plank haalt. Door te leren selectief te zoomen, kan deze AI eindelijk de kleine details op onze planeet zien die voorheen onzichtbaar waren.

Each language version is independently generated for its own context, not a direct translation.

1. Het Probleem: Tool Usage Homogenization

Het paper adresseert een fundamenteel probleem bij het toepassen van Multimodale Large Language Models (MLLMs) op Ultra-High-Resolution (UHR) remote sensing-beelden (satellietbeelden met extreem hoge resolutie).

De Uitdaging: In UHR-scenario's zijn taakrelevante aanwijzingen (zoals kleine objecten of subtiele structuren) vaak zeer schaars en beslaan ze slechts een klein deel van het totale beeld. Effectief redeneren vereist daarom actieve visuele verkenning via "zoom-in" tools.
De Falingsmodus: Bestaande modellen die "thinking-with-images" gebruiken (waarbij modellen dynamisch inzoomen), vertonen een fenomeen dat de auteurs "Tool Usage Homogenization" noemen.
- In plaats van adaptief te handelen, vallen deze modellen terug op een uniform patroon: ze roepen de zoom-tool aan voor elke vraag, ongeacht of dat nodig is.
- Dit leidt tot inefficiëntie (onnodige computerkosten) en suboptimale prestaties, omdat het model niet leert wanneer het moet stoppen of wanneer het niet moet inzoomen.
- De oorzaak wordt toegeschreven aan twee factoren: taakheterogeniteit (sommige vragen zijn op globaal niveau oplosbaar, andere vereisen diepe inspectie) en lage effectieve bewijsdichtheid (de meeste beeldgebieden bieden geen nieuwe informatie, waardoor multi-staps zoeken nodig is).

2. Methodologie: GeoEyes Framework

Om dit probleem op te lossen, stellen de auteurs GeoEyes voor, een gefaseerd trainingsframework dat bestaat uit twee hoofdstappen:

A. Cold-Start Supervised Fine-Tuning (SFT) met UHR-CoZ

Om het model een stabiel startpunt te geven en het concept van "on-demand" zoomen te leren, hebben ze een nieuw dataset gecreëerd: UHR Chain-of-Zoom (UHR-CoZ).

Dataset: Afgeleid van HighRS-VQA, maar verrijkt met interleaved beeld-tekst redeneringsketens.
Diversiteit: De dataset dekt drie verschillende redeneringsregimes:
1. Geen tool-gebruik (voor globale taken).
2. Eén enkele zoom-call (voor middelgrote doelen).
3. Meerdere progressieve zoom-stappen (voor zeer kleine objecten).
Constructie: Een geautomatiseerde agent-pipeline (gebaseerd op GLM-4.5V) genereert deze trajecten en voert kwaliteitscontrole uit om ervoor te zorgen dat de redenering logisch en feitelijk correct is.

B. Agentic Reinforcement Learning: AdaZoom-GRPO

Na de SFT-fase wordt het model verfijnd met een nieuwe Reinforcement Learning (RL) methode genaamd AdaZoom-GRPO. Deze methode gebruikt een geavanceerde beloningsfunctie ( $R$ ) die bestaat uit vier componenten om specifiek de homogenisatie tegen te gaan:

Adaptive Efficiency Reward ( $R_{tool}$ ):
- Bestrijdt taakheterogeniteit door een dynamisch "quotum" voor tool-gebruik in te stellen.
- Simpele taken krijgen een lage basislimiet; complexe taken krijgen een hogere limiet.
- Er is een straffende exponentiële decay voor stappen die boven deze limiet uitgaan, maar alleen voor taken waar de basis het al goed kon. Dit moedigt het model aan om niet te zoomen als het niet nodig is.
Chain-of-Focus Reward ( $R_{cof}$ ):
- Bestrijdt de lage bewijsdichtheid door een gestructureerde "Grof-naar-Fijn" traject te belonen.
- Het model krijgt een positieve beloning als het volgende zichtvenster strikt binnen het vorige valt (effectief inzoomen) en een neutrale beloning voor "backtracking" (terugkeren naar een breder beeld om fouten te corrigeren), maar een straf voor willekeurige drift.
Process Verification Reward ( $R_{proc}$ ):
- Een "Necessity-Aware" judge die controleert of tool-gebruik noodzakelijk was.
- Het straft het model af als het een zeker antwoord geeft op een detailvraag zonder eerst de nodige zoom-in actie uit te voeren (wat zou leiden tot hallucinaties).
Accuracy & Format Rewards: Standaard beloningen voor het juiste antwoord en de juiste output-indeling.

Het optimalisatieproces maakt gebruik van Group Relative Policy Optimization (GRPO), wat stabiliteit biedt zonder een aparte criticus-netwerk te vereisen.

3. Belangrijkste Bijdragen

Identificatie van een nieuw probleem: De paper diagnoseert en kwantificeert "Tool Usage Homogenization" als een kritieke bottleneck voor UHR remote sensing VQA.
UHR-CoZ Dataset: De creatie van de grootste koude-start dataset voor HR remote sensing die systematisch interleaved multi-turn tool-use trajecten documenteert, inclusief gevallen zonder tool-gebruik.
GeoEyes Model: Een nieuw MLLM dat adaptief inzoomt en correct stopt, traind via een combinatie van SFT en de nieuwe AdaZoom-GRPO strategie.

4. Resultaten

GeoEyes werd geëvalueerd op de XLRS-Bench benchmark (een standaard voor UHR remote sensing).

Algemene Prestatie: GeoEyes bereikte een nieuwe state-of-the-art gemiddelde nauwkeurigheid van 54,23%.
Vergelijking:
- Het overtreft gespecialiseerde baselines zoals GeoLLaVA-8K (51,5%) en het agentic framework DeepEyes (50,0%).
- Het presteert aanzienlijk beter dan veel grotere, gesloten bronmodellen (bijv. Qwen3-VL-235B scoort 51,1%) en open-source modellen, ondanks dat GeoEyes een kleinere 7B backbone gebruikt.
Gedetailleerde Verbetering: De grootste winst werd behaald bij fijnkorrelige perceptie-taken:
- Object Classificatie (OCL): 66,1% (vs. 39,0% bij Qwen3-VL-235B).
- Totaal Aantal Objecten (OCC): 59,5% (vs. 44,0% bij Qwen3-VL-235B).
Ablatie Studies: De studies bevestigden dat zowel de SFT-cold start als de specifieke beloningscomponenten ( $R_{tool}$ , $R_{cof}$ , $R_{proc}$ ) essentieel zijn. Zonder de geometrische CoF-beloning daalde de prestatie significant, wat aantoont dat standaard IoU-metrics niet geschikt zijn voor progressief inzoomen.

5. Betekenis en Impact

Deze paper biedt een principieel pad voor het verbeteren van visueel redeneren in extreme resolutiescenario's. De belangrijkste inzichten zijn:

Adaptiviteit is cruciaal: Modellen moeten leren wanneer ze moeten abstineren van tool-gebruik en wanneer ze moeten itereren, in plaats van blindelings te zoomen.
Kwaliteit boven kwantiteit: Actieve, beleidsgecontroleerde zooming lost het UHR-resolutieprobleem op zonder brute-force schaalvergroting van modelgroottes.
Evidentie-gebaseerd leren: Door beloningen te koppelen aan daadwerkelijke bewijswinst en logische noodzaak, kunnen modellen effectiever omgaan met schaarse informatie in grote beelden.

Kortom, GeoEyes demonstreert dat een goed ontworpen trainingscyclus (SFT + RL met specifieke beloningen) superieur kan zijn aan het simpelweg vergroten van modelparameters voor complexe visuele taken.