Learning to Wander: Improving the Global Image Geolocation Ability of LMMs via Actionable Reasoning

Deze paper introduceert WanderBench, het eerste wereldwijde benchmark voor actieve geolocatie, en het GeoAoT-framework dat redenering koppelt aan fysieke acties om de locatiebepalingsvaardigheden van multimodale modellen te verbeteren.

Yushuo Zheng, Huiyu Duan, Zicheng Zhang, Xiaohong Liu, Xiongkuo Min

Gepubliceerd 2026-03-12
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je plotseling in een vreemd land bent beland. Je weet niet waar je bent, maar je hebt een camera bij je. Hoe vind je je weg?

Een mens zou niet zomaar naar één foto staren en hopen dat hij het raadt. Nee, een mens zou rondlopen. Hij zou om zijn as draaien om een bordje te lezen, een stukje lopen om een gebouw van dichterbij te bekijken, of de lucht in de gaten houden om het klimaat te voelen.

Dit is precies wat dit nieuwe onderzoek, getiteld "Learning to Wander", voorstelt. Het gaat over het verbeteren van slimme computers (zogenaamde "Large Multimodal Models" of LMMs) zodat ze niet alleen naar een plaatje kijken, maar ook actief de wereld kunnen "verkennen" om hun locatie te bepalen.

Hier is een uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het oude probleem: De "Statische Foto"

Vroeger waren slimme computers als iemand die een foto van een straat in Parijs krijgt, maar die foto is vastgeplakt aan een muur. De computer moet raden: "Is dit Parijs?"

  • Het probleem: Als de foto alleen een raam toont zonder de Eiffeltoren, raakt de computer in paniek. Hij kan niet bewegen, niet omkijken en niet dichterbij lopen. Hij moet het doen met wat hij ziet, en dat is vaak niet genoeg.
  • De analogie: Het is alsof je een raadsel moet oplossen met je ogen dicht, terwijl je alleen één flard van een zin mag lezen.

2. De nieuwe oplossing: "WanderBench" (De Speeltuin)

De onderzoekers hebben een nieuw platform gemaakt, genaamd WanderBench.

  • Wat is het? Stel je voor dat je een enorme, virtuele wereld hebt met 32.000 verschillende plekken op aarde (van steden tot dorpen, over de hele wereld).
  • Het unieke: Dit is geen verzameling losse foto's. Het is een interactief landschap. De computer kan hierin "wandelen". Het kan:
    • Zichzelf 180 graden draaien (om naar de achterkant te kijken).
    • Een stukje vooruit lopen (om een bordje te lezen dat te ver weg was).
    • Naar links of rechts kijken.
  • De analogie: In plaats van een statische kaart te krijgen, krijgt de computer een VR-bril en een controller. Hij kan echt "rondlopen" in de virtuele wereld om hints te vinden.

3. De slimme methode: "GeoAoT" (Actie in plaats van alleen denken)

Vroeger deden computers alleen maar "Chain of Thought" (Keten van Gedachten): ze dachten hard na over wat ze zagen.
Deze nieuwe methode heet GeoAoT (Action of Thought).

  • Hoe werkt het? De computer denkt niet alleen na, maar doet ook iets.
    • Stap 1: De computer kijkt en denkt: "Ik zie een palmboom, maar ik weet niet of dit Spanje of Californië is."
    • Stap 2 (De Actie): In plaats van te gokken, zegt de computer: "Ik ga nu omdraaien om te zien of er een Spaans bordje staat."
    • Stap 3: De computer draait om, ziet het bordje, en zegt: "Ah! Het is Spanje!"
  • De analogie: Stel je voor dat je een detective bent. Een oude detective zou alleen naar de foto van het moordplek kijken en een conclusie trekken. Een GeoAoT-detective zou zeggen: "Ik heb een twijfel, ik ga even de kamer inlopen om te kijken of er een wapen onder de mat zit." Hij gebruikt actie om twijfel weg te nemen.

4. Waarom is dit belangrijk?

De onderzoekers hebben 19 verschillende slimme computers getest in deze nieuwe "speeltuin".

  • Het resultaat: De computers die konden "wandelen" en actie ondernamen, waren veel beter in het vinden van de juiste locatie. Ze maakten minder fouten en konden zelfs moeilijke plekken vinden waar geen bekende gebouwen stonden (zoals een willekeurige straat in een dorp).
  • De les: Om echt slim te zijn in een visuele wereld, moet je niet alleen kijken, je moet ook bewegen.

Samenvatting in één zin

Dit onderzoek leert computers dat ze, net als mensen, niet moeten stilstaan en staren, maar actief moeten rondwandelen en hun omgeving moeten verkennen om te weten waar ze zijn. Het is de overstap van een passieve fotobekijker naar een actieve avonturier.