Learning to Wander: Improving the Global Image Geolocation Ability of LMMs via Actionable Reasoning

Este artigo apresenta o WanderBench, o primeiro benchmark global de geolocalização interativa com mais de 32 mil panoramas, e o GeoAoT, um framework que aprimora a capacidade de localização global de Modelos Multimodais Grandes (LMMs) ao integrar raciocínio com ações físicas de exploração para reduzir a incerteza em ambientes dinâmicos.

Yushuo Zheng, Huiyu Duan, Zicheng Zhang, Xiaohong Liu, Xiongkuo Min

Publicado 2026-03-12
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está perdido em uma cidade estrangeira, sem celular, sem GPS e sem saber onde está. O que você faria?

Você não ficaria apenas olhando para uma única foto estática e tentando adivinhar. Você se moveria. Você viraria a cabeça para ler uma placa na esquina, caminharia até um prédio para ver o nome, ou subiria em um ponto alto para ver o horizonte. Você usaria suas pernas e seus olhos para coletar pistas ativamente.

É exatamente isso que os pesquisadores da Universidade de Jiao Tong de Xangai e do Laboratório de IA Artificial de Xangai propõem neste novo trabalho. Eles criaram um novo jeito de ensinar as Inteligências Artificiais (IA) a se localizarem no mundo, transformando-as de "observadores passivos" em "exploradores ativos".

Aqui está a explicação do trabalho, dividida em três partes principais, usando analogias simples:

1. O Problema: O Detetive que Só Olha uma Foto

Até hoje, as IAs que tentam adivinhar onde uma foto foi tirada funcionavam como um detetive que recebe apenas uma única foto e é obrigado a dar a resposta imediatamente.

  • A limitação: Se a foto for de uma rua comum sem placas famosas, a IA fica perdida. Ela não pode "andar" para ver mais nada.
  • O resultado: Elas cometem muitos erros, especialmente em lugares que não têm pontos turísticos óbvios.

2. A Solução: O Novo "Campo de Treino" (WanderBench)

Os autores criaram o WanderBench. Pense nele como um parque de diversões gigante e virtual para treinar IAs.

  • O que é: Em vez de ter apenas fotos soltas, eles criaram 32.000 "cenas" ao redor do mundo (em 6 continentes) que funcionam como um mapa interativo.
  • A mágica: Cada local não é apenas uma imagem, é um nó em uma rede. A IA pode "andar" (mover-se), "virar a cabeça" (rotacionar a visão) e explorar o entorno, exatamente como um humano faria no Google Street View.
  • Por que é especial: É o primeiro lugar onde a IA é testada não só em acertar o local, mas em criar desafios para outras IAs, testando se ela entende o quanto algo é difícil de adivinhar.

3. O Novo Método: "Pensar Agindo" (GeoAoT)

Aqui entra a parte mais genial: o GeoAoT (Ação do Pensamento).

  • Como funcionava antes (Cadeia de Pensamento): A IA olhava a foto, pensava: "Hmm, parece o Brasil, talvez São Paulo..." e respondia. Tudo na cabeça, sem sair do lugar.
  • Como funciona agora (Ação do Pensamento): A IA olha a foto e pensa: "Não consigo ver a placa da rua, estou confuso. Ação: Vou virar 90 graus para a direita para tentar ler o nome do prédio."
    • Ela executa essa ação no ambiente virtual.
    • Olha a nova imagem.
    • Pensa de novo: "Agora vi uma bandeira! Ação: Vou me aproximar para ler o texto."
    • E assim por diante, até ter certeza.

A Analogia do Tourista:
Imagine que você está tentando adivinhar onde está.

  • IA Antiga: Olha para uma foto de um céu azul e diz: "É no Egito". (Chute).
  • IA com GeoAoT: Olha para o céu, diz: "Muito azul, mas não sei. Vou girar a câmera." Vê uma mesquita. Diz: "Ok, é um país muçulmano. Vou andar até a placa." Lê "Cairo". Diz: "Agora tenho certeza! É Cairo."

O Que Eles Descobriram?

Eles testaram 19 modelos de IA diferentes (os "cérebros" mais inteligentes do mundo atual) nesse novo campo de treino.

  • Resultado: Quando as IAs puderam "andar" e "virar a cabeça" (usando o GeoAoT), elas ficaram muito melhores.
  • Aprendizado: A IA não precisa apenas "saber" geografia; ela precisa saber como investigar. A capacidade de agir para reduzir a incerteza é o segredo para acertar locais difíceis.

Resumo Final

Este trabalho muda a regra do jogo. Antes, a IA era como um turista cego que só podia olhar para frente. Agora, com o WanderBench e o GeoAoT, a IA é um turista esperto que sabe que, para não se perder, às vezes precisa dar uma volta, olhar para cima e ler as placas.

Isso não só melhora a precisão de localização (útil para carros autônomos e resgates), mas também nos ensina que, para a Inteligência Artificial ser verdadeiramente inteligente no mundo real, ela precisa aprender a interagir com o ambiente, não apenas a observá-lo.