Learning to Wander: Improving the Global Image Geolocation Ability of LMMs via Actionable Reasoning

이 논문은 3 만 2 천 개 이상의 파노라마로 구성된 행동 기반 지리 위치 추론 벤치마크 'WanderBench'와 시각적 탐색 행동을 통해 불확실성을 줄이는 추론 프레임워크 'GeoAoT'를 제안하여, 대규모 멀티모달 모델의 전 세계 지리 위치 추정 능력을 혁신적으로 향상시켰습니다.

Yushuo Zheng, Huiyu Duan, Zicheng Zhang, Xiaohong Liu, Xiongkuo Min

게시일 2026-03-12
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🌍 1. 문제점: "눈만 뜨고 있는 AI"

기존의 AI(지도 찾기 프로그램) 는 마치 눈을 가리고 한 장의 사진만 보고 장소를 맞추는 게임을 하듯 작동했습니다.

  • 상황: "이 사진은 어디일까요?"라고 물으면 AI 는 그 사진 속의 건물이나 나무만 보고 "아마도 한국일 거야"라고 추측합니다.
  • 한계: 만약 사진에 명확한 간판이 없다면? AI 는 그냥 "모르겠다"거나 엉뚱한 곳을 맞힙니다.
  • 비유: 길을 잃었을 때, 한 장의 사진만 들고 서 있는 사람을 상상해 보세요. 주변을 돌아보지도, 걸어가서 간판을 읽지도 못한다면 길을 찾을 수 없겠죠? 기존 AI 는 바로 이런 상태였습니다.

🗺️ 2. 새로운 도구: "WanderBench (방랑 벤치)"

연구진은 AI 가 실제로 움직일 수 있는 환경을 만들기 위해 **'WanderBench'**라는 새로운 시험장을 만들었습니다.

  • 비유: 기존 시험지가 '정지된 사진'이었다면, WanderBench 는 가상의 VR(가상현실) 게임입니다.
  • 특징: AI 는 이 게임 안에서 360 도를 돌고 (회전), 앞뒤로 걸을 수 있습니다. 마치 구글 스트리트 뷰를 직접 조작하듯, "여기가 너무 어두우니까 오른쪽으로 돌아보자", "저기 간판이 보이니까 다가가서 읽어보자"라고 직접 행동할 수 있는 공간입니다.
  • 규모: 전 세계 6 대륙의 3 만 2 천 개 이상의 장소를 담고 있어, AI 가 전 세계를 방랑하며 학습할 수 있게 했습니다.

🧠 3. 새로운 방법: "GeoAoT (생각의 행동)"

이제 AI 가 이 게임에서 어떻게 지능적으로 행동하는지 소개합니다. 이를 GeoAoT라고 부릅니다.

  • 기존 방식 (생각만 하는 것): "이건 한국 같아. 왜냐하면..."이라고 말만 하고 끝납니다.
  • 새로운 방식 (생각 + 행동):
    1. 생각: "이곳이 어디인지 모르겠어. 간판이 안 보여."
    2. 행동: "그럼 오른쪽으로 180 도 돌아서 다시 보자!" (AI 가 직접 시선을 돌림)
    3. 새로운 발견: "아! 돌아보니까 '서울'이라고 적힌 간판이 있네!"
    4. 결론: "그렇다면 여기는 서울이야!"
  • 핵심: AI 가 단서를 찾기 위해 직접 움직이는 과정을 통해 정답에 도달하는 것입니다. 이는 사람이 길을 찾을 때 주변을 두리번거리며 단서를 모으는 방식과 똑같습니다.

📊 4. 실험 결과: "움직이는 AI 가 더 똑똑하다"

연구진은 19 개의 최신 AI 모델들을 이 새로운 시험장에 투입해 봤습니다.

  • 결과: 움직일 수 있는 능력 (GeoAoT) 을 부여받은 AI 들은 정답을 맞히는 정확도가 압도적으로 높아졌습니다.
  • 비유: 정지된 사진만 보고 답을 맞히려는 사람보다, 주변을 돌아다니며 단서를 찾는 탐정이 훨씬 더 빠르게 사건을 해결하는 것과 같습니다.
  • 특히, 기존에 잘하지 못하던 AI 들도 이 방식을 쓰면 실력이 크게 향상되었습니다.

🚀 5. 결론: "AI 의 지능이 한 단계 업그레이드됨"

이 연구는 AI 에게 단순히 "보는 것"을 넘어 **"행동하며 추론하는 능력"**을 심어주었습니다.

  • 앞으로 자율 주행 자동차나 재난 구조 로봇이 길을 찾을 때, 단순히 지도 데이터만 보는 게 아니라 주변을 직접 탐색하며 상황을 파악하는 데 이 기술이 쓰일 수 있습니다.
  • 마치 스마트한 여행 가이드처럼, AI 가 "여기가 어디야?"라고 물으면 "잠깐만요, 제가 한 바퀴 돌아보고 간판을 확인해 볼게요"라고 대답하며 정확한 장소를 찾아내는 시대가 온 것입니다.

한 줄 요약:

"기존 AI 는 사진 한 장만 보고 장소를 맞췄다면, 이 연구는 AI 에게 VR 게임처럼 직접 돌아다니며 단서를 찾는 능력을 심어주어, 길을 찾는 정확도를 획기적으로 높였습니다."