Interpretable Perception and Reasoning for Audiovisual Geolocation

이 논문은 시각적 모호성을 극복하고 정밀한 전역 지리 위치 추정을 가능하게 하기 위해, 음향 신호를 의미 있는 '음향 원자'로 분해하고 멀티모달 추론을 결합한 해석 가능한 '오디오비주얼 지리 위치 추정 (AVG)' 프레임워크와 대규모 벤치마크를 제안합니다.

Yiyang Su, Xiaoming Liu

게시일 2026-03-09
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"소리와 영상을 함께 듣고 보며, 그 장소를 정확히 찾아내는 인공지능"**에 대한 연구입니다.

기존의 지도 앱이나 위치 찾기 기술은 주로 **눈으로 보는 것 (영상)**에만 의존했습니다. 하지만 세상은 눈으로만 보는 것보다 훨씬 복잡합니다. 이 논문은 **"귀 (소리)"**를 함께 활용하면 훨씬 더 정확하게 장소를 찾을 수 있다는 것을 증명했습니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드리겠습니다.


1. 왜 소리가 필요한가요? (눈만으로는 부족해요)

상상해 보세요. 런던의 공원과 뉴욕의 공원을 눈으로만 본다면 어떨까요?

  • 눈 (영상): 둘 다 나무가 있고, 벤치가 있고, 잔디가 깔려 있습니다. AI 가 보기에 두 곳은 거의 똑같아 보입니다.
  • 귀 (소리): 하지만 소리는 완전히 다릅니다.
    • 런던 공원: 더블데커 버스의 엔진 소리, 교회 종소리, 영국 특유의 새 소리.
    • 뉴욕 공원: 지하철이 지나는 진동 소리, 사이렌 소리, 미국 특유의 새 소리.

기존 기술은 "눈"만 믿다가 런던과 뉴욕을 헷갈려 했습니다. 이 논문은 **"소리는 소음처럼 들릴지라도, 그 안에 숨겨진 '지역의 비밀'을 알려주는 열쇠"**라고 말합니다.

2. 이 연구의 핵심 도구: 'AVG'라는 거대한 도서관

연구를 하기 위해서는 먼저 학습할 자료가 필요했습니다. 하지만 인터넷에 있는 영상들은 대부분 배경음악이 깔려 있거나, 목소리가 섞여 있어 실제 환경 소리를 구별하기 어렵습니다.

저희는 **AVG(오디오비주얼 지오로케이션)**라는 새로운 데이터셋을 만들었습니다.

  • 비유: 마치 전 세계 1,000 개 도시의 거리를 20,000 개나 되는 '생생한 현장 녹음 영상'으로 채워 넣은 거대한 도서관입니다.
  • 특징: 이 도서관의 영상들은 배경음악 없이, 오직 그 장소에서 들리는 진짜 소리 (바람 소리, 차 소리, 새 소리) 만 담겨 있습니다.

3. 어떻게 작동하나요? (3 단계 프로세스)

이 인공지능은 3 단계로 생각하며 장소를 찾아냅니다.

1 단계: 청각 해부학 (Perception) - "소리를 알파벳으로 쪼개기"

환경 소리는 여러 소리가 섞인 '잡음'입니다. 예를 들어, "바람 소리 + 사이렌 + 새 소리"가 동시에 들립니다.

  • 비유: 이 단계는 소리를 레고 블록처럼 쪼개는 작업입니다.
  • 작동: 복잡한 소리를 분석해서 "아, 이건 '사이렌' 블록이고, 저건 '새' 블록이구나"라고 식별합니다. 이를 '소리 원자 (Acoustic Atoms)'라고 부릅니다.
  • 효과: 소음 속에서 중요한 단서 (예: 유럽 특유의 사이렌 소리) 만 골라냅니다.

2 단계: 추리 (Reasoning) - "수사관처럼 생각하기"

이제 AI 는 눈으로 본 것 (나무, 건물) 과 귀로 쪼개서 얻은 소리 (사이렌, 새) 를 합쳐서 추리합니다.

  • 비유: 수사관이 되어 "이 나무는 미국과 영국 모두에 있지만, 저 사이렌 소리는 영국 특유의 2 톤 패턴이고, 저 새는 유럽에만 사는 '붉은가슴새'야. 그러니까 이 장소는 뉴욕이 아니라 런던이겠구나!"라고 결론을 내립니다.
  • 기술: 거대 언어 모델 (LLM) 을 훈련시켜, 단순히 숫자를 맞추는 게 아니라 이유를 설명하며 장소를 찾아내게 했습니다.

3 단계: 정밀 위치 찍기 (Prediction) - "지구 위에 점 찍기"

마지막으로 추리한 내용을 바탕으로 지구라는 구 (球) 위에 정확한 좌표를 찍습니다.

  • 비유: 지구는 평평한 종이 (평면) 가 아니라 둥근 공입니다. 평면에서 계산하면 오차가 생길 수 있습니다. 이 단계는 지구라는 공의 곡률을 고려하여 가장 확률이 높은 장소를 찾아냅니다.

4. 결과는 어땠나요?

  • 눈만 보는 AI: 도시를 맞추는 정확도가 약 6.8% 였습니다.
  • 귀만 듣는 AI: 약 5.2% 였습니다. (소리는 시각보다 정보가 적지만, 그래도 꽤 잘합니다.)
  • 눈 + 귀 (이 연구): **8.3%**로 정확도가 크게 향상되었습니다.

핵심 발견:
시각 정보가 모호할 때 (예: 똑같은 공원), 소리가 결정적인 단서가 되어 정답을 찾아냈습니다. 마치 미스터리 소설에서 눈으로 본 단서만으로는 범인을 잡을 수 없었을 때, 범인의 목소리 톤이 결정적인 단서가 되는 것과 같습니다.

요약

이 논문은 **"소리를 단순히 배경음악이 아니라, 위치를 찾는 중요한 단서로 활용하자"**고 제안합니다.

  1. **새로운 도서관 (AVG 데이터셋)**을 만들어 전 세계 소리를 학습시켰습니다.
  2. 소리를 알파벳처럼 쪼개고 (해부), **눈과 합쳐서 추리 (수사)**하며, 지구 곡률을 고려해 위치를 찍는 (정밀 측정) 3 단계 시스템을 개발했습니다.
  3. 그 결과, 혼란스러운 환경에서도 훨씬 더 정확하게 장소를 찾아낼 수 있게 되었습니다.

이 기술은 재난 구조, 디지털 증거 분석, 혹은 우리가 어디에 있는지 모를 때 스마트폰이 소리를 듣고 "여기는 아마도 파리의 어느 공원일 거예요"라고 알려주는 미래 기술의 기초가 될 것입니다.