GeoSense: Internalizing Geometric Necessity Perception for Multimodal Reasoning

이 논문은 멀티모달 언어 모델이 2D 단서만으로는 부족하다고 판단할 때 기하학적 정보를 자율적으로 활성화하여 공간 추론 능력을 향상시키는 'GeoSense' 프레임워크를 제안합니다.

Ruiheng Liu, Haihong Hao, Mingfei Han, Xin Gu, Kecheng Zhang, Changlin Li, Xiaojun Chang

게시일 2026-03-12
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

지오센스 (GeoSense): "필요할 때만 3D 안경을 쓰는 똑똑한 AI"

이 논문은 Multimodal Large Language Models(MLLMs, 멀티모달 거대 언어 모델) 이 가진 공간 이해 능력의 한계를 해결하기 위해 개발된 새로운 기술, GeoSense에 대해 설명합니다.

기존의 AI 는 마치 "항상 3D 안경을 끼고 사는 사람"과 같습니다. 책상 위의 물건을 찾는 간단한 질문을 할 때도 3D 깊이 정보를 무조건 계산해서 시간을 낭비하거나, 오히려 그 정보가 방해가 되어 엉뚱한 답을 내놓기도 합니다.

GeoSense는 이 문제를 해결하기 위해 "상황을 파악해서 3D 안경을 필요할 때만 끼는" 능력을 AI 에 심어주었습니다.


1. 왜 이런 기술이 필요한가요? (기존의 문제점)

기존 AI 모델들은 3D 공간 정보를 처리할 때 두 가지 극단적인 태도를 보였습니다.

  • 무조건 무시: 3D 정보를 아예 안 보고 2D 이미지 (평면 사진) 만으로 추측합니다. "소파가 내 앞쪽 왼쪽에 있나?" 같은 질문에는 엉뚱한 답을 내놓습니다.
  • 무조건 사용: 어떤 질문이든 3D 정보를 무조건 끼워 넣습니다. "이 사진에 고양이가 몇 마리야?" 같은 간단한 질문에도 3D 깊이를 계산하느라 뇌를 피곤하게 만들고, 때로는 그 복잡한 계산이 오히려 방해가 되어 실수를 합니다.

비유하자면:

"집에서 컵을 찾으라고 할 때, 3D 안경을 끼고 천천히 방 전체를 스캔하는 것과 같습니다. 컵은 바로 눈앞에 있는데 말이죠. 반면, '소파가 어디에 있나?'라고 물었을 때는 3D 안경 없이 평면 그림만 보고 '저기 있겠지'라고 추측하는 것이죠. 기존 AI 는 이 두 가지를 구분하지 못했습니다."

2. GeoSense 는 어떻게 해결하나요? (핵심 아이디어)

GeoSense 는 AI 에게 **"내 감각이 부족할지 스스로 판단하는 능력 (Internal Sense Perception)"**을 길러줍니다.

  • 스스로 판단: AI 는 질문과 이미지를 보고 "이 문제는 2D 정보만으로도 충분해"라고 생각하면 2D 로만 답하고, "아, 이건 3D 깊이를 봐야 정확히 알 수 있겠군"이라고 판단하면 그때서야 3D 정보를 불러옵니다.
  • 필요할 때만 사용: 3D 정보는 마치 비상용 도구처럼 평소에는 꺼져 있다가, 정말 필요할 때만 꺼내 쓰는 방식입니다.

3. 어떻게 가르쳤나요? (두 단계 훈련 과정)

이 똑똑한 판단력을 가르치기 위해 연구자들은 두 단계의 훈련을 시켰습니다.

1 단계: 3D 정보와의 친해지기 (정렬 훈련)

먼저, AI 가 2D 이미지와 3D 깊이 정보를 각각 따로따로 잘 이해하도록 가르칩니다. 마치 새로운 언어 (3D 정보) 를 배우는 것처럼, 이 정보를 AI 가 기존에 알던 언어 (이미지, 텍스트) 와 자연스럽게 섞어서 이해할 수 있게 만듭니다. 이때는 3D 정보를 무조건 다 쓰게 합니다.

2 단계: '필요성'을 깨우치기 (지각 훈련)

이제 가장 중요한 단계입니다. 연구자들은 수만 개의 문제를 AI 에게 두 번 풀게 했습니다.

  1. 3D 정보 없이 풀기
  2. 3D 정보를 넣고 풀기

그리고 결과를 비교했습니다.

  • 3D 정보가 없으면 틀리고, 있으면 맞은 경우: "아, 이 문제는 3D 안경이 필수구나!"라고 가르칩니다. (예: "소파가 내 앞에서 얼마나 떨어져 있나?")
  • 3D 정보가 없어도 맞고, 있으면 오히려 틀린 경우: "이 문제는 3D 안경을 쓰면 오히려 방해가 되네! 그냥 2D 로만 봐야 해."라고 가르칩니다. (예: "이 문서에 숫자가 몇 개야?")

이 과정을 통해 AI 는 스스로 "이건 3D 가 필요해"라고 말하거나 ( 토큰을 사용), "아니야, 2D 로 충분해"라고 판단하는 능력을 익히게 됩니다.

4. 어떤 효과가 있나요?

실험 결과, GeoSense 는 놀라운 성과를 보였습니다.

  • 공간 추론 능력 대폭 향상: "소파가 내 왼쪽 앞쪽에 있나?" 같은 복잡한 공간 질문에서 기존 모델보다 훨씬 정확해졌습니다.
  • 일반 능력 유지: 3D 정보를 쓸 필요가 없는 "문서 읽기"나 "수학 문제" 같은 일반 질문에서는 3D 정보를 쓰지 않아서, 오히려 기존 모델들보다 더 빠르고 정확하게 답했습니다.
  • 효율성: 불필요한 3D 계산을 하지 않으므로 컴퓨터 자원도 아끼고, 답변 속도도 빨라졌습니다.

5. 실제 사례 (Case Study)

논문 속 예시를 보면 다음과 같은 모습이 나옵니다.

  • 상황 A (고양이 찾기): "사진에 진짜 고양이가 몇 마리야?"라고 물었을 때, 거울에 비친 고양이와 진짜 고양이를 구분하기 위해 AI 가 스스로 "3D 정보를 필요로 합니다 ()"라고 말하며 3D 안경을 끼고 정답을 맞췄습니다.
  • 상황 B (의자 찾기): "의자가 있니?"라고 물었을 때, 3D 정보가 방해가 될 수 있다는 것을 알고 3D 정보를 쓰지 않고 2D 정보만으로 정답을 냈습니다.

요약

GeoSense는 AI 에게 "항상 3D 안경을 끼는 것"이 아니라, **"상황을 보고 필요할 때만 3D 안경을 끼는 지혜"**를 심어준 기술입니다.

이는 마치 현명한 요리사와 같습니다.

  • 간단한 샐러드를 만들 때는 손만 쓰지만 (2D 만 사용),
  • 정교한 스테이크를 굽는 때는 온도계와 타이머를 꼭 챙겨 쓰는 (3D 정보 활용) 것처럼,
    작업의 성격에 따라 가장 적절한 도구를 선택하는 능력을 가진 AI 를 만들었다는 점이 이 연구의 가장 큰 성과입니다.

이 기술은 자율주행, 로봇, 그리고 우리 일상의 AI 비서들이 더 똑똑하고 효율적으로 작동하는 데 큰 도움이 될 것입니다.