Seeing Isn't Orienting: A Cognitively Grounded Benchmark Reveals Systematic Orientation Failures in MLLMs Supplementary

이 논문은 기존 벤치마크가 방향성 이해를 제대로 평가하지 못한다는 점을 지적하며, 인간 인지에 기반한 계층적 벤치마크 'DORI'를 제안하고 최신 멀티모달 모델들이 객체 중심 방향성 추론에서 체계적인 실패를 보임을 입증했습니다.

Nazia Tasnim, Keanu Nichols, Yuting Yang, Nicholas Ikechukwu, Elva Zou, Deepti Ghadiyaram, Bryan A. Plummer

게시일 2026-03-13
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"MLLM(멀티모달 대형 언어 모델) 은 물체를 '보는' 것만으로는 그 방향을 제대로 이해하지 못한다"**는 놀라운 사실을 발견한 연구입니다.

쉽게 비유하자면, AI 가 사진 속 사물을 '인식'하는 능력은 뛰어나지만, 그 사물이 '어떤 자세'로 서 있는지, 혹은 '어느 쪽을 보고' 있는지 이해하는 능력은 여전히 매우 초보적이라는 이야기입니다.

이 내용을 일상적인 언어와 재미있는 비유로 설명해 드릴게요.


1. 연구의 배경: "눈은 멀쩡한데, 방향감각은 왜 안 좋을까?"

우리는 사진을 보면 "저 차는 카메라를 향해 오고 있구나" 혹은 "저 의자는 옆으로 돌아있네"라고 금방 알 수 있습니다. 하지만 최신 AI 모델들은 이 간단한 질문에도 엉뚱한 답을 내놓습니다.

기존의 AI 테스트들은 "물체가 어디에 있나?", "무엇인가?" 같은 큰 그림을 물어봤습니다. 하지만 이 연구팀은 **"AI 가 물체의 방향을 얼마나 정확히 이해하는가?"**에 집중한 새로운 시험지, **'DORI'**를 만들었습니다.

2. DORI 란 무엇인가? (AI 의 '방향 감각' 시험지)

이 연구팀은 인간이 방향을 이해하는 과정을 4 단계로 나누어 AI 를 시험했습니다. 마치 운전 면허 시험에서 '좌회전', '우회전', '역주행'을 구분하듯이 말이죠.

  1. 얼굴 보기 (Frontal Alignment): "저 물체가 카메라를 보고 있니, 아니면 등을 보이고 있니?"
    • 비유: 친구가 당신을 보고 있는지, 뒷모습만 보이고 있는지 구별하는 것.
  2. 회전하기 (Rotational Transformation): "이 의자를 카메라 쪽으로 돌리려면 얼마나 돌려야 할까?"
    • 비유: 마당에 있는 의자를 테이블 쪽으로 돌릴 때, 몇 도를 돌려야 하는지 머릿속으로 시뮬레이션하는 것.
  3. 서로 보기 (Relative Orientation): "저 두 자동차가 서로를 보고 있니, 아니면 같은 방향을 보고 있니?"
    • 비유: 두 사람이 서로 마주 보고 있는지, 아니면 나란히 서 있는지 파악하는 것.
  4. 자연스러운 자세 (Canonical Orientation): "이 컵이 거꾸로 뒤집혀 있진 않니?"
    • 비유: 컵은 입구가 위로, 바닥이 아래로 있어야 '정상'인데, 거꾸로 되어 있으면 이상하다는 것을 아는 것.

3. 놀라운 결과: AI 는 여전히 '방향 감각'이 부족하다

연구팀은 24 개의 최신 AI 모델에게 이 시험을 보게 했습니다. 결과는 충격적이었습니다.

  • 일반적인 공간 감각은 좋지만, 방향 감각은 엉망: AI 는 "물체가 왼쪽에 있다"는 건 잘 알아맞히지만, "물체가 45 도 각도로 기울어져 있다"거나 "어느 쪽을 보고 있다"는 건 거의 무작위 추측 (동전 던지기) 수준이었습니다.
  • 단순한 건 잘하지만, 복잡한 건 못함: "앞을 보고 있니?" 같은 쉬운 문제는 잘 풀었지만, "이 물체를 90 도 돌린 후 다시 180 도 뒤집으면 어떻게 될까?" 같은 복잡한 회전 문제는 완전히 망쳤습니다.
  • 가장 큰 문제는 '서로 보기': 두 물체가 서로를 향해 있는지 판단하는 문제는 AI 가 가장 어려워했습니다. 마치 거울 속의 나를 보고 내가 누구인지 모른 채, 옆에 있는 사람과 내가 서로 마주 보고 있는지 헷갈리는 것과 같습니다.

4. 왜 이런 일이 일어날까? (AI 의 두뇌 구조 문제)

연구팀은 AI 가 방향을 이해하지 못하는 이유를 인간의 뇌와 AI 의 뇌가 다르기 때문이라고 설명합니다.

  • 인간의 뇌: 우리는 물건을 들거나, 돌리거나, 주변을 돌아다니며 (신체 경험) 방향감을 자연스럽게 배웁니다.
  • AI 의 뇌: AI 는 수많은 사진과 텍스트를 '읽고' 패턴을 외웠을 뿐, 물리적으로 물건을 돌려본 경험이 없습니다.
    • 비유: 요리 책만 100 권 읽은 요리사는 '소금'이 무엇인지, '불'이 무엇인지 말로 설명할 수는 있어도, 실제로 소금을 넣고 불을 조절하며 요리를 해본 적은 없습니다. 그래서 "소금 3g 을 넣고 5 분 동안 끓여라"라는 지시를 들으면, 소금의 양이나 시간의 흐름을 직관적으로 이해하지 못해 엉뚱한 요리를 만들어냅니다.

5. 이 연구가 중요한 이유

이 발견은 로봇 공학이나 증강현실 (AR) 같은 분야에서 매우 중요합니다.

  • 로봇 팔: 로봇이 컵을 잡으려면 컵의 손잡이가 어느 쪽을 보고 있는지 정확히 알아야 합니다. 방향을 모르면 컵을 엎어뜨리거나 잡을 수 없습니다.
  • 자율주행: 차가 옆차와 충돌하지 않으려면, 옆차가 어느 방향으로 가고 있는지, 그리고 그 차가 나를 보고 있는지 등을 정확히 파악해야 합니다.

6. 결론: "보는 것 (Seeing) 은 방향을 아는 것 (Orienting) 이 아니다"

이 논문의 핵심 메시지는 **"AI 가 물체를 '인식'할 수 있다고 해서, 그 물체의 '방향'과 '자세'를 이해하는 것은 아니다"**라는 것입니다.

현재의 AI 는 사진 속의 개를 '개'라고 부르는 건 잘하지만, 그 개가 "누군가를 향해 달려가고 있는지, 아니면 그냥 서 있는지"를 깊이 있게 이해하지는 못합니다. AI 가 진짜로 현실 세계를 이해하고 로봇처럼 행동하려면, 단순히 더 많은 데이터를 학습하는 것을 넘어, 방향과 공간에 대한 새로운 학습 방식이 필요하다는 것을 이 연구는 보여줍니다.

한 줄 요약:

AI 는 사진 속 사물을 '이름' 부르는 건 천재지만, 그 사물이 '어느 쪽을 보고' 있는지 '어떻게 돌아있는지'를 이해하는 건 여전히 초보생입니다.