LRR-Bench: Left, Right or Rotate? Vision-Language models Still Struggle With Spatial Understanding Tasks

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"AI 가 정말로 '공간'을 이해하고 있을까?"**라는 아주 중요한 질문을 던지며 시작합니다.

저자들이 만든 **'LRR-Bench'**라는 새로운 시험지를 통해, 최신 AI 모델들이 실제로 사물의 위치나 움직임을 얼마나 잘 파악하는지 실험한 결과, AI 는 여전히 공간 감각이 매우 부족하다는 충격적인 사실을 발견했습니다.

이 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 왜 이 실험이 필요했을까요? (비유: 운전면허 시험)

우리가 자율주행차나 로봇을 만든다고 상상해 보세요. 이 로봇이 길을 가려면 "저기 왼쪽에 차가 있다", "앞으로 5 미터 가면 신호등이 있다", "내가 오른쪽으로 돌아서 이동했다" 같은 공간 감각이 필수적입니다.

기존의 AI 시험들은 주로 "이 사진에서 개가 고양이의 왼쪽에 있니?" 같은 정적인 질문만 냈습니다. 마치 운전면허 시험장에서 "정차선 앞에서 멈추는 법"만 가르치고, "비 오는 날 급커브를 어떻게 도는지"나 "옆차선이 갑자기 좁아지면 어떻게 해야 하는지" 같은 실전 상황은 전혀 가르치지 않은 것과 같습니다.

이 논문은 **"AI 가 진짜로 3 차원 공간에서 움직이는 것을 이해할 수 있는가?"**를 테스트하기 위해, 더 어렵고 현실적인 새로운 시험지 (LRR-Bench) 를 만들었습니다.

2. 시험지에는 어떤 문제가 있었나요? (비유: 3 가지 레벨의 미션)

저자들은 공간 이해 능력을 크게 두 가지로 나누어 시험했습니다.

레벨 1: 절대 위치 찾기 (2D 평면)
- 문제: "사진 속 자동차가 왼쪽 아래 구석에 있나요?"
- 비유: 책상 위에 놓인 사물을 보고 "오른쪽 구석에 있네"라고 말하는 것.
- 결과: AI 는 이 정도는 꽤 잘했습니다. (하지만 인간은 100 점, AI 는 70~80 점 수준)
레벨 2: 3 차원 공간과 움직임 (3D 입체)
- 문제: "카메라가 왼쪽으로 회전했나요?", "사물이 앞으로 움직였나요?", "사물의 머리가 움직이는 방향과 일치하나요?"
- 비유: 이게 핵심입니다. AI 는 마치 눈이 가려진 상태에서 회전하는 방에 있는 사람처럼 느껴졌습니다.
  - 카메라가 움직일 때, AI 는 "아, 내가 돌아갔구나"라고 생각하지 못하고, "사물이 뒤집혔다"거나 "사물이 사라졌다"고 착각합니다.
  - 사물이 움직일 때, AI 는 "사물이 움직였다"기보다 "배경이 움직였다"고 헷갈려 합니다.
- 결과: 대참사였습니다. 대부분의 최신 AI 모델이 이 부분에서 0 점에 가까운 점수를 받았습니다. 인간은 90 점 이상을 받는데, AI 는 거의 무작위 추측 수준이었습니다.

3. 흥미로운 발견들 (비유: "생각해 봐"라는 조언의 함정)

연구팀은 AI 가 더 잘할 수 있는 방법을 몇 가지 시도해 보았습니다.

비유 1: "생각해 봐 (Chain of Thought)"
- AI 에게 "정답을 말하기 전에 먼저 단계별로 생각해 봐"라고 요청했습니다.
- 결과: 간단한 문제에서는 도움이 되지만, 복잡한 공간 문제에서는 오히려 더 나빠졌습니다. 마치 복잡한 미로를 풀 때 "생각해 봐"라고 하면 오히려 혼란스러워져서 더 빨리 길을 잃는 것과 비슷합니다. AI 가 스스로 "생각"하는 과정에서 **환각 (Hallucination)**을 일으켜 엉뚱한 결론을 내렸습니다.
비유 2: "크기가 크면 무조건 좋을까?"
- AI 모델의 크기를 키우거나 (720 억 개 파라미터), 3D 데이터를 더 많이 학습시켰습니다.
- 결과: 크기가 커진다고 해서 공간 감각이 좋아지지 않았습니다. 오히려 특정 훈련을 받은 모델들은 기존 모델보다 더 나쁜 점수를 받기도 했습니다. 이는 "머리가 좋다고 해서 방향 감각이 좋은 건 아니다"라는 뜻입니다.

4. 결론: AI 는 여전히 "눈이 멀다"

이 논문의 핵심 메시지는 다음과 같습니다.

"현재의 AI 는 사진을 보고 '무엇이' 있는지 말하는 것은 잘하지만, '어디에' 있고 '어떻게 움직이는지'를 이해하는 공간 감각은 인간과 비교도 안 될 정도로 부족합니다."

AI 가 자율주행이나 로봇 조작 같은 안전이 중요한 분야에서 쓰이려면, 단순히 언어를 잘 다루는 것을 넘어 진짜 3 차원 공간을 이해하는 능력을 길러야 합니다. 하지만 지금 당장은 AI 가 "왼쪽, 오른쪽, 회전" 같은 기본적인 공간 개념에서도 여전히 헤매고 있다는 것이 이 연구의 결론입니다.

한 줄 요약:

AI 는 "사진 속 개"를 찾는 건 잘하지만, "카메라가 회전할 때 개가 어떻게 보이는지"를 이해하는 데는 여전히 눈이 멀어 있습니다.

LRR-Bench: Left, Right or Rotate? Vision-Language models Still Struggle With Spatial Understanding Tasks

1. 왜 이 실험이 필요했을까요? (비유: 운전면허 시험)

2. 시험지에는 어떤 문제가 있었나요? (비유: 3 가지 레벨의 미션)

3. 흥미로운 발견들 (비유: "생각해 봐"라는 조언의 함정)

4. 결론: AI 는 여전히 "눈이 멀다"

1. 연구 배경 및 문제 정의 (Problem)

2. 제안 방법론 (Methodology)

A. 데이터셋 구축 (Fully Synthetic)

B. 태스크 분류 (Taxonomy)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

LRR-Bench: Left, Right or Rotate? Vision-Language models Still Struggle With Spatial Understanding Tasks

1. 왜 이 실험이 필요했을까요? (비유: 운전면허 시험)

2. 시험지에는 어떤 문제가 있었나요? (비유: 3 가지 레벨의 미션)

3. 흥미로운 발견들 (비유: "생각해 봐"라는 조언의 함정)

4. 결론: AI 는 여전히 "눈이 멀다"

1. 연구 배경 및 문제 정의 (Problem)

2. 제안 방법론 (Methodology)

A. 데이터셋 구축 (Fully Synthetic)

B. 태스크 분류 (Taxonomy)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Compositional Neuro-Symbolic Reasoning

Understanding the Nature of Generative AI as Threshold Logic in High-Dimensional Space

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems