Probing Visual Concepts in Lightweight Vision-Language Models for Automated Driving

이 논문은 자율주행과 관련된 비주얼-언어 모델 (VLM) 의 실패 원인을 분석하기 위해 중간 활성화 상태를 탐지하여 시각적 개념이 선형적으로 인코딩되는지 여부를 검증하고, 이를 '지각적 실패'와 '인지적 실패'로 구분하여 모델의 한계와 개선 방향을 제시합니다.

Nikos Theodoridis, Reenu Mohandas, Ganesh Sistu, Anthony Scanlan, Ciarán Eising, Tim Brophy

게시일 2026-03-09
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"자율주행차의 눈과 뇌가 어떻게 세상을 보고 이해하는지, 그리고 왜 가끔 엉뚱한 실수를 하는지"**를 파헤친 연구입니다.

비유하자면, 자율주행차는 **카메라 (눈)**로 사물을 보고, 그 정보를 **AI 언어 모델 (뇌)**로 해석하여 "앞에 사람이 있나?", "차량이 몇 대야?" 같은 질문에 답합니다. 연구자들은 최신의 작고 가벼운 AI 모델들이 왜 간단한 질문에도 틀리는지 그 원인을 찾기 위해, AI 의 '중간 사고 과정'을 직접 들여다봤습니다.

이 연구의 핵심 내용을 쉬운 비유로 설명해 드릴게요.


1. 연구 방법: "거꾸로 만든 사진"과 "스무스기"

연구자들은 AI 가 혼란스러워하지 않도록, 오직 한 가지 요소만 다른 사진들을 대량으로 만들었습니다.

  • 비유: 마치 "사람이 있는 사진"과 "사람이 없는 사진"을 제외한 모든 배경, 빛, 날씨를 똑같이 만든 거울 속의 쌍둥이 사진 같은 거죠.
  • 목적: AI 가 이 사진들을 볼 때, 뇌의 어느 부분에서 "사람이 있다"는 정보를 처리하는지, 혹은 "사람이 없다"는 것을 놓치는지 정확히 추적하기 위함입니다.

2. 발견한 두 가지 실수 유형: "못 보는 실수" vs "알지만 못 말하는 실수"

AI 가 질문에 틀린 답을 할 때, 그 원인은 크게 두 가지로 나뉩니다. 연구자들은 이를 **'지각 실패 (Perceptual Failure)'**와 **'인지 실패 (Cognitive Failure)'**라고 이름 붙였습니다.

A. 지각 실패 (Perceptual Failure) = "눈이 안 보이는 경우"

  • 상황: AI 의 '눈 (카메라)'이 사물을 제대로 포착하지 못하거나, 그 정보가 '뇌'로 전달되는 과정에서 사라져버린 경우입니다.
  • 비유: 안경을 쓴 사람이 멀리 있는 표지판을 보려는데, 렌즈가 너무 흐릿해서 아예 안 보이는 상황입니다. 정보가 뇌에 도달조차 안 했으니, 아무리 똑똑한 뇌라도 답을 낼 수 없습니다.
  • 원인: 주로 사물이 너무 멀리 있거나 (50m 이상), 사물의 크기가 너무 작을 때 발생합니다.

B. 인지 실패 (Cognitive Failure) = "알지만 못 말하는 경우"

  • 상황: AI 의 '눈'이 사물을 정확히 보고, '뇌'에도 그 정보가 선명하게 저장되어 있는데, 막상 질문에 답할 때 엉뚱한 말을 하는 경우입니다.
  • 비유: 시험 문제를 풀 때 정답을 다 알고 있는데, 막상 답안지에 적을 때 실수로 오답을 고르는 학생과 같습니다. 정보가 뇌에 있긴 하지만, 언어로 변환하는 과정에서 꼬여버린 것입니다.
  • 발견: 이 연구에서 놀라운 점은, AI 가 정답을 알 수 있는 정보가 뇌에 충분히 있음에도 불구하고 (선형적으로 잘 분리되어 있음), 정답을 못 맞추는 경우가 매우 많다는 것이었습니다.

3. 어떤 개념은 잘 배우고, 어떤 개념은 못 배웠나?

연구자들은 AI 가 네 가지 개념을 어떻게 처리하는지 확인했습니다.

  • ✅ 잘하는 것 (사물의 유무): "사람이 있니?" 같은 질문은 AI 가 아주 잘 처리합니다. 눈이 잘 보이고, 뇌에도 명확하게 저장됩니다.
  • ⚠️ 조금 애매한 것 (개수): "사람이 몇 명이니?"는 질문은 거리가 멀어지면 어려워집니다.
  • ❌ 잘 못하는 것 (방향과 위치): "사람이 왼쪽으로 가고 있니?", "트럭의 왼쪽 방향등이 켜졌니?" 같은 공간적, 방향적 개념은 AI 가 매우 어려워합니다.
    • 비유: AI 는 "사람이 있다"는 사실은 알지만, **"그 사람이 왼쪽을 보고 있다"**는 미세한 차이를 뇌의 '언어 영역'으로 옮기는 데 실패합니다. 마치 그림을 그릴 때는 잘 그리는데, 그 그림을 보고 "왼쪽을 보고 있다"고 설명하는 글을 쓰면 엉뚱한 말을 하는 화가 같습니다.

4. 거리 문제는 치명적입니다

사물이 멀어질수록 (5m → 50m) AI 의 성능은 급격히 떨어집니다.

  • 비유: 가까운 곳에 있는 친구 얼굴은 선명하게 보이지만, 50m 떨어진 친구는 그냥 '작은 점'으로 보입니다. AI 는 이 '작은 점'에서 "사람이다"라는 정보를 뽑아내기도 힘들고, 그 사람의 방향까지 파악하는 건 더더욱 어렵습니다.

5. 결론 및 시사점: 왜 이 연구가 중요한가?

이 연구는 자율주행차 개발자들에게 중요한 메시지를 줍니다.

  1. 단순히 모델을 크게 만드는 것만으로는 안 됩니다: AI 가 실수하는 원인이 '눈 (카메라)'의 문제일 수도 있고, '뇌 (언어 처리)'의 문제일 수도 있기 때문입니다.
  2. 원인에 따른 치료법이 다릅니다:
    • 눈이 안 보이는 경우 (지각 실패): 더 좋은 카메라나 이미지 처리 기술을 개발해야 합니다.
    • 알지만 못 말하는 경우 (인지 실패): AI 가 시각 정보를 언어로 변환하는 훈련 방식을 바꿔야 합니다.
  3. 작은 모델도 중요합니다: 자율주행차는 무거운 컴퓨터를 달고 다닐 수 없으므로, 작고 가벼운 AI 모델을 써야 하는데, 이 연구는 바로 그 '작은 모델'들이 어디서 막히는지 찾아냈습니다.

한 줄 요약:

"자율주행 AI 는 사물이 있는지 없는지는 잘 알지만, **'어디에', '어떤 방향'**으로 있는지 같은 미세한 공간 감각을 언어로 설명하는 데는 여전히 서툴러서, 때로는 정보를 잃어버리기도 하고 때로는 알면서도 엉뚱한 답을 하기도 합니다."

이 연구는 AI 의 실수를 단순히 "못해서"가 아니라, "어떤 단계에서, 왜" 실패하는지 정확히 진단하여 더 안전한 자율주행 기술을 만드는 데 기여하고 있습니다.