A Survey of Reasoning in Autonomous Driving Systems: Open Challenges and Emerging Paradigms

본 논문은 자율주행 시스템의 핵심 병목 현상인 추론 능력의 부재를 해결하기 위해 인지 계층 구조를 제안하고, 대규모 언어 모델 기반의 통합 프레임워크를 체계적으로 분석하며, 지연 시간과 안전성 간의 긴장 관계를 해소할 수 있는 신경-기호적 아키텍처 등 향후 연구 방향을 제시합니다.

Kejin Yu, Yuhan Sun, Taiqiang Wu, Ruixu Zhang, Zhiqiang Lin, Yuxin Meng, Junjie Wang, Yujiu Yang

게시일 2026-03-13
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"자율주행차가 이제 '눈'만 잘 뜨는 것을 넘어, '머리'도 제대로 쓸 수 있어야 한다"**는 메시지를 전하고 있습니다.

기존의 자율주행 기술이 카메라와 센서로 주변을 잘 보는 것 (지각) 에 집중했다면, 이제는 **복잡한 상황에서 인간처럼 생각하고 판단하는 능력 (추론)**이 가장 큰 걸림돌이라는 것입니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


🚗 1. 핵심 문제: "눈은 멀쩡한데, 머리가 멍한 차"

과거의 자율주행차는 마치 완벽한 시력을 가진 운전사 같았습니다. 차선, 신호등, 보행자를 아주 잘 봅니다. 하지만 예상치 못한 상황에 처하면 당황합니다.

  • 예시: 길가에 공이 굴러옵니다.
    • 기존 차: "공이 있네. 멈춰야 하나? 아니면 지나가도 되나?" (규칙만 따짐)
    • 인간 운전사: "공이 굴러갔다면 곧 아이가 따라 나올 거야. 미리 멈춰야지!" (상황을 추론함)

이 논문은 현재 자율주행차가 이 '아이 추론' 단계에서 계속 막히고 있다고 말합니다. 센서 기술은 이미 훌륭하지만, **"왜?"**와 **"만약에?"**를 생각하는 추론 능력이 부족하다는 것이죠.

🧠 2. 새로운 해법: "거인 (LLM) 을 차에 태우다"

이제 거대한 인공지능 모델 (LLM, MLLM) 이 등장했습니다. 이 모델들은 수만 권의 책을 읽고 세상의 상식 (Common Sense) 을 알고 있습니다. 논문의 제안은 이 거인 AI 를 차의 '두뇌'로 삼아 추론 능력을 키워보자는 것입니다.

하지만 거인 AI 를 차에 바로 태우면 문제가 생깁니다.

  • 문제: 거인 AI 는 생각할 때 시간이 오래 걸립니다 (지연 시간). 하지만 차는 밀리초 (0.001 초) 단위로 반응해야 안전합니다.
  • 비유: **천재 수학자 (거인 AI)**가 차를 운전한다고 상상해보세요. 그는 복잡한 상황을 완벽하게 분석할 수 있지만, "빨리! 빨리!"라고 외칠 때 계산하는 데 5 초가 걸린다면 사고가 납니다.

🏗️ 3. 해결책 제안: "3 단계 사고 계층 구조"

저자들은 이 문제를 해결하기 위해 자율주행의 사고 과정을 3 단계로 나누어 정리했습니다.

  1. 반사 신경 단계 (센서 - 모터):
    • 비유: 다리에 박힌 가시를 보고 순간적으로 발을 떼는 것.
    • 차가 장애물을 보면 브레이크를 밟는 기본 반응입니다.
  2. 나 중심 사고 단계 (자신 - 다른 차):
    • 비유: 운전면허 시험을 보는 것. "내 차가 우회전할 때 옆 차가 멈출까?"를 계산합니다.
    • 다른 차의 움직임을 예측하고 내 차의 경로를 계획합니다.
  3. 사회적 지능 단계 (차 - 사회):
    • 비유: 사람들과의 대화눈치 보기.
    • "저 사람이 손을 흔들며 양보해 주는 걸까?", "경찰이 신호등보다 우선이니 경찰 지시를 따라야지" 같은 암묵적인 규칙상식을 이해하는 단계입니다.

현재 기술은 1, 2 단계는 잘하지만, **3 단계 (사회적 지능)**에서는 여전히 인간처럼 유연하게 대처하지 못합니다.

⚔️ 4. 7 가지 주요 난관 (미션)

이 논문을 통해 자율주행이 넘어야 할 7 가지 큰 산을 발견했습니다.

  1. 혼란스러운 신호 처리: 카메라, 레이더, 지도 등 서로 다른 정보를 하나로 합쳐야 합니다. (비유: 여러 언어로 동시에 들리는 소리를 한 문장으로 정리하기)
  2. 눈과 뇌의 불일치: 센서가 잘못 보거나 AI 가 망상 (환각) 을 일으킬 때, 이를 감지하고 수정해야 합니다. (비유: "아, 저건 신호등이 아니라 광고판이네"라고 스스로 깨닫기)
  3. 생각 vs 속도: 깊이 생각하면 느려지고, 빨리 반응하면 실수할 수 있습니다. 이 균형을 잡는 것이 가장 어렵습니다. (비유: 빠른 반사신경깊은 사고를 동시에 쓰는 것)
  4. 판단과 현실의 괴리: "오른쪽으로 가자"라고 생각했는데, 차가 물리적으로 그쪽으로 못 갈 때 (회전 반경 문제 등) 이를 수정해야 합니다.
  5. 드문 상황 (롱테일) 대처: 훈련 데이터에 없던 예상치 못한 상황 (갑작스러운 공사, 이상한 날씨) 에서도 상식으로 대처해야 합니다.
  6. 규칙 준수: 교통법규는 지역마다 다르고, 상황에 따라 예외가 생깁니다. 이를 유연하게 적용해야 합니다.
  7. 사회적 게임: 다른 운전자나 보행자와의 눈치 싸움양보를 이해하고, 내 행동이 왜 그런지 설명할 수 있어야 합니다.

🔮 5. 결론 및 미래: "투명한 유리상자"와 "안전한 두뇌"

이 논문은 앞으로의 자율주행 기술이 다음과 같이 발전해야 한다고 말합니다.

  • 투명한 두뇌 (Glass-box): 차가 왜 그렇게 운전했는지 이유를 설명할 수 있어야 합니다. "왜 멈췄어?"라고 물으면 "공이 굴러갔으니 아이가 나올 수 있어서"라고 대답할 수 있어야 신뢰를 얻습니다.
  • 빠른 반사 + 깊은 사고: 위험할 때는 순간 반사로 피하고, 여유가 있을 때 깊은 사고로 계획을 세우는 이중 시스템이 필요합니다.
  • 상식과 법의 결합: 단순히 법만 지키는 게 아니라, 인간 사회의 암묵적인 규칙까지 이해하는 차가 되어야 합니다.

한 줄 요약:

"자율주행차는 이제 **'눈' (센서)**만 좋은 차가 아니라, **'머리' (추론)**도 좋고, **'눈치' (사회적 지능)**도 있는 완전한 인간 운전사가 되어야 합니다. 이를 위해 거대한 AI 를 차에 태우되, 안전하고 빠르게 생각할 수 있는 새로운 시스템을 만들어야 합니다."