An Overview about Emerging Technologies of Autonomous Driving

이 논문은 2004 년 DARPA 그랜드 챌린지 이후 AI 응용 분야에서 가장 활발한 자율주행 기술의 주요 분야와 개방된 문제들을 데이터 폐쇄 루프 프레임워크를 통해 종합적으로 개관하고 있습니다.

Yu Huang, Yue Chen, Zijiang Yang

게시일 2026-03-12
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **'자율주행 자동차가 어떻게 배우고 성장하는지'**에 대한 거대한 지도를 그려주는 보고서입니다. 단순히 "차가 스스로 운전한다"는 것을 넘어, 그 뒤에는 어떤 기술들이 작동하고, 어떤 난관들이 있으며, 앞으로 어떻게 발전할지 설명합니다.

이 내용을 일반인이 쉽게 이해할 수 있도록 한 마디로 요약하면 다음과 같습니다:

"자율주행차는 이제 '천재'가 되려고 노력 중인데, 그 비결은 '데이터라는 식량'을 먹고 '시뮬레이션이라는 연습장'에서 수만 번의 실수를 반복하며 배우는 것입니다."

이제 각 부분을 일상적인 비유로 풀어서 설명해 드릴게요.


1. 자율주행의 레벨: "운전면허 등급"

논문의 시작은 자율주행의 수준을 설명합니다.

  • 레벨 1~2: 운전자가 핸들을 잡고 있지만, 차가 차선 유지나 속도 조절을 도와주는 '조수석에 앉은 운전 보조' 상태입니다.
  • 레벨 3: 차가 운전할 때 운전자는 잠깐 눈을 감아도 되지만, 차가 "제발 도와줘!"라고 외치면 바로 개입해야 합니다. **'잠깐 졸 수 있는 운전'**입니다.
  • 레벨 4~5: 차가 완전히 스스로 운전합니다. 운전자는 차 안에서 책을 읽거나 잠을 자도 됩니다. **'완전 자동 운전'**입니다.

2. 차의 눈과 뇌: "센서와 컴퓨터"

차가 주변을 보는 방법은 크게 세 가지입니다.

  • 자세 센서 (Proprioceptive): 차 자신의 속도나 방향을 아는 것 (눈을 감고도 팔이 어디 있는지 아는 느낌).
  • 위치 센서 (Localization): GPS 로 "지금 어디에 있나?"를 아는 것.
  • 주변 센서 (Exteroceptive): 카메라 (눈), 라이다 (레이저 눈), 레이더 (초음파) 를 통해 앞차나 보행자를 보는 것.

이 모든 정보를 받아들이고 "지금 어떻게 핸들을 돌릴까?"를 결정하는 것이 **컴퓨터 (뇌)**의 역할입니다.

3. 핵심 기술 3 대장: "눈, 예측, 결정"

A. 지각 (Perception): "주변을 보는 눈"

과거에는 카메라와 라이다가 따로따로 정보를 주면 사람이 직접 합쳤다면, 지금은 BEV(새의 눈) 기술이 대세입니다.

  • 비유: 여러 각도에서 찍은 사진을 한 장의 **지도 (새의 눈)**로 합쳐서 보는 것입니다. 이렇게 하면 차가 3D 공간에서 물체의 위치를 훨씬 정확하게 파악할 수 있습니다.
  • 최근에는 3D 점유 네트워크라는 기술이 등장했는데, 이는 주변 공간의 빈 공간과 물체를 입체적으로 채워 넣는 **'가상 레고 블록'**을 쌓는 것과 같습니다.

B. 예측 (Prediction): "앞으로 무슨 일이 일어날까?"

차가 단순히 현재만 보는 게 아니라, 옆차나 보행자가 앞으로 어떻게 움직일지를 예측합니다.

  • 비유: 축구 경기에서 공을 차는 순간, 다른 선수들이 어디로 달릴지 미리 상상하는 **'공감각'**입니다.
  • 최근에는 크루즈 (Cruise) 같은 회사가 '미래를 과거로 되돌아보는 (Self-supervision)' 방식을 써서, 차가 스스로 수많은 상황을 학습하게 합니다.

C. 계획 및 제어 (Planning & Control): "어떻게 운전할까?"

예측한 정보를 바탕으로 "이 차선을 유지할까, 차선을 바꿀까?"를 결정하고 핸들과 브레이크를 조작합니다.

  • 규칙 기반: "빨간불이면 멈춰라"처럼 정해진 규칙을 따르는 것.
  • 학습 기반: 인간 운전자가 어떻게 운전하는지 모방 학습을 하거나, 시행착오를 통해 스스로 배우는 강화 학습을 하는 것입니다.

4. 가장 중요한 비밀: "데이터 폐쇄 루프 (Data Closed Loop)"

이 논문의 가장 핵심적인 메시지는 **'데이터의 순환'**입니다. 자율주행은 한 번 만들고 끝나는 게 아니라, 계속 배우는 과정입니다.

  1. 수집: 실제 차가 도로를 달리며 데이터를 모읍니다.
  2. 선별: 그중에서 **특별한 상황 (예: 비 오는 날의 자전거, 갑자기 튀어나온 개)**을 찾아냅니다. 이를 '꼬리 부분 (Long-tail)' 문제라고 부릅니다.
  3. 학습: 이 특별한 데이터를 컴퓨터에게 가르쳐 모델을 업데이트합니다.
  4. 배포: 업데이트된 모델을 다시 실제 차에 넣습니다.

이 과정이 **고리 (Loop)**처럼 계속 돌아가야 차가 똑똑해집니다.

5. 시뮬레이션: "가상 현실 연습장"

실제 도로에서 사고를 내며 배우는 건 위험하고 비쌉니다. 그래서 **시뮬레이션 (가상 현실)**을 씁니다.

  • 비유: 비행 조종사가 실제 비행기 타기 전에 비행 시뮬레이터에서 수만 번의 착륙 연습을 하는 것과 같습니다.
  • 최근에는 UniSim 같은 기술로 실제 도로의 장면을 디지털로 완벽하게 복제 (디지털 트윈) 해서, 가상의 세계에서 다양한 상황을 만들어내며 훈련시킵니다.

6. 안전: "블랙박스 문제 해결"

인공지능은 왜 그런 결정을 내렸는지 설명하기 어려운 '블랙박스'입니다.

  • 비유: 요리사가 "왜 이 요리에 소금을 넣었는지" 설명하지 못하면 우리는 불안합니다.
  • 이를 해결하기 위해 ISO 26262 같은 안전 표준과 **SOTIF(의도된 기능의 안전)**라는 새로운 기준이 생겼습니다. 인공지능이 실수할 수 있는 '악의적인 공격 (Adversarial attack)'이나 '예상치 못한 상황'에 대비하는 훈련이 필요합니다.

7. 미래: "거대 모델 (Foundation Models) 의 등장"

마지막으로, 최근 화두인 **ChatGPT 같은 거대 언어 모델 (LLM)**이 자율주행에 들어오면 어떻게 될까요?

  • 비유: 기존 자율주행은 '운전 규칙을 외운 학생'이었다면, 거대 모델을 도입하면 **'운전 경험과 상식을 갖춘 성인'**이 됩니다.
  • Agent Driver 같은 개념은 차가 단순히 길을 찾는 게 아니라, "비행기 타고 갈까?" 같은 인간의 상식과 추론 능력을 갖추고 복잡한 상황을 해결할 수 있게 됩니다.

💡 한 줄 요약

이 논문은 **"자율주행차가 이제 단순한 기계가 아니라, 데이터를 먹고 시뮬레이션에서 연습하며, 거대 인공지능의 상식을 바탕으로 스스로 성장하는 '살아있는 학습체'로 변모하고 있다"**고 말합니다.

앞으로 우리는 차가 운전하는 것을 넘어, 차가 그렇게 운전했는지 이해하고, 상식을 가진 차와 함께 여행하게 될 것입니다.