DAP: A Discrete-token Autoregressive Planner for Autonomous Driving

이 논문은 BEV 시맨틱과 자차 궤적을 동시에 예측하는 이산 토큰 자기회귀 방식과 강화학습 기반 미세 조정을 통해, 160M 파라미터의 경량 모델로도 자율주행 계획 분야에서 최첨단 성능을 달성한 DAP 를 제안합니다.

Bowen Ye, Bin Zhang, Hang Zhao

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🚗 DAP: 자율주행차를 위한 '미래를 읽는 예지몽'

이 논문은 자율주행차가 길을 어떻게 더 똑똑하고 안전하게 달릴 수 있을지 고민한 연구입니다. 연구팀이 제안한 새로운 방법의 이름은 DAP입니다.

기존의 자율주행 기술이 "지금 보이는 것을 보고 앞으로 5 초를 예측한다"는 방식이었다면, DAP 는 **"미래의 풍경을 상상하면서 동시에 차가 어떻게 움직일지 결정한다"**는 새로운 접근법을 취합니다.

이 복잡한 기술을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 기존 방식 vs DAP 방식: "지도 보는 사람"과 "미래를 보는 점술사"

  • 기존 방식 (비자율적 모델):
    마치 정해진 길만 따라가는 택시 기사와 같습니다. "앞에 차가 있으니 멈춰라", "좌회전 신호가 있으니 돌아라"라고 명령을 받으면 즉시 반응합니다. 하지만 "왜?"라는 깊은 생각이나 "앞으로 3 초 뒤에 저 차가 어떻게 변할까?"라는 시나리오를 미리 그려보지 않습니다. 그래서 갑작스러운 상황에는 당황하기 쉽습니다.

  • DAP 방식 (자율적 모델):
    DAP 는 미래를 미리 보는 점술사이자 유능한 운전 기사가 합쳐진 존재입니다.

    1. 미래의 풍경을 상상합니다: "지금 이대로 가면 3 초 뒤에 저기 차가 멈출 거야, 그리고 보행자가 길을 건널 거야"라고 **미래의 도로 풍경 (BEV)**을 먼저 그립니다.
    2. 그림에 맞춰 움직입니다: "아, 저렇게 될 거라면 내가 지금 살짝 우회전해서 피하는 게 좋겠네"라고 **자신의 움직임 (궤적)**을 결정합니다.

이처럼 미래의 장면을 먼저 상상하고, 그 장면에 맞춰 움직임을 결정하기 때문에 훨씬 더 안전하고 자연스러운 주행을 할 수 있습니다.

2. 핵심 기술: "조각난 퍼즐"로 미래를 예측하다

DAP 는 복잡한 영상을 그대로 분석하는 대신, 정보를 **작은 조각 (토큰)**으로 잘게 나누어 처리합니다.

  • 비유: 마치 거대한 퍼즐을 맞추는 것과 같습니다.
    • 기존 방식은 퍼즐 전체를 한 번에 보려고 하다가 헷갈리기도 합니다.
    • DAP 는 퍼즐 조각 하나하나를 **숫자나 기호 (이산 토큰)**로 변환합니다. "여기는 차가 있다 (조각 A)", "저기는 보행자가 있다 (조각 B)"처럼 말이죠.
    • 그리고 이 조각들을 한 줄로 나열해서, "앞에 조각 A 가 오면 다음에 조각 B 가 올 확률이 높다"는 식으로 문장처럼 미래를 예측합니다.
    • 이 덕분에 컴퓨터가 훨씬 빠르게, 그리고 효율적으로 미래를 계산할 수 있습니다.

3. 두 단계 학습: "모방"에서 "스스로 배우기"로

DAP 는 두 가지 단계를 거쳐서 성장합니다.

  1. 1 단계: 모방 학습 (BC)

    • 비유: 유능한 운전 강사의 운전 영상을 보고 그대로 따라 하는 단계입니다.
    • 강사가 어떻게 핸들을 돌리고 브레이크를 밟는지, 어떻게 차선을 지키는지 완벽하게 흉내 냅니다. 이때부터 DAP 는 기본적인 운전 실력을 갖춥니다.
  2. 2 단계: 강화 학습 (SAC-BC)

    • 비유: 운전 면허 시험을 치르거나 경험을 통해 배우는 단계입니다.
    • 단순히 따라 하는 것만으로는 위험한 상황을 피하기 어렵습니다. 예를 들어, "강사가 왼쪽으로 살짝 비켜서 지나갔지만, 사실은 오른쪽으로 피하는 게 더 안전했다"는 상황을 학습해야 합니다.
    • DAP 는 **"안전 점수 (보상)"**를 받습니다. "사고 없이 지나가면 점수 UP!", "불필요하게 급정거하면 점수 DOWN!"처럼요.
    • 이렇게 점수를 받으며 스스로 더 안전한 선택을 하도록 훈련받습니다. 그래서 강사의 실수를 그대로 따라 하지 않고, 상황에 맞춰 더 똑똑하게 대처할 수 있게 됩니다.

4. 왜 DAP 가 특별한가요?

  • 작지만 강력합니다: 다른 최신 모델들은 거대한 뇌 (수십 억 개의 파라미터) 를 필요로 하지만, DAP 는 **상대적으로 작은 뇌 (1 억 2 천만 개)**로도 최고의 성능을 냅니다. 마치 작지만 영리한 고양이가 거대한 곰보다 민첩한 것과 같습니다.
  • 안전하고 편안합니다: 단순히 목적지만 가는 게 아니라, 승객이 느끼는 **불쾌감 (흔들림)**을 줄이고 **안전 규칙 (신호, 차선)**을 철저히 지키도록 훈련되었습니다.
  • 실제 도로에서도 잘합니다: 컴퓨터 시뮬레이션뿐만 아니라, 실제 도로 상황을 가정한 테스트에서도 최상위권의 성적을 거두었습니다.

요약

DAP는 자율주행차에게 **"미래의 풍경을 먼저 상상해보고, 그 그림에 맞춰 스스로 판단하여 운전하라"**는 새로운 철학을 심어준 기술입니다.

기존의 "보고 반응하기"를 넘어, **"상상하고 결정하기"**로 발전시킨 이 기술은 앞으로 우리가 더 안전하고 편안하게 자율주행차를 탈 수 있는 열쇠가 될 것입니다. 마치 운전대 뒤에 앉은 미래를 읽는 영리한 조수가 함께 달리는 것과 같습니다.