KnowDiffuser: A Knowledge-Guided Diffusion Planner with LM Reasoning and Prior-Informed Trajectory Initialization

이 논문은 언어 모델의 의미적 추론 능력과 확산 모델의 생성적 힘을 통합하여 자율주행의 의미-물리 간극을 해소하고, nuPlan 벤치마크에서 기존 계획기보다 우수한 성능을 보이는 'KnowDiffuser'라는 지식 기반 확산 계획 프레임워크를 제안합니다.

Fan Ding, Xuewen Luo, Fengze Yang, Bo Yu, HwaHui Tew, Ganesh Krishnasamy, Junn Yong Loo

게시일 2026-03-12
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🚗 자율주행의 두 가지 고민: "어디로 가야 할까?" vs "어떻게 움직일까?"

자율주행 차를 운전한다고 상상해 보세요. 차는 두 가지 일을 동시에 해야 합니다.

  1. 의사결정 (고수준): "앞에 차가 많으니 멈춰야지", "우회전해야지", "신호등이 초록이니까 가자" 같은 큰 그림의 판단이 필요합니다.
  2. 구동 (저수준): "바퀴를 몇 도 돌리고, 가속페달을 얼마나 밟아야 부드럽게 우회전할까?" 같은 정밀한 물리적 움직임이 필요합니다.

지금까지의 기술은 이 두 가지가 서로 따로 놀고 있었습니다.

  • 언어 모델 (LLM, 예: 챗봇): "우회전해"라고 말은 잘하지만, 실제로 차를 어떻게 움직여야 할지 구체적인 좌표 (x, y) 를 그리는 데는 서툴렀습니다. 마치 유능한 지휘관은 있지만, 악보 (구체적인 동작) 를 직접 쓰지 못하는 상황입니다.
  • 확산 모델 (Diffusion Model): 차가 부드럽게 움직이는 길을 그리는 데는 탁월하지만, 왜 그렇게 움직여야 하는지 '이유'를 모릅니다. 마치 실력 있는 악사는 있지만, 어떤 곡을 연주해야 할지 지시받지 못해 막막한 상황입니다.

💡 KnowDiffuser 의 해결책: "명령과 실행의 완벽한 듀엣"

이 논문은 이 두 기술을 하나로 합쳐 KnowDiffuser를 만들었습니다. 마치 **유능한 지휘관 (언어 모델)**과 **실력 있는 악사 (확산 모델)**가 한 팀이 되어 완벽한 공연을 하는 것과 같습니다.

1. 지휘관의 역할: "상황을 읽고 '메타 액션'을 내린다"

차의 앞뒤 상황, 신호등, 보행자 등을 분석하는 **언어 모델 (LM)**이 먼저 나섭니다.

  • 복잡한 도로 상황을 보고 "아, 지금 우회전해야겠다"라고 판단합니다.
  • 이때 구체적인 차의 좌표까지 그리는 게 아니라, **"우회전 (Turn Right)"**이나 "정지 (Stop)" 같은 **간단한 명령어 (메타 액션)**만 내립니다.
  • 비유: 지휘관이 악단에 "이제 슬픈 곡을 연주해"라고 지시하는 것과 같습니다.

2. 연결고리: "명령을 구체적인 악보로 변환"

이제 이 명령어를 실제 차가 움직일 수 있는 **기초 악보 (Prior Trajectory)**로 바꿔줍니다.

  • 과거에 수많은 차들이 실제로 "우회전"할 때 어떻게 움직였는지 데이터를 분석해 만든 표준 우회전 경로를 찾아옵니다.
  • 비유: 지휘관의 "슬픈 곡"이라는 지시를 보고, 악단이 "이런 느낌의 멜로디"라는 기본 악보를 꺼내드는 것입니다.

3. 악사의 역할: "빠르고 정확한 수정 (확산 모델)"

이제 확산 모델이 나섭니다.

  • 보통 확산 모델은 아무것도 없는 상태 (흰 소음) 에서부터 시작해 그림을 그려나가는데, 시간이 많이 걸립니다.
  • 하지만 KnowDiffuser 는 이미 **기본 악보 (우회전 경로)**를 가지고 시작합니다.
  • 여기에 아주 작은 **변형 (노이즈)**을 주어, 실제 상황 (예: 갑자기 나타난 보행자, 비포장 도로 등) 에 맞춰 빠르게 수정합니다.
  • 비유: 이미 준비된 기본 악보를 바탕으로, 즉흥적으로 약간의 변주를 더해서 완벽한 연주를 만들어내는 것입니다.

🚀 왜 이 기술이 특별한가요?

  1. 이해할 수 있는 이유 (해석 가능성): "왜 차가 멈췄지?"라고 물어보면, "언어 모델이 신호등이 빨간색이라고 판단했기 때문"이라고 명확히 설명할 수 있습니다. (기존 기술은 왜 멈췄는지 이유를 말해주기 어려웠습니다.)
  2. 매우 빠름 (실시간성): 처음부터 0 부터 그리는 게 아니라, 기본 틀을 가지고 시작해서 수정하므로 계산 속도가 훨씬 빠릅니다. 자율주행은 0.1 초가 생명이므로 매우 중요합니다.
  3. 안전하고 자연스러움: 과거의 실제 운전 데이터 (물리적으로 가능한 움직임) 를 기반으로 하기 때문에, 차가 공중을 날거나 물리적으로 불가능한 궤적을 그리는 일이 없습니다.

📊 실제 성과: "누Plan(뉴플랜) 대회"에서의 승리

이 기술은 실제 자율주행 평가 기준인 nuPlan에서 기존에 가장 잘하던 기술들 (규칙 기반, 딥러닝 기반 등) 보다 압도적으로 좋은 점수를 받았습니다.

  • 정확도: 차가 예상한 길과 실제 운전자가 운전한 길이 거의 일치했습니다.
  • 안전성: 사고 위험이 있는 잘못된 경로를 계획하는 경우가 훨씬 줄었습니다.

🎯 결론

KnowDiffuser는 **"지식 (언어 모델)"**과 **"기술 (확산 모델)"**을 결합하여, 자율주행차가 **사람처럼 생각 (이유를 알고 판단)**하면서도 **프로처럼 운전 (정밀하고 안전하게 움직임)**하게 만든 혁신적인 기술입니다.

앞으로 이 기술이 상용화되면, 우리는 더 안전하고, 더 똑똑하며, 왜 그렇게 운전하는지 설명도 잘 해주는 자율주행차를 타게 될 것입니다.