Senna-2: Aligning VLM and End-to-End Driving Policy for Consistent Decision Making and Planning

이 논문은 VLM 의 고수준 의사결정과 E2E 의 저수준 계획 간의 일관성을 확보하기 위해 3 단계 학습 방식을 제안한 Senna-2 를 통해 주행 안전성과 의사결정 일관성을 크게 향상시켰음을 보여줍니다.

Yuehao Song, Shaoyu Chen, Hao Gao, Yifan Zhu, Weixiang Yue, Jialv Zou, Bo Jiang, Zihao Lu, Yu Wang, Qian Zhang, Xinggang Wang

게시일 2026-03-13
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🚗 시나-2 (Senna-2): 자율주행차의 '두뇌'와 '손발'이 완벽하게 통하는 방법

이 논문은 자율주행차가 길을 갈 때, **"어디로 가야 한다"는 고차원적인 판단 (VLM)**과 **"실제로 핸들을 어떻게 돌리고 속도를 조절할지"는 구체적인 행동 (E2E)**이 서로 맞지 않아 생기는 문제를 해결한 기술에 대해 설명합니다.

마치 자율주행차에 '명상하는 철학자'와 '실전 운전사'를 동시에 태운 것과 같은 이야기입니다.


1. 문제: 철학자와 운전사의 오해 🤔🚗

기존의 자율주행 기술에는 큰 모순이 있었습니다.

  • 철학자 (VLM, 시각 - 언어 모델): "앞에 차가 많으니 천천히 가자."라고 논리적으로 판단합니다.
  • 운전사 (E2E, 엔드투엔드 계획): 하지만 철학자의 말을 제대로 듣지 못하고, **"가속해!"**라고 외치며 차를 질주시킵니다.

이처럼 판단과 행동이 일치하지 않으면 (Consistency Gap), 차는 엉뚱한 방향으로 가거나, 위험한 상황에서 멈추지 못해 사고가 날 수 있습니다. 마치 "왼쪽으로 가라"고 말했는데 차는 오른쪽으로 돌진하는 상황과 같습니다.

2. 해결책: 시나 -2 (Senna-2) 의 등장 🌟

저자들은 이 문제를 해결하기 위해 세 단계 훈련 과정을 거쳐 철학자와 운전사가 완벽하게 호흡을 맞추는 시스템을 만들었습니다.

🏫 1 단계: 기초 교육 (Driving Pre-Training)

  • 상황: 철학자와 운전사를 따로따로 가르칩니다.
  • 비유: 철학자는 "운전 이론"을 배우고, 운전사는 "실제 핸들 조작"을 익힙니다. 이때 **통역사 (Decision Adapter)**가 철학자의 복잡한 말을 운전사가 이해할 수 있는 간단한 신호 (예: "가속", "감속") 로 바꿔주는 역할을 배웁니다.

🤝 2 단계: 오픈 루프 조율 (Open-Loop Alignment)

  • 상황: 두 사람이 함께 연습을 시작하지만, 실제 도로가 아닌 가상의 시뮬레이션에서 합니다.
  • 비유: 철학자가 "감속해!"라고 말하면, 운전사가 실제로 차를 늦추는지 확인합니다.
    • 일치하면: "좋아! 우리 팀워크가 훌륭해!"라고 칭찬하며 그 행동을 강화합니다.
    • 불일치하면: "아니야, 네가 잘못했어. 다시 해봐!"라고 바로잡아줍니다.
    • 이 과정을 통해 두 시스템이 서로의 의도를 정확히 파악하도록 훈련합니다.

🎮 3 단계: 클로즈드 루프 실전 훈련 (Closed-Loop Alignment with HRL)

  • 상황: 이제 **실제 도로와 똑같은 3D 가상 현실 (3DGS)**에서 위험한 상황을 겪으며 훈련합니다.
  • 비유: 마치 게임 속 시뮬레이션에서 위험한 상황을 반복해서 겪으며 배우는 것입니다.
    • 안전 보상: 차가 너무 빨리 가거나 사고 위험이 있으면 "감점!"을 줍니다.
    • 효율 보상: 너무 느리게 가면 "감점!"을 줍니다.
    • 하향식 학습: 먼저 운전사 (하위 계획) 가 안전하고 효율적으로 운전하는 법을 배우고, 그 결과가 철학자 (고위 판단) 에게 전달되어 철학자의 판단도 더 정확해지도록 합니다.

3. 결과: 얼마나 좋아졌을까? 📈

이 시스템을 적용한 시나 -2는 놀라운 성과를 거두었습니다.

  • 의사결정과 행동의 일치도 19.3% 향상: 철학자와 운전사가 거의 같은 생각을 하게 되었습니다.
  • 사고율 30.6% 감소: 실제 도로 (가상 환경) 에서 차가 스스로 사고를 내는 경우가 크게 줄었습니다.
  • 명확한 속도 조절: "가속해"라고 하면 확실히 가속하고, "멈춰"라고 하면 확실히 멈춥니다. (기존 기술은 가속과 감속의 경계가 모호했는데, 시나 -2 는 뚜렷하게 구분합니다.)

4. 핵심 요약: 왜 중요한가? 🌈

기존의 자율주행차는 **"무엇을 해야 할지 (판단)"**와 **"어떻게 할지 (행동)"**가 따로 놀아 위험할 수 있었습니다. 하지만 시나 -2는 이 두 가지를 하나의 팀으로 묶어주었습니다.

  • 철학자 (VLM): "왜 그렇게 운전해야 하는지" 설명할 수 있는 해석 가능한 두뇌가 됩니다.
  • 운전사 (E2E): 철학자의 지시를 정확히 따르는 신뢰할 수 있는 손발이 됩니다.

결론적으로, 시나 -2 는 자율주행차가 단순히 코드를 실행하는 기계가 아니라, 사람처럼 생각하고 행동하며 안전을 최우선으로 하는 진정한 파트너가 되도록 만든 혁신적인 기술입니다.

한 줄 평: "철학자와 운전사가 서로의 마음을 완벽하게 이해하게 되어, 더 안전하고 똑똑한 자율주행이 가능해졌습니다!"