LaST-VLA: Thinking in Latent Spatio-Temporal Space for Vision-Language-Action in Autonomous Driving

이 논문은 자율주행에서 명시적 텍스트 추론의 한계를 극복하기 위해 3D 기반 모델과 월드 모델의 기하학적 제약 및 동적 예측을 잠재 공간에 통합한 '잠재 시공간 추론 (Latent Spatio-Temporal CoT)' 패러다임을 제안하여 NAVSIM 및 기타 벤치마크에서 최상위 성능을 달성한 LaST-VLA 프레임워크를 소개합니다.

Yuechen Luo, Fang Li, Shaoqing Xu, Yang Ji, Zehan Zhang, Bing Wang, Yuannan Shen, Jianwei Cui, Long Chen, Guang Chen, Hangjun Ye, Zhi-Xin Yang, Fuxi Wen

게시일 2026-03-13
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

자율주행차의 '생각'을 바꾼 혁신: LaST-VLA 설명

이 논문은 자율주행차가 길을 보고 어디로 가야 할지 결정하는 방식을 완전히 새롭게 바꾼 기술, LaST-VLA에 대해 설명합니다.

기존의 방식과 이 새로운 방식의 차이를 이해하기 위해, **'운전하는 사람'**과 **'생각하는 방식'**에 비유해 보겠습니다.


1. 기존 방식의 문제점: "말로만 생각하기"

기존의 최신 자율주행 AI 들은 길을 볼 때, 마치 사람이 머릿속으로 "왼쪽으로 가야 해, 앞에 차가 있어, 멈춰야지"라고 말로 생각하는 것과 비슷했습니다. 이를 '텍스트 기반 사고 (Textual CoT)'라고 합니다.

하지만 이 방식에는 두 가지 큰 문제가 있었습니다.

  1. 말과 현실의 괴리: AI 가 "여기는 좁아"라고 말로 생각할 때, 실제 도로의 3 차원적인 좁음이나 물리적인 거리를 정확히 느끼지 못해 엉뚱한 판단을 할 수 있습니다. (예: "여기 차가 지나갈 수 있어"라고 말했지만, 실제로는 차가 부딪힐 뻔한 상황)
  2. 말이 너무 많아서 지체: 복잡한 상황을 해결하려고 장황하게 말로 설명하는 과정에서 시간이 너무 많이 걸리고, 때로는 헛된 생각 (할루시네이션) 을 하기도 합니다.

2. LaST-VLA 의 혁신: "눈과 몸으로 직접 느끼기"

LaST-VLA 는 **"말로 생각하지 말고, 눈과 몸의 감각으로 직접 생각하자"**는 아이디어를 제안합니다.

이를 비유로 설명하면 다음과 같습니다.

  • 기존 방식 (말로 생각): 운전자가 길을 보며 "저기 차가 오네. 멈춰야지."라고 입으로 중얼거리는 것입니다. 말로 옮기는 과정에서 정보가 왜곡되거나 느려질 수 있습니다.
  • LaST-VLA 방식 (잠재 공간에서 생각): 운전자가 말을 하지 않고, 눈으로 본 풍경과 몸이 느끼는 속도감을 머릿속의 '감각'으로 바로 변환하는 것입니다. 마치 프로 운동선수가 설명할 필요 없이 몸의 반응으로 바로 공을 잡는 것과 같습니다.

이 기술은 AI 가 **3 차원 공간감 (거리, 깊이)**과 **시간의 흐름 (앞으로 어떻게 움직일지)**을 언어가 아닌, **직관적인 감각 데이터 (잠재 공간)**로 처리하게 만듭니다.

3. 어떻게 작동할까요? (세 가지 핵심 비유)

이 기술은 세 가지 단계로 이루어져 있습니다.

① '감각 선생님'을 모시다 (지식 증류)

LaST-VLA 는 초보 운전자가 아니라, 이미 3 차원 공간과 물리 법칙을 완벽하게 아는 **'전문가 선생님 (3D 모델과 비디오 예측 모델)'**에게 배웁니다.

  • 비유: 초보 운전자가 복잡한 도로를 혼자 헤매는 게 아니라, 베테랑 운전자가 "여기는 3 미터 남았어", "앞 차가 2 초 뒤에 멈출 거야"라고 직관적인 감각을 전달해 주는 것입니다. AI 는 이 감각을 자신의 '생각 (잠재 공간)'에 그대로 녹여냅니다.

② 단계별 훈련 (점진적 학습)

AI 를 바로 길에 내보내지 않고 두 단계로 훈련시킵니다.

  • 1 단계 (감각 익히기): 먼저 "거리감은 어떻게 느끼지?", "앞 차가 어떻게 움직일까?" 같은 물리 법칙과 공간 감각을 먼저 익힙니다. 이때는 실제 운전보다는 감각 훈련에 집중합니다.
  • 2 단계 (운전 실습): 감각이 익어지면, 이제 실제 "어디로 차를 몰지?"라는 운전 계획을 세웁니다. 이때까지 배운 감각을 바탕으로 안전한 경로를 그립니다.

③ 실전 연습과 칭찬 (강화 학습)

훈련이 끝나면 실제 도로 시뮬레이션에서 수많은 운전을 시킵니다.

  • 비유: AI 가 안전하게 운전하면 "잘했어!"라고 점수를 주고, 위험하면 "아니야, 다시 해"라고 지적합니다. 이 과정을 반복하며 AI 는 안전하고 규칙을 잘 지키는 최고의 운전 기사로 성장합니다.

4. 왜 이것이 중요한가요? (결과)

이 새로운 방식은 기존 방법보다 훨씬 뛰어납니다.

  • 더 안전합니다: "차 간격이 좁다"라고 말로 생각하는 게 아니라, 직관적으로 좁음을 느끼기 때문에 사고를 미리 예방합니다.
  • 더 빠릅니다: 장황한 말로 생각할 필요가 없으니, 순간적인 판단이 훨씬 빠릅니다.
  • 더 정확합니다: 실제 도로의 3 차원 구조를 정확히 이해하므로, 차선을 벗어나거나 벽에 부딪히는 실수가 줄어듭니다.

요약

LaST-VLA는 자율주행차가 **"말로 복잡한 설명을 하는 것"**에서 벗어나, "눈과 몸으로 직접 현실을 느끼고 직관적으로 판단하는" 방식으로 진화하게 만든 기술입니다. 마치 말로 설명하는 초보 운전자가, 감각으로 길을 읽는 베테랑 운전자가 된 것과 같습니다.

이 기술은 자율주행차가 더 안전하고, 빠르고, 인간처럼 자연스럽게 운전할 수 있는 미래를 열어줍니다.