Each language version is independently generated for its own context, not a direct translation.

자율주행차의 '생각'을 바꾼 혁신: LaST-VLA 설명

이 논문은 자율주행차가 길을 보고 어디로 가야 할지 결정하는 방식을 완전히 새롭게 바꾼 기술, LaST-VLA에 대해 설명합니다.

기존의 방식과 이 새로운 방식의 차이를 이해하기 위해, **'운전하는 사람'**과 **'생각하는 방식'**에 비유해 보겠습니다.

1. 기존 방식의 문제점: "말로만 생각하기"

기존의 최신 자율주행 AI 들은 길을 볼 때, 마치 사람이 머릿속으로 "왼쪽으로 가야 해, 앞에 차가 있어, 멈춰야지"라고 말로 생각하는 것과 비슷했습니다. 이를 '텍스트 기반 사고 (Textual CoT)'라고 합니다.

하지만 이 방식에는 두 가지 큰 문제가 있었습니다.

말과 현실의 괴리: AI 가 "여기는 좁아"라고 말로 생각할 때, 실제 도로의 3 차원적인 좁음이나 물리적인 거리를 정확히 느끼지 못해 엉뚱한 판단을 할 수 있습니다. (예: "여기 차가 지나갈 수 있어"라고 말했지만, 실제로는 차가 부딪힐 뻔한 상황)
말이 너무 많아서 지체: 복잡한 상황을 해결하려고 장황하게 말로 설명하는 과정에서 시간이 너무 많이 걸리고, 때로는 헛된 생각 (할루시네이션) 을 하기도 합니다.

2. LaST-VLA 의 혁신: "눈과 몸으로 직접 느끼기"

LaST-VLA 는 **"말로 생각하지 말고, 눈과 몸의 감각으로 직접 생각하자"**는 아이디어를 제안합니다.

이를 비유로 설명하면 다음과 같습니다.

기존 방식 (말로 생각): 운전자가 길을 보며 "저기 차가 오네. 멈춰야지."라고 입으로 중얼거리는 것입니다. 말로 옮기는 과정에서 정보가 왜곡되거나 느려질 수 있습니다.
LaST-VLA 방식 (잠재 공간에서 생각): 운전자가 말을 하지 않고, 눈으로 본 풍경과 몸이 느끼는 속도감을 머릿속의 '감각'으로 바로 변환하는 것입니다. 마치 프로 운동선수가 설명할 필요 없이 몸의 반응으로 바로 공을 잡는 것과 같습니다.

이 기술은 AI 가 **3 차원 공간감 (거리, 깊이)**과 **시간의 흐름 (앞으로 어떻게 움직일지)**을 언어가 아닌, **직관적인 감각 데이터 (잠재 공간)**로 처리하게 만듭니다.

3. 어떻게 작동할까요? (세 가지 핵심 비유)

이 기술은 세 가지 단계로 이루어져 있습니다.

① '감각 선생님'을 모시다 (지식 증류)

LaST-VLA 는 초보 운전자가 아니라, 이미 3 차원 공간과 물리 법칙을 완벽하게 아는 **'전문가 선생님 (3D 모델과 비디오 예측 모델)'**에게 배웁니다.

비유: 초보 운전자가 복잡한 도로를 혼자 헤매는 게 아니라, 베테랑 운전자가 "여기는 3 미터 남았어", "앞 차가 2 초 뒤에 멈출 거야"라고 직관적인 감각을 전달해 주는 것입니다. AI 는 이 감각을 자신의 '생각 (잠재 공간)'에 그대로 녹여냅니다.

② 단계별 훈련 (점진적 학습)

AI 를 바로 길에 내보내지 않고 두 단계로 훈련시킵니다.

1 단계 (감각 익히기): 먼저 "거리감은 어떻게 느끼지?", "앞 차가 어떻게 움직일까?" 같은 물리 법칙과 공간 감각을 먼저 익힙니다. 이때는 실제 운전보다는 감각 훈련에 집중합니다.
2 단계 (운전 실습): 감각이 익어지면, 이제 실제 "어디로 차를 몰지?"라는 운전 계획을 세웁니다. 이때까지 배운 감각을 바탕으로 안전한 경로를 그립니다.

③ 실전 연습과 칭찬 (강화 학습)

훈련이 끝나면 실제 도로 시뮬레이션에서 수많은 운전을 시킵니다.

비유: AI 가 안전하게 운전하면 "잘했어!"라고 점수를 주고, 위험하면 "아니야, 다시 해"라고 지적합니다. 이 과정을 반복하며 AI 는 안전하고 규칙을 잘 지키는 최고의 운전 기사로 성장합니다.

4. 왜 이것이 중요한가요? (결과)

이 새로운 방식은 기존 방법보다 훨씬 뛰어납니다.

더 안전합니다: "차 간격이 좁다"라고 말로 생각하는 게 아니라, 직관적으로 좁음을 느끼기 때문에 사고를 미리 예방합니다.
더 빠릅니다: 장황한 말로 생각할 필요가 없으니, 순간적인 판단이 훨씬 빠릅니다.
더 정확합니다: 실제 도로의 3 차원 구조를 정확히 이해하므로, 차선을 벗어나거나 벽에 부딪히는 실수가 줄어듭니다.

요약

LaST-VLA는 자율주행차가 **"말로 복잡한 설명을 하는 것"**에서 벗어나, "눈과 몸으로 직접 현실을 느끼고 직관적으로 판단하는" 방식으로 진화하게 만든 기술입니다. 마치 말로 설명하는 초보 운전자가, 감각으로 길을 읽는 베테랑 운전자가 된 것과 같습니다.

이 기술은 자율주행차가 더 안전하고, 빠르고, 인간처럼 자연스럽게 운전할 수 있는 미래를 열어줍니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 제기 (Problem)

자율주행 분야에서 비전 - 언어 - 행동 (VLA) 모델은 지각과 계획을 통합하여 기존 모듈형 파이프라인의 한계를 극복하고 있습니다. 그러나 기존 VLA 모델들은 다음과 같은 근본적인 한계에 직면해 있습니다.

명시적 텍스트 CoT 의 한계: 기존의 Chain-of-Thought (CoT) 방식은 명시적인 텍스트 생성을 통해 추론합니다. 이는 시각적 데이터와 이산적인 텍스트 간의 의미적 간극 (Semantic Gap) 을 유발하여, 모델이 시각적 증거를 무시하고 언어적 편향에 따라 위험한 결정을 내리는 '환각 (Hallucination)' 현상을 초래합니다. 또한 긴 텍스트 생성은 추론 지연을 유발합니다.
잠재적 추론 (Latent Reasoning) 의 불안정성: 최근 연구들은 텍스트 대신 연속된 잠재 공간 (Latent Space) 에서 추론하는 방식을 제안했으나, 중간 단계의 제약 조건 없이 최종 답변에만 의존하는 경우 물리 법칙을 고려하지 않는 '물리 무관 (Physics-agnostic)' 표현이 되거나, 학습 불안정으로 인해 모델 붕괴 (Model Collapse) 가 발생하는 문제가 있었습니다.

2. 제안 방법론 (Methodology)

저자들은 LaST-VLA (Latent Spatio-Temporal VLA) 를 제안하여, 추론 패러다임을 이산적인 텍스트 처리에서 물리적으로 기반을 둔 잠재적 시공간 CoT (Latent Spatio-Temporal CoT) 로 전환합니다.

핵심 아키텍처 및 메커니즘

잠재적 시공간 CoT (Latent Spatio-Temporal CoT):
- 모델의 숨겨진 상태 (Hidden States) 를 동적 (Dynamic, $H_{dyn}$ ) 과 기하학적 (Geometric, $H_{geo}$ ) 두 가지 특징으로 분해합니다.
- 동적 어댑터 (Dynamics Adapter): 비디오 월드 모델 (Cosmos) 의 잠재 공간과 정렬하여 교통 참여자의 미래 운동 및 환경 변화를 예측합니다.
- 기하학 어댑터 (Geometry Adapter): 3D 기반 모델 (VGGT) 의 특징 공간과 정렬하여 장면의 깊이, 점유 구조 등 정밀한 3D 공간 정보를 잠재 공간에 주입합니다.
- 이를 통해 모델은 텍스트 생성 없이도 3D 공간과 시간적 변화를 이해하는 '물리 기반' 추론을 수행합니다.
점진적 2 단계 SFT 전략 (Progressive Two-Stage SFT):
- 1 단계 (물리 인식 정렬): 추론 능력 (생각) 에 집중합니다. 액션 생성 손실은 최소화하고, 어댑터를 통해 학습된 잠재 특징이 월드 모델 및 3D 모델의 특징과 정렬되도록 강제합니다. 또한 구조화된 인과적 마스킹 (Structured Causal Masking) 을 적용하여 모델이 원본 이미지 대신 잠재적 추론 ( $H$ ) 에만 의존하도록 합니다.
- 2 단계 (잠재 기반 계획): 계획 능력 (행동) 에 집중합니다. 정렬 손실 비중을 낮추고 경로 예측 손실을 높여, 모델이 추론된 물리 정보를 바탕으로 정확한 궤적을 생성하도록 미세 조정합니다.
GRPO 를 통한 궤적 정제 (Latent-Grounded Trajectory Refinement via GRPO):
- 강화학습 (RL) 단계에서 그룹 상대적 정책 최적화 (GRPO) 를 적용합니다.
- 예측된 궤적의 안전성 (PDMS), 형식 준수, 목표 도달 정확도 등을 기반으로 보상 함수를 설계하여, 모델이 안전하고 규칙을 준수하는 주행 정책을 학습하도록 유도합니다.

3. 주요 기여 (Key Contributions)

VLA 기반 자율주행의 결함 규명: 언어와 물리적 현실 간의 단절 및 언어적 사전 지식에 대한 과도한 의존이 초래하는 안전 위험을 지적했습니다.
LaST-VLA 프레임워크 제안: 지시 사항 추종과 동적 예측을 잠재적 시공간 CoT 로 통합하여, 텍스트 기반 추론의 정밀도 한계와 비지도 잠재 접근법의 학습 불안정성을 동시에 해결했습니다.
점진적 학습 전략: 모델이 먼저 시공간 이해 능력을 습득한 후 계획 능력을 학습하도록 하는 2 단계 SFT 와 RL 파이프라인을 설계했습니다.

4. 실험 결과 (Results)

LaST-VLA 는 여러 자율주행 벤치마크에서 최신 기법 (SOTA) 을 능가하는 성능을 입증했습니다.

NAVSIM v1/v2 (주행 계획):
- NAVSIM v1: PDMS 점수 91.3 (8B 모델) 을 기록하여 기존 SOTA 를 0.5~4.1 포인트 상회했습니다.
- NAVSIM v2: EPDMS 점수 87.1 을 기록하여 전 세계 최고 성능을 달성했습니다.
- 특히 'No at-Fault Collision (NC)', 'Drivable Area Compliance (DAC)', 'Time-to-Collision (TTC)' 등 안전 및 준수 지표에서 큰 개선을 보였습니다.
SURDS 및 NuDynamics (시공간 추론):
- SURDS: 3D 공간 추론 (방위각, 픽셀 위치, 깊이 등) 에서 InternVL3 베이스라인 대비 7.68%~43.49% 향상된 정확도를 보였습니다.
- NuDynamics: 동적 에이전트의 운동 상태 추정 (Motion State Estimation) 에서 81.19% 의 정확도를 기록하여 동적 환경 이해 능력을 입증했습니다.
Ablation Study:
- 물리적 사전 지식 (3D 및 동적) 을 잠재 공간에 주입하지 않거나 지도 학습 (Supervision) 을 하지 않을 경우 성능이 급격히 저하되거나 학습이 불안정해지는 것을 확인했습니다.
- 구조화된 인과적 마스킹이 모델이 고수준 추론에 의존하도록 강제하여 성능을 크게 향상시켰습니다.

5. 의의 및 결론 (Significance)

LaST-VLA 는 자율주행 VLA 모델의 추론 방식을 명시적 텍스트에서 물리적으로 기반을 둔 연속적 잠재 공간으로 전환하는 중요한 이정표입니다.

효율성과 안정성: 긴 텍스트 생성을 생략하여 추론 지연을 줄이고, 물리 법칙을 잠재 공간에 직접 주입함으로써 학습의 안정성과 추론의 신뢰성을 확보했습니다.
안전성 강화: 텍스트의 환각 문제를 해결하고 3D 공간 및 미래 동적 변화를 정확히 예측함으로써, 실제 도로 환경에서의 안전하고 견고한 주행 결정 능력을 크게 향상시켰습니다.
미래 방향: 이 연구는 추론 과정에 물리적 제약을 명시적으로 통합하는 것이 자율주행 시스템의 실용화를 위한 핵심 요소임을 보여주며, 향후 VLA 모델 설계에 중요한 방향성을 제시합니다.

LaST-VLA: Thinking in Latent Spatio-Temporal Space for Vision-Language-Action in Autonomous Driving