원저자: Xiangyu Huang, Zhenlin Hua, Han Zhou, Shounak Sural, Ragunathan Rajkumar

게시일 2026-06-15✓ Author reviewed ⓘ

📖 4 분 읽기☕ 가벼운 읽기

원저자: Xiangyu Huang, Zhenlin Hua, Han Zhou, Shounak Sural, Ragunathan Rajkumar

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

당신이 아주 빠른 레이스 카 드라이버(학생)에게 도시의 도로를 운전하는 법을 가르치고 있다고 상상해 보십시오. 보통 누군가에게 이 복잡한 기술을 가르칠 때는, 세계적인 수준의 고학력 교수(선생님)를 그림자처럼 따라다니게 하며 모든 회전 구간을 설명하고, 날씨를 확인하고, 교통 패턴을 분석하며, 왜 그런 결정을 내렸는지에 대해 상세한 에세이를 쓰게 할 것입니다.

문제는 교수가 너무 철저하고 생각이 깊어서, 그가 설명을 다 마칠 때쯤이면 이미 차는 충돌해 버린다는 것입니다. 교수는 너무 느립니다. 현실 세계에는 적합하지 않습니다.

이 논문은 이 학생 드라이버를 훈련시키는 새로운 방법인 RT-VLA를 소개합니다. 학생이 선생님처럼 느리고 말이 많아지게 만드는 대신, 연구진은 **지식 증류(Knowledge Distillation)**라는 기술을 사용했습니다. 이것은 마치 "텔레파시를 통한 전송"과 같아서, 학생이 선생님이 매 단계마다 말하는 것을 기다릴 필요 없이 선생님의 직관과 결정을 직접 흡수하게 합니다.

작동 원리는 다음과 같습니다.

1. 문제점: "생각이 너무 많은" 드라이버

현재의 자율주행 AI 모델(VLA 모델이라 불림)은 저 교수와 같습니다. 그들은 도로를 "보고", 표지판을 "읽고", 자신의 결정에 대해 "말할" 수 있습니다. 그들은 똑똑하지만, 느립니다. 핸들을 돌리기 전에 생각하는 데 시간이 너무 오래 걸립니다. 바쁜 도시에서는 그러한 찰나의 지연이 위험합니다. 당신에게는 즉각적으로 반응하는 드라이버가 필요합니다.

2. 해결책: "경량화된" 학생

연구진은 더 작고 빠른 모델(RT-VLA)을 만들었습니다.

선생님: 영어를 사용하여 자신의 추론 과정을 설명할 수 있는, 운전을 잘하는 거대하고 느린 AI (SimLingo).
학생: 훨씬 더 짧은 시간 안에 똑같이 잘 운전해야 하지만, 훨씬 더 작은 AI.

3. 훈련 방법: "다층적 텔레파시"

보통 학생을 가르칠 때는 최종 정답(예: "좌회전하세요")만을 보여줍니다. 하지만 이 논문은 그것만으로는 부족하다고 말합니다. 연구진은 **다층적 증류(Multi-Level Distillation)**를 사용했는데, 이는 학생에게 단순히 정답만 가르치는 것이 아니라 사고 과정 전체를 가르치는 것과 같습니다.

시각적 특징 (Visual Features): 학생은 선생님이 보는 방식 그대로 도로를 "보는" 법을 배웁니다 (보행자나 빨간불을 포착하는 법).
쿼리 표현 (Query Representations): 학생은 선생님이 어떻게 주의(attention)를 집중하는지(이미지의 어떤 부분이 가장 중요한지)를 배웁니다.
경로 예측 (Waypoint Predictions): 학생은 선생님이 계획한 정확한 경로를 배웁니다.
언어 로짓 (Language Logits): 이것은 마법 같은 기술입니다. 학생은 실시간으로 전체 문장을 생성하지 않고도, 선생님이 사용할 단어들의 확률을 학습합니다.

4. "두 개의 뇌" 전략

이것이 가장 영리한 부분입니다. 학생은 두 개의 "뇌"(또는 브랜치)를 가지고 있습니다.

빠른 뇌 (실시간): 이 부분은 운전하는 동안 끊임없이 작동합니다. 카메라를 보고 어디로 조향하고 얼마나 빨리 갈지를 즉각적으로 결정합니다. 이 뇌는 말을 하지 않습니다. 그저 행동할 뿐입니다. 이 덕분에 자동차는 매우 빨라집니다.
느린 뇌 (오프라인 설명): 이 부분은 시간을 절약하기 위해 주행 중에는 꺼져 있습니다. 하지만 자동차가 실수(예: 연석을 들이받거나 빨간불에 진입함)를 했을 경우, 나중에 이 뇌를 켤 수 있습니다. 이 뇌는 발생한 상황의 영상을 보고 다음과 같이 서면 설명을 생성합니다. "검은색 차량을 따라가려 했으나, 도로가 갈라지는 지점을 보지 못해 길을 잘못 들었습니다."

즉, 이 차는 스포츠카처럼 빠르게 운전하면서도, 문제가 생겼을 때 엔지니어들이 무엇이 잘못되었는지 이해할 수 있도록 사후에 보고서를 작성할 수 있습니다.

5. 결과: 빠르고, 똑똑하며, 필요할 때 말도 잘함

연구진은 시뮬레이션된 도시(Bench2Drive)에서 이를 테스트했습니다. 결과는 다음과 같습니다.

속도: 새로운 학생 드라이버는 (시각 전용 운전 시) 선생님보다 44.8배 더 빠릅니다. 언어 부분을 포함하더라도 7.9배 더 빠릅니다.
기술: 학생은 선생님만큼이나 잘 운전합니다. 선생님과 매우 유사한 성공률로 경로를 완수했습니다.
설명: 나중에 실수를 설명하도록 요청했을 때, 학생의 설명은 선생님의 설명과 거의 비슷했습니다 (이론적 최대치인 51.8점 중 50.9점 기록).

핵심 요약

이 논문은 똑똑하고 설명 가능한 AI와 빠르고 실시간 대응이 가능한 AI 사이에서 하나를 선택할 필요가 없다는 것을 증명합니다. 이 "텔레파시" 훈련법을 사용하면, 당신의 안전을 위해 즉각적으로 반응하는 드라이버를 가질 수 있으면서도, 동시에 무언가 잘못되었을 때 엔지니어들이 이해할 수 있도록 사후에 그 이유를 설명할 수 있는 드라이버를 가질 수 있습니다.

이 논문이 주장하지 않는 것:

이 자동차가 내일 당장 실제 고속도로를 달릴 준비가 되었다고 주장하지 않습니다.
이 자동차가 완벽하다고 주장하지 않습니다 (여전히 시뮬레이션에서 충돌이 발생합니다).
이 기술이 비, 안개 또는 LiDAR와 같은 다른 센서와 함께 작동한다고 주장하지 않습니다 (카메라만을 사용합니다).
이 기술이 병원이나 다른 분야에서 사용될 것이라고 주장하지 않습니다 (순수하게 자율주행을 위한 것입니다).

기술 요약: RT-VLA – 지식 증류를 통한 실시간 시각-언어-행동 모델

문제 정의

시각-언어-행동(Vision-Language-Action, VLA) 모델은 시각적 인지, 언어적 추론, 행동 예측을 통합하여 해석 가능한 의사결정을 가능하게 함으로써 엔드투엔드(E2E) 자율주행의 유망한 패러다임으로 부상했습니다. 그러나 기존의 최첨단 VLA 모델(예: SimLingo, DriveCoT, ORION)은 대규모 시각-언어 백본과 자기회귀적(autoregressive) 추론 모듈에 의존합니다. 이러한 구성 요소들은 상당한 추론 지연 시간을 발생시켜, 빠른 궤적 업데이트가 필수적인 역동적이고 안전이 중요한 도로 환경에서의 실시간 배포를 어렵게 만듭니다. 핵심 과제는 VLA 모델의 고수준 추론 능력과 설명 가능성을 유지하면서, 자율주행의 엄격한 지연 시간 요구사항을 충족하기 위해 계산 비용과 추론 시간을 획기적으로 줄이는 것입니다.

방법론

저자들은 대규모 교사(Teacher) 모델(SimLingo)의 주행 및 추론 능력을 경량화된 학생(Student) 모델로 전이하도록 설계된 경량화된 VLA 모델인 RT-VLA를 제안합니다. 이 프레임워크는 성능과 효율성의 균형을 맞추기 위해 다단계 지도 증류(multi-level supervised distillation) 전략과 디커플링된(decoupled) 구조를 채택합니다.

아키텍처

교사 모델 (Teacher Model): 고용량 InternVL-2 시각 인코더와 Qwen2-0.5B 언어 모델을 사용하는 고정된 SimLingo 스타일의 VLA입니다.
학생 모델 (Student Model, RT-VLA):
- 시각 인코더 (Vision Encoder): 더 효율적인 EVA-02 모델을 사용합니다.
- 주행 브랜치 (Driving Branch): 시각적 토큰, 상태 임베딩(속도, GPS), 그리고 학습 가능한 쿼리 토큰을 처리하여 기하학적 및 시간적 웨이포인트(waypoint)를 예측합니다.
- 추론 브랜치 (Reasoning Branch): Perceiver Resampler를 통해 시각적 토큰을 압축하는 별도의 경량 언어 브랜치입니다. 이 브랜치는 실시간 제어 루프와 **디커플링(decoupled)**되어 있으며, 사후 설명(post-hoc explanation)이나 특정 학습 단계에서만 호출되므로 실시간 주행에 지연을 추가하지 않습니다.

다단계 증류 전략

교사 모델로부터 학생 모델로 지식을 전이하기 위해, 저자들은 네 가지 서로 다른 수준을 포괄하는 복합 손실 함수를 정의합니다:

시각 특징 증류 ( $L_{vision}$ ): 학습 가능한 프로젝션과 적응형 풀링을 통해 학생의 시각적 특징을 교사의 고차원 특징과 정렬합니다.
쿼리 표현 증류 ( $L_{query}$ ): 두 모델 간의 내부 쿼리 표현(작업 관련 임베딩)을 일치시킵니다.
웨이포인트 예측 증류 ( $L_{waypoint}$ ): 학생의 웨이포인트 예측을 교사의 출력값에 대해 감독합니다.
언어 로짓 증류 ( $L_{kl}$ ): 언어 로짓에 대한 지식 증류(KL 발산)를 사용하여 추론 능력을 전이합니다. 이는 학생이 탐욕적 디코딩(greedy decoding)을 통해 토큰을 생성하고, 고정된 교사가 이러한 특정 토큰들을 평가하여 분포 변화(distribution shift)를 최소-화하는 **온-폴리시 언어 미세 조정(On-Policy Language Fine-Tuning)**으로 보완됩니다.

학습 체계

학습은 두 단계로 진행됩니다:

주행 최적화 (Driving Optimization): 학생 모델은 폐쇄 루프 주행 동작을 최적화하기 위해 정답(ground-truth) 웨이포인트 감독과 다단계 증류 손실( $L_{driving}$ )의 조합을 사용하여 학습됩니다. 이후 주행 브랜치는 고정됩니다.
언어 특화 (Language Specialization): 모델은 정답 교차 엔트로피와 언어 로짓 증류로 구성된 언어 손실( $L_{language}$ )만을 사용하여 미세 조정되며, 이를 통해 고정된 주행 정책을 해치지 않으면서 설명을 생성하는 데 특화됩니다.

주요 기여

RT-VLA 모델: 주행 및 언어 기반 추론 능력을 유지하면서 추론 지연 시간을 크게 줄인 경량화된 증류 VLA 모델을 제적했습니다.
다단계 증류: 주로 행동 예측에 집중하는 기존 방식과 달리, 시각적 특징, 쿼리 표현, 웨이포인트 예측 및 언어 로짓 전반에 걸쳐 지식을 전이하는 새로운 전략을 제시했습니다.
효율적인 추론 메커니즘: 언어 로짓 증류와 온-폴리시 미세 조정을 도입하여, 실시간 제어 중에는 지연을 발생시키지 않으면서도 오프라인 사후 설명을 가능하게 했습니다.
성능-효율성 트레이드오프: Bench2Drive 벤치마크에서 매우 낮은 추론 시간을 유지하면서도 경쟁력 있는 폐쇄 루프 주행 및 언어 추론 점수를 입증했습니다.

실험 결과

실험은 NVIDIA A100 GPU를 사용하여 Bench2Drive 데이터셋(CARLA v0.9.15)에서 수행되었습니다.

주행 성능: RT-VLA는 85.19의 주행 점수(DS)를 달성하였으며, 이는 SimLingo(85.07)와 대등하며 SimLingo-BASE(85.94)에 근접한 수치입니다. 특히, RT-VLA는 SimLingo-BASE가 갖지 못한 언어 능력을 보유하면서도 전체 SimLingo 모델보다 우수한 성능을 보였습니다.
추론 효율성:
- 시각 전용 모드 (Vision-Only Mode): RT-VLA는 추론 시간을 SimLingo의 1544.34ms에서 34.48ms로 단축하여 44.8배의 속도 향상을 달자했습니다.
- 시각+언어 모드 (Vision+Language Mode): 언어 브랜치를 활성화했을 때, RT-VLA는 지연 시간을 196ms로 줄여 SimLingo 대비 7.9배의 속도 향상을 달성했습니다.
해설 품질 (Commentary Quality): RT-VLA는 (DeepSeek-V4-Flash에 의해 평가된) 50.9의 해설 품질 점수를 기록하였으며, 이는 모델 크기와 지연 시간을 대폭 줄였음에도 불구하고 전체 SimLingo 모델(51.8)보다 불과 0.9점 낮은 수치입니다.
절제 연구 (Ablation Studies): 증류를 제거했을 때 주행 점수가 34.05로 급격히 하락하였으며, 이는 다단계 증류가 경량 아키텍처에서 강력한 주행 정책을 회복하는 데 필수적임을 확인시켜 줍니다.

의의 및 주장

본 논문은 지도 증류(supervised distillation)가 실시간 설명 가능한 VLA 스타일의 자율주행 모델을 구축하는 데 있어 실용적인 접근법이라고 주장합니다. 값비싼 언어 추론 브랜치를 실시간 제어 루프에서 분리하고 다단계 증류를 활용함으로써, RT-VLA는 대규모 VLA 모델의 높은 추론 능력과 실제 주행의 엄격한 지연 시간 제약 사이의 간극을 성공적으로 메웠습니다.

저자들은 RT-VLA가 교사 모델의 안전에 직결되는 설명을 생성하는 능력을 보존하면서도, 실시간 제어에 지연을 추가하지 않고 이를 수행한다는 점을 강조합니다. 이를 통해 사고 발생 시 로그된 주행 관측치를 분석하여 실패 모드를 이해할 수 있는 "오프라인 사후 설명"이 가능해집니다. 이 연구는 VLA 모델의 해석 가능성과 추론 이점을 유지하면서도, 이를 밀집되고 시간 민감도가 높은 교통 환경에 배치 가능한 형태로 만들 수 있음을 시사합니다.

한계점

저자들은 다음과 같은 몇 가지 한계를 인정합니다:

RT-VLA는 명시적인 안전 제약 최적화가 아닌 감독 및 증류에 의존하기 때문에, 안전에 치명적인 실패(예: 충돌)를 완전히 제거할 수는 없습니다.
본 모델은 카메라 전용 프레임워크로서 LiDAR나 기타 기하학적 센서가 부족하며, 이는 악천외 조건(비, 안개, 저조도)에서의 강건성을 제한할 수 있습니다.
모델은 교사 모델과 시뮬레이션 기반 학습 환경의 한계를 물려받으므로, 실제 환경에서의 도메인 변화(domain shift)나 롱테일(long-tail) 시나리오에서의 신뢰성에 영향을 미칠 수 있습니다.

RT-VLA: Real-Time Vision-Language-Action Models via Knowledge Distillation