RT-VLA: Real-Time Vision-Language-Action Models via Knowledge Distillation

본 논문은 최첨단 SimLingo 교사의 주행 및 추론 능력을 소형 학생 모델로 전이하여, 경쟁력 있는 폐루프 성능을 유지하면서도 추론 지연 시간을 대폭 감소(최대 44.8배)시키고 사후 설명 가능성을 갖춘 실시간 제어를 가능하게 하는 경량화된 증류 기반 시각-언어-행동 모델인 RT-VLA를 제안한다.

원저자: Xiangyu Huang, Zhenlin Hua, Han Zhou, Shounak Sural, Ragunathan Rajkumar

게시일 2026-06-15✓ Author reviewed
📖 4 분 읽기☕ 가벼운 읽기

원저자: Xiangyu Huang, Zhenlin Hua, Han Zhou, Shounak Sural, Ragunathan Rajkumar

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

당신이 아주 빠른 레이스 카 드라이버(학생)에게 도시의 도로를 운전하는 법을 가르치고 있다고 상상해 보십시오. 보통 누군가에게 이 복잡한 기술을 가르칠 때는, 세계적인 수준의 고학력 교수(선생님)를 그림자처럼 따라다니게 하며 모든 회전 구간을 설명하고, 날씨를 확인하고, 교통 패턴을 분석하며, 왜 그런 결정을 내렸는지에 대해 상세한 에세이를 쓰게 할 것입니다.

문제는 교수가 너무 철저하고 생각이 깊어서, 그가 설명을 다 마칠 때쯤이면 이미 차는 충돌해 버린다는 것입니다. 교수는 너무 느립니다. 현실 세계에는 적합하지 않습니다.

이 논문은 이 학생 드라이버를 훈련시키는 새로운 방법인 RT-VLA를 소개합니다. 학생이 선생님처럼 느리고 말이 많아지게 만드는 대신, 연구진은 **지식 증류(Knowledge Distillation)**라는 기술을 사용했습니다. 이것은 마치 "텔레파시를 통한 전송"과 같아서, 학생이 선생님이 매 단계마다 말하는 것을 기다릴 필요 없이 선생님의 직관결정을 직접 흡수하게 합니다.

작동 원리는 다음과 같습니다.

1. 문제점: "생각이 너무 많은" 드라이버

현재의 자율주행 AI 모델(VLA 모델이라 불림)은 저 교수와 같습니다. 그들은 도로를 "보고", 표지판을 "읽고", 자신의 결정에 대해 "말할" 수 있습니다. 그들은 똑똑하지만, 느립니다. 핸들을 돌리기 전에 생각하는 데 시간이 너무 오래 걸립니다. 바쁜 도시에서는 그러한 찰나의 지연이 위험합니다. 당신에게는 즉각적으로 반응하는 드라이버가 필요합니다.

2. 해결책: "경량화된" 학생

연구진은 더 작고 빠른 모델(RT-VLA)을 만들었습니다.

  • 선생님: 영어를 사용하여 자신의 추론 과정을 설명할 수 있는, 운전을 잘하는 거대하고 느린 AI (SimLingo).
  • 학생: 훨씬 더 짧은 시간 안에 똑같이 잘 운전해야 하지만, 훨씬 더 작은 AI.

3. 훈련 방법: "다층적 텔레파시"

보통 학생을 가르칠 때는 최종 정답(예: "좌회전하세요")만을 보여줍니다. 하지만 이 논문은 그것만으로는 부족하다고 말합니다. 연구진은 **다층적 증류(Multi-Level Distillation)**를 사용했는데, 이는 학생에게 단순히 정답만 가르치는 것이 아니라 사고 과정 전체를 가르치는 것과 같습니다.

  • 시각적 특징 (Visual Features): 학생은 선생님이 보는 방식 그대로 도로를 "보는" 법을 배웁니다 (보행자나 빨간불을 포착하는 법).
  • 쿼리 표현 (Query Representations): 학생은 선생님이 어떻게 주의(attention)를 집중하는지(이미지의 어떤 부분이 가장 중요한지)를 배웁니다.
  • 경로 예측 (Waypoint Predictions): 학생은 선생님이 계획한 정확한 경로를 배웁니다.
  • 언어 로짓 (Language Logits): 이것은 마법 같은 기술입니다. 학생은 실시간으로 전체 문장을 생성하지 않고도, 선생님이 사용할 단어들의 확률을 학습합니다.

4. "두 개의 뇌" 전략

이것이 가장 영리한 부분입니다. 학생은 두 개의 "뇌"(또는 브랜치)를 가지고 있습니다.

  • 빠른 뇌 (실시간): 이 부분은 운전하는 동안 끊임없이 작동합니다. 카메라를 보고 어디로 조향하고 얼마나 빨리 갈지를 즉각적으로 결정합니다. 이 뇌는 말을 하지 않습니다. 그저 행동할 뿐입니다. 이 덕분에 자동차는 매우 빨라집니다.
  • 느린 뇌 (오프라인 설명): 이 부분은 시간을 절약하기 위해 주행 중에는 꺼져 있습니다. 하지만 자동차가 실수(예: 연석을 들이받거나 빨간불에 진입함)를 했을 경우, 나중에 이 뇌를 켤 수 있습니다. 이 뇌는 발생한 상황의 영상을 보고 다음과 같이 서면 설명을 생성합니다. "검은색 차량을 따라가려 했으나, 도로가 갈라지는 지점을 보지 못해 길을 잘못 들었습니다."

즉, 이 차는 스포츠카처럼 빠르게 운전하면서도, 문제가 생겼을 때 엔지니어들이 무엇이 잘못되었는지 이해할 수 있도록 사후에 보고서를 작성할 수 있습니다.

5. 결과: 빠르고, 똑똑하며, 필요할 때 말도 잘함

연구진은 시뮬레이션된 도시(Bench2Drive)에서 이를 테스트했습니다. 결과는 다음과 같습니다.

  • 속도: 새로운 학생 드라이버는 (시각 전용 운전 시) 선생님보다 44.8배 더 빠릅니다. 언어 부분을 포함하더라도 7.9배 더 빠릅니다.
  • 기술: 학생은 선생님만큼이나 잘 운전합니다. 선생님과 매우 유사한 성공률로 경로를 완수했습니다.
  • 설명: 나중에 실수를 설명하도록 요청했을 때, 학생의 설명은 선생님의 설명과 거의 비슷했습니다 (이론적 최대치인 51.8점 중 50.9점 기록).

핵심 요약

이 논문은 똑똑하고 설명 가능한 AI빠르고 실시간 대응이 가능한 AI 사이에서 하나를 선택할 필요가 없다는 것을 증명합니다. 이 "텔레파시" 훈련법을 사용하면, 당신의 안전을 위해 즉각적으로 반응하는 드라이버를 가질 수 있으면서도, 동시에 무언가 잘못되었을 때 엔지니어들이 이해할 수 있도록 사후에 그 이유를 설명할 수 있는 드라이버를 가질 수 있습니다.

이 논문이 주장하지 않는 것:

  • 이 자동차가 내일 당장 실제 고속도로를 달릴 준비가 되었다고 주장하지 않습니다.
  • 이 자동차가 완벽하다고 주장하지 않습니다 (여전히 시뮬레이션에서 충돌이 발생합니다).
  • 이 기술이 비, 안개 또는 LiDAR와 같은 다른 센서와 함께 작동한다고 주장하지 않습니다 (카메라만을 사용합니다).
  • 이 기술이 병원이나 다른 분야에서 사용될 것이라고 주장하지 않습니다 (순수하게 자율주행을 위한 것입니다).

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →