AR-VLA: True Autoregressive Action Expert for Vision-Language-Action Models

이 논문은 기존 VLA 모델의 반응적 한계를 극복하고, 긴 기억을 통해 시간적 일관성을 유지하며 느린 추론과 빠른 제어를 조화시키는 독립적인 자기회귀 행동 전문가 (AR-VLA) 를 제안하여 로봇 정책의 성능과 안정성을 향상시켰습니다.

Yutong Hu, Jan-Nico Zaech, Nikolay Nikolov, Yuanqi Yao, Sombit Dey, Giuliano Albanese, Renaud Detry, Luc Van Gool, Danda Paudel

게시일 2026-03-12
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 기존 로봇: "매번 눈을 감았다 뜨는 기억력 없는 로봇"

지금까지의 대부분의 로봇 (기존 VLA 모델) 은 사진을 찍는 카메라처럼 작동했습니다.

  • 어떻게 작동하나요? 로봇은 "당근을 접시에 올려줘"라는 명령을 받으면, 현재 눈앞에 보이는 사진 한 장만 보고 "아, 당근이 여기 있구나. 이제 손을 움직여야지"라고 생각해서 다음 0.1 초의 행동을 결정합니다.
  • 문제점은? 로봇은 0.1 초 뒤에는 그 '현재의 사진'을 잊어버리고, 다시 새로운 사진을 찍어서 처음부터 다시 생각합니다. 마치 매번 눈을 감았다 뜨는 사람처럼, "어제 내가 손을 어디 뻗었지? 지금 속도가 어느 정도지?"라는 **과거의 흐름 (흐름감)**을 기억하지 못합니다.
  • 결과: 로봇이 당근을 잡으려다 놓치면, 다음 순간에는 "아, 당근이 여기 있네?"라고 다시 처음부터 시작하며 헛수고를 하거나, 손이 덜덜 떨리는 (불규칙한) 움직임을 보입니다.

2. 새로운 방식 (AR-VLA): "영화 감독처럼 흐름을 기억하는 로봇"

이 논문이 제안한 AR-VLA는 로봇의 손과 팔을 움직이는 **'전문가 (Action Expert)'**를 따로 두었습니다. 이 전문가는 영화 감독이나 연주자와 같습니다.

  • 핵심 아이디어: 로봇은 단순히 '지금'만 보는 게 아니라, 지금까지의 모든 움직임 흐름을 기억합니다.
    • "내가 1 초 전에 손을 위로 뻗었고, 0.5 초 전에 속도를 줄였어. 그래서 지금 당근을 잡으려면 자연스럽게 손목을 살짝 돌려야 해."
  • 비유:
    • 기존 로봇: 매번 새로운 노래의 첫 마디부터 시작하는 가수. (매번 리듬이 끊김)
    • 새로운 로봇 (AR-VLA): 한 곡을 끝까지 부르는 가수. (리듬과 흐름이 자연스럽게 이어짐)

3. 어떻게 작동할까요? (두 개의 뇌)

이 시스템은 로봇에게 두 가지 뇌를 가진 것처럼 작동하게 합니다.

  1. 느린 뇌 (시각 - 언어 전문가): "당근을 접시에 올려줘"라는 명령을 보고 당근이 어디 있는지, 접시가 어디 있는지 천천히 생각합니다. (이건 기존 로봇과 비슷합니다.)
  2. 빠른 뇌 (행동 전문가): 이 부분이 바로 AR-VLA의 핵심입니다.
    • 이 뇌는 느린 뇌가 주는 정보를 받지만, **자신의 과거 기억 (손이 어떻게 움직였는지)**을 계속 유지합니다.
    • 느린 뇌가 정보를 업데이트하는 동안 (예: 카메라가 새로운 장면을 인식하는 동안), 빠른 뇌는 멈추지 않고 계속해서 손을 움직이는 명령을 내립니다.
    • 마치 **지휘자 (느린 뇌)**가 악보를 보고 지시를 내리면, **현악기 연주자 (빠른 뇌)**는 그 지시를 받으면서도 자신의 악기 소리와 리듬을 잊지 않고 계속 연주하는 것과 같습니다.

4. 왜 이것이 중요한가요?

  • 부드러운 움직임: 로봇이 덜덜 떨리지 않고, 물건을 잡을 때 부드럽게 움직입니다. 마치 유능한 요리사가 칼질을 하듯 자연스럽습니다.
  • 긴 작업도 가능: "상자에서 물건을 꺼내서, 식탁에 놓고, 그 위에 컵을 덮는"처럼 여러 단계가 필요한 복잡한 일도 잘 해냅니다. 왜냐하면 로봇이 "내가 방금 상자를 열었으니, 이제 식탁으로 가야지"라고 과거의 맥락을 기억하기 때문입니다.
  • 실수에서도 복구: 만약 당근을 잡다가 놓친다면, 기존 로봇은 당황해서 다시 처음부터 시작하지만, 이 로봇은 "아, 방금 손이 미끄러졌네. 그럼 다시 잡으려고 힘을 더 주자"라고 상황을 파악하고 바로 수정합니다.

요약

이 논문은 **"로봇이 매번 눈을 감았다 뜨는 게 아니라, 눈을 뜨고 있는 동안의 모든 흐름을 기억하게 만들자"**고 제안합니다.

기존 로봇이 사진으로 세상을 이해했다면, 이 새로운 로봇은 영화처럼 세상을 이해합니다. 덕분에 로봇은 더 부드럽고, 똑똑하며, 복잡한 일도 잘 해낼 수 있게 되었습니다. 이는 로봇이 우리 집이나 공장에서 더 자연스럽게 일할 수 있는 중요한 첫걸음입니다.