Each language version is independently generated for its own context, not a direct translation.

1. 기존 로봇: "매번 눈을 감았다 뜨는 기억력 없는 로봇"

지금까지의 대부분의 로봇 (기존 VLA 모델) 은 사진을 찍는 카메라처럼 작동했습니다.

어떻게 작동하나요? 로봇은 "당근을 접시에 올려줘"라는 명령을 받으면, 현재 눈앞에 보이는 사진 한 장만 보고 "아, 당근이 여기 있구나. 이제 손을 움직여야지"라고 생각해서 다음 0.1 초의 행동을 결정합니다.
문제점은? 로봇은 0.1 초 뒤에는 그 '현재의 사진'을 잊어버리고, 다시 새로운 사진을 찍어서 처음부터 다시 생각합니다. 마치 매번 눈을 감았다 뜨는 사람처럼, "어제 내가 손을 어디 뻗었지? 지금 속도가 어느 정도지?"라는 **과거의 흐름 (흐름감)**을 기억하지 못합니다.
결과: 로봇이 당근을 잡으려다 놓치면, 다음 순간에는 "아, 당근이 여기 있네?"라고 다시 처음부터 시작하며 헛수고를 하거나, 손이 덜덜 떨리는 (불규칙한) 움직임을 보입니다.

2. 새로운 방식 (AR-VLA): "영화 감독처럼 흐름을 기억하는 로봇"

이 논문이 제안한 AR-VLA는 로봇의 손과 팔을 움직이는 **'전문가 (Action Expert)'**를 따로 두었습니다. 이 전문가는 영화 감독이나 연주자와 같습니다.

핵심 아이디어: 로봇은 단순히 '지금'만 보는 게 아니라, 지금까지의 모든 움직임 흐름을 기억합니다.
- "내가 1 초 전에 손을 위로 뻗었고, 0.5 초 전에 속도를 줄였어. 그래서 지금 당근을 잡으려면 자연스럽게 손목을 살짝 돌려야 해."
비유:
- 기존 로봇: 매번 새로운 노래의 첫 마디부터 시작하는 가수. (매번 리듬이 끊김)
- 새로운 로봇 (AR-VLA): 한 곡을 끝까지 부르는 가수. (리듬과 흐름이 자연스럽게 이어짐)

3. 어떻게 작동할까요? (두 개의 뇌)

이 시스템은 로봇에게 두 가지 뇌를 가진 것처럼 작동하게 합니다.

느린 뇌 (시각 - 언어 전문가): "당근을 접시에 올려줘"라는 명령을 보고 당근이 어디 있는지, 접시가 어디 있는지 천천히 생각합니다. (이건 기존 로봇과 비슷합니다.)
빠른 뇌 (행동 전문가): 이 부분이 바로 AR-VLA의 핵심입니다.
- 이 뇌는 느린 뇌가 주는 정보를 받지만, **자신의 과거 기억 (손이 어떻게 움직였는지)**을 계속 유지합니다.
- 느린 뇌가 정보를 업데이트하는 동안 (예: 카메라가 새로운 장면을 인식하는 동안), 빠른 뇌는 멈추지 않고 계속해서 손을 움직이는 명령을 내립니다.
- 마치 **지휘자 (느린 뇌)**가 악보를 보고 지시를 내리면, **현악기 연주자 (빠른 뇌)**는 그 지시를 받으면서도 자신의 악기 소리와 리듬을 잊지 않고 계속 연주하는 것과 같습니다.

4. 왜 이것이 중요한가요?

부드러운 움직임: 로봇이 덜덜 떨리지 않고, 물건을 잡을 때 부드럽게 움직입니다. 마치 유능한 요리사가 칼질을 하듯 자연스럽습니다.
긴 작업도 가능: "상자에서 물건을 꺼내서, 식탁에 놓고, 그 위에 컵을 덮는"처럼 여러 단계가 필요한 복잡한 일도 잘 해냅니다. 왜냐하면 로봇이 "내가 방금 상자를 열었으니, 이제 식탁으로 가야지"라고 과거의 맥락을 기억하기 때문입니다.
실수에서도 복구: 만약 당근을 잡다가 놓친다면, 기존 로봇은 당황해서 다시 처음부터 시작하지만, 이 로봇은 "아, 방금 손이 미끄러졌네. 그럼 다시 잡으려고 힘을 더 주자"라고 상황을 파악하고 바로 수정합니다.

요약

이 논문은 **"로봇이 매번 눈을 감았다 뜨는 게 아니라, 눈을 뜨고 있는 동안의 모든 흐름을 기억하게 만들자"**고 제안합니다.

기존 로봇이 사진으로 세상을 이해했다면, 이 새로운 로봇은 영화처럼 세상을 이해합니다. 덕분에 로봇은 더 부드럽고, 똑똑하며, 복잡한 일도 잘 해낼 수 있게 되었습니다. 이는 로봇이 우리 집이나 공장에서 더 자연스럽게 일할 수 있는 중요한 첫걸음입니다.

Each language version is independently generated for its own context, not a direct translation.

AR-VLA: 비전-언어-액션 (VLA) 모델을 위한 진정한 자기회귀 (Autoregressive) 액션 전문가에 대한 기술 요약

이 논문은 로봇 제어 분야에서 기존의 반응형 (Reactive) VLA 모델이 가진 한계를 극복하고, AR-VLA라는 새로운 아키텍처를 제안합니다. 핵심 아이디어는 로봇의 행동을 단순한 '스냅샷 기반의 반응'이 아닌, 시간의 흐름에 따른 연속적인 자기회귀 (Autoregressive) 시퀀스로 모델링하여, 로봇이 자신의 과거 행동과 상태를 지속적으로 기억하고 맥락을 이해하도록 하는 것입니다.

1. 문제 정의 (Problem Statement)

기존의 최신 VLA 모델 (OpenVLA, RT-2 등) 과 확산 정책 (Diffusion Policies) 은 다음과 같은 구조적 한계를 가지고 있습니다:

반응형 및 기억 상실 (Reactive & Amnesia): 이러한 모델들은 매 프레임마다 새로운 시각적 관찰 (스냅샷) 을 기반으로 행동 '블록 (Chunk)'을 예측합니다. 즉, 매 단계마다 내부 상태를 초기화하고 마치 처음 깨어난 것처럼 행동합니다. 이는 'Markovian amnesia(마르코프적 기억 상실)'로 이어져 시간적 연속성이 깨지고, 제어 동작이 끊기거나 떨림 (Jitter) 이 발생합니다.
빈도 불일치 (Frequency Mismatch): 로봇의 물리적 제어는 높은 주파수 (예: 50Hz 이상) 로 수행되어야 하지만, 시각 - 언어 (VL) 추론은 상대적으로 느립니다. 기존 모델은 느린 VL 입력을 기다리거나 매번 다시 인코딩해야 하므로, 실시간 제어의 유동성을 해칩니다.
장기적 작업 수행의 부재: 과거의 행동 히스토리를 유지하지 못하기 때문에, 중간에 정보가 가려지거나 (Occlusion) 복잡한 순차적 작업 (Long-horizon tasks) 을 수행할 때 실패합니다.

2. 방법론 (Methodology)

저자들은 AR-VLA를 제안하며, 이는 고주파수 운동 제어와 저주파수 의미적 추론을 구조적으로 분리하면서도 동기화하는 아키텍처입니다.

A. 자기회귀 액션 전문가 (Autoregressive Action Expert)

개념: LLM 이 대화의 흐름을 기반으로 다음 단어를 예측하듯, 로봇 정책은 운동량 (Momentum) 을 기반으로 다음 포즈를 예측합니다.
구조: VLM 백본 (시각 - 언어) 은 느리게 업데이트되는 '의미적 접두어 (Semantic Prefix)' 역할을 하고, 별도의 **액션 전문가 (Action Expert)**가 높은 주파수로 자기회귀적으로 행동을 생성합니다.
이점: 액션 스트림은 VL 입력의 지연과 무관하게 독립적으로 실행되며, 시간적 일관성을 유지합니다.

B. 하이브리드 키 - 밸류 캐시 (Hybrid KV Cache)

Transformer 디코더 내부에 두 가지 다른 메모리 스트림을 관리합니다:

프로리오셉티브 스트림 (Proprioceptive Stream): 로봇의 상태와 행동 히스토리를 저장하는 롤링 FIFO 버퍼입니다. 이는 긴 시간 동안의 운동학적 맥락 (Momentum) 을 유지합니다.
비주얼 - 언어 스트림 (Visual-Language Stream): VLM 에서 추출된 특징을 저장하는 단일 슬롯 버퍼입니다. 새로운 프레임이 들어오면 전체가 갱신되지만, 액션 전문가의 흐름을 방해하지 않습니다.

C. 동적 시간 재고정 (Dynamic Temporal Re-anchoring, DTR)

비동기적으로 업데이트되는 두 스트림 (빠른 행동 vs 느린 시각) 을 동기화하기 위한 핵심 메커니즘입니다.

RoPE 기반: 회전 위치 임베딩 (Rotary Positional Embeddings) 의 수학적 특성을 활용합니다.
원리: 시각 토큰에 고정된 인덱스 (이미지 캡처 시점) 를 부여하고, 행동 토큰에는 현재 시점의 인덱스를 부여합니다. 어텐션 메커니즘은 두 인덱스의 **상대적 거리 (Staleness, $\Delta t$ )**만 계산합니다.
효과: 훈련 시와 추론 시의 절대적인 시간 차이가 있더라도 (예: 훈련 시 5 단계 차이, 추론 시 500 단계 차이), 상대적 지연이 동일하면 동일한 어텐션 점수가 계산되어 모델이 시각 정보의 '구식 (Staleness)'을 수학적으로 이해하고 적응할 수 있습니다.

D. 훈련 프로토콜

Phase 1 (액션 전용 사전 훈련): 시각 데이터 없이 대규모 운동 궤적 데이터로만 행동의 '구문 (Syntax)'과 역학을 학습합니다.
Phase 2 (VL-액션 정렬): VLM 백본을 연결하고 DTR 을 사용하여 시각적 맥락을 운동 시퀀스에 정렬합니다. 이때 **확률적 히스토리 드롭아웃 (Stochastic History Masking)**을 적용하여 모델이 과거 히스토리에만 의존하지 않고, 시각적 프론트에도 주의를 기울이도록 합니다.

3. 주요 기여 (Key Contributions)

구조적 패러다임 전환: 반응형 '스냅샷 기반' 제어에서 연속적인 스트리밍 시퀀스 기반 제어로의 전환을 제안했습니다.
비동기적 아키텍처 설계: VLM(두뇌) 과 액션 전문가(소뇌) 를 구조적으로 분리하여, 느린 추론과 빠른 제어가 서로를 방해하지 않도록 했습니다.
DTR 메커니즘: 훈련과 추론 간의 시간적 불일치를 해결하는 수학적 기법을 도입하여, 지연이 있는 환경에서도 안정적인 제어를 가능하게 했습니다.
독립적 사전 훈련 가능성: 시각 데이터 없이도 운동 구문을 학습할 수 있어, 대규모 운동 데이터에 대한 사전 훈련 효율성을 극대화했습니다.

4. 실험 결과 (Results)

시뮬레이션 (SimplerEnv, PushT, ALOHA) 및 실제 로봇 (WidowX) 실험을 통해 검증되었습니다.

성능 (Success Rate):
- 일반적 정책 (Generalist): BridgeV2 데이터셋으로 학습하여 SimplerEnv 에서 평가 시, OpenVLA, CogACT, Pi-0-Fast 등 기존 최첨단 모델 대비 **평균 61.5%**의 성공률을 기록하며 2 위 모델 (52.1%) 보다 9.4% 포인트 더 높은 성능을 보였습니다.
- 전문가 정책 (Specialist): ALOHA 큐브 이동 및 핀 삽입 작업에서 ACT 와 Diffusion Policy 를 능가하는 성능을 보였습니다.
부드러움 (Smoothness):
- 기존 Chunk 기반 모델은 블록 간 끊김이 발생하지만, AR-VLA 는 가장 낮은 저크 (Jerk) 값을 기록하여 매우 매끄러운 궤적을 생성했습니다.
- 지연 시간 (Latency) 측면에서도 VLM 추론을 기다리지 않고 독립적으로 실행 가능하여 효율성이 높았습니다.
역사 인식 (History Awareness):
- PushT2 & Stack3: 중간에 목표 위치나 물체 위치가 가려지는 (비마르코프적) 작업에서 기존 모델들은 실패하거나 진동하는 반면, AR-VLA 는 히스토리 메모리를 통해 성공적으로 작업을 완수했습니다.
실제 로봇 적용:
- 실제 WidowX 로봇에서 Zero-shot 테스트 시, 실패 후에도 스스로 자세를 교정하여 재시도하는 등 폐루프 (Closed-loop) 강건성을 보여주었습니다.

5. 의의 및 결론 (Significance)

이 논문은 로봇 학습 분야에서 **시스템 1(반사적, 빠른 운동 제어)**과 **시스템 2(사고적, 느린 의미 추론)**의 역할을 명확히 분리하면서도 통합하는 새로운 아키텍처를 제시했습니다.

확장성: 운동 구문과 시각적 의미 학습을 분리함으로써, 대규모 운동 데이터와 대규모 언어 모델 데이터를 각각 효율적으로 활용할 수 있습니다.
실시간성: 비동기적 실행 구조는 로봇이 느린 시각 처리를 기다리지 않고 실시간으로 제어할 수 있게 하여, 실제 환경 적용 가능성을 높였습니다.
미래 지향성: 단순한 행동 예측을 넘어, 로봇이 시간의 흐름을 이해하고 장기적 목표를 유지할 수 있는 '맥락 인식 (Context-aware)' 로봇 제어의 새로운 표준을 제시했습니다.

결론적으로 AR-VLA 는 기존 VLA 모델의 '기억 상실' 문제를 해결하고, 더 매끄럽고, 강력하며, 복잡한 장거리 작업을 수행할 수 있는 로봇 정책의 기반을 마련했습니다.

AR-VLA: True Autoregressive Action Expert for Vision-Language-Action Models