SaiVLA-0: Cerebrum--Pons--Cerebellum Tripartite Architecture for Compute-Aware Vision-Language-Action

Each language version is independently generated for its own context, not a direct translation.

🧠 핵심 아이디어: 로봇의 뇌를 '세 부분'으로 나누다

기존의 로봇 AI 는 "무엇을 해야 할지 생각 (이해)"과 "손을 어떻게 움직일지 결정 (제어)"을 한 덩어리로 처리했습니다. 마치 한 사람이 동시에 복잡한 수학 문제를 풀면서 동시에 피아노를 치는 것처럼, 이 방식은 로봇이 느려지거나 (지연), 실수를 하거나 (불안정) 하는 원인이 됩니다.

SaiVLA-0 은 이를 인간의 뇌 구조를 차용하여 세 부분으로 깔끔하게 나눕니다.

1. 대뇌 (Cerebrum) = "현명한 지휘자"

역할: 로봇의 지식과 이해를 담당합니다. "이건 컵이야", "물건을 들어야 해" 같은 높은 수준의 생각을 합니다.
특징: 이 부분은 **동결 (Frozen)**되어 있습니다. 즉, 한번 학습되면 다시 바꾸지 않습니다. 마치 만년 비서처럼, 이미 모든 것을 알고 있어서 매번 새로운 공부를 할 필요가 없습니다.
작동 속도: 느립니다. 가끔씩만 (예: 5 초에 한 번) 명령을 내립니다.

2. 폰스 어댑터 (Pons Adapter) = "신속한 통역사"

역할: 지휘자 (대뇌) 의 복잡한 명령을 로봇의 근육 (작동부) 이 이해할 수 있는 실전 지시문으로 바꿔줍니다.
특징: 지휘자의 생각과 로봇이 지금 느끼는 감각 (손의 위치, 힘 등) 을 합쳐서 "지금 당장 손가락을 1cm 위로 올려" 같은 구체적인 명령으로 번역합니다.

3. 소뇌 (Cerebellum) = "반사 신경의 달인"

역할: 로봇의 실제 움직임을 담당합니다. 통역사의 지시를 받아 매우 빠르게 근육을 움직입니다.
특징: 이 부분은 매우 빠르고 병렬적으로 작동합니다. "왼쪽으로 1 칸, 오른쪽으로 1 칸" 같은 아주 작은 단위의 움직임을 연속해서 결정합니다.
안정성: 흔들림을 방지하기 위해 '관성 (EMA)'이나 '히스테리시스 (한번 결정하면 쉽게 바꾸지 않음)' 같은 장치를 써서 로봇이 덜덜 떨리지 않게 합니다.

🎯 특별한 기술: "초점 (Fovea)"을 이용한 눈

사람의 눈은 중심 (중앙 시야) 에선 선명하게 보고, 주변은 흐릿하게 봅니다. SaiVLA-0 도 이 방식을 따릅니다.

주 시야 (Main View): 로봇이 보는 전체 장면 (예: 책상 전체).
손목 시야 (Wrist ROIs): 로봇의 손끝에 달린 카메라가 찍는 아주 선명한 클로즈업입니다.
- 비유: 사람이 물건을 잡을 때, 손가락 끝을 집중해서 보듯 로봇도 손이 닿는 부분만 고해상도로 봅니다.
- 장점: 물건을 잡을 때의 미세한 접촉이나 자세 변화를 아주 정밀하게 감지합니다. 만약 손목 시야가 가려지면, 다시 전체 장면을 보며 안전하게 대응합니다.

⚡ 왜 이렇게 만들었나요? (장점)

빠르고 효율적 (컴퓨팅 절약):
- 지휘자 (대뇌) 가 매번 다시 생각할 필요 없이, **통역사 (폰스) 와 반사 신경 (소뇌)**만 빠르게 움직이게 합니다.
- 비유: 요리할 때, 요리사 (대뇌) 가 "불을 켜고, 양념을 넣고, 뒤집어라"라고 큰 지시만 내리면, 조수 (소뇌) 가 그 지시를 받아 빠르게 재료를 다듬고 볶습니다. 요리사가 매번 "칼을 어떻게 잡지?"라고 고민할 필요가 없으니 속도가 빨라집니다.
학습이 쉽고 재현 가능:
- 지휘자 (대뇌) 는 고정되어 있으므로, 로봇을 다른 환경에 적용할 때 통역사 (폰스) 만 다시 훈련하면 됩니다.
- 데이터 절약: 모든 것을 처음부터 다시 학습할 필요 없이, **중간 단계의 데이터 (캐시)**를 저장해 두었다가 재사용하므로 학습 시간이 7.5 시간에서 4.5 시간으로 단축되었습니다.
정밀한 제어:
- 로봇이 "왼쪽으로 10cm 이동해"라는 정밀한 명령도 잘 수행합니다. (기존에는 이런 미세한 제어가 어려웠습니다.)

📊 실제 성과 (실험 결과)

이론만 있는 것이 아니라, 실제 실험 (LIBERO 라는 로봇 학습 테스트) 에서 좋은 결과를 보였습니다.

성공률 향상: 기존 방식 (GR00T-N1.5) 의 평균 성공률 **86.5%**에서, 이 새로운 방식 (SaiVLA-0) 은 **99.0%**까지 끌어올렸습니다.
학습 시간 단축: 데이터를 나누어 저장하고 학습하는 방식을 써서 학습 시간을 약 40% 단축했습니다.

🚀 요약: 이 기술이 가져오는 변화

이 논문은 **"로봇에게 너무 많은 일을 시키지 말고, 역할 분담을 잘하자"**는 메시지를 전달합니다.

지적인 생각은 고정된 '지휘자'에게 맡기고,
빠른 반응은 '반사 신경'에게 맡기며,
손끝의 감각은 '집중된 눈'으로 보게 함으로써,

더 빠르고, 더 정확하며, 더 저렴하게 로봇을 만들 수 있는 새로운 길을 제시합니다. 마치 오케스트라에서 지휘자와 악기 연주자들이 각자의 역할을 명확히 할 때 더 아름다운 음악이 나오듯, 로봇의 뇌도 역할을 나누면 더 훌륭하게 작동한다는 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

현대적인 비전 - 언어 - 행동 (VLA) 모델은 종종 고수준의 의미론적 이해와 고주파수 제어 (Low-level control) 를 단일 시스템에 통합하여 설계합니다. 이로 인해 다음과 같은 한계점이 발생합니다:

높은 지연 시간과 불안정성: 대규모 VLM(Visual Language Model) 을 엔드 - 투 - 엔드로 미세 조정 (Fine-tuning) 할 경우, 제한된 데이터 환경에서 과적합 (Overfitting) 위험이 크고 계산 비용이 매우 높습니다.
제어와 이해의 혼재: 마지막 레이어의 표현만으로는 전역적 의미 (Global semantics) 와 국소적 기하학적/접촉 세부 사항 (Local geometric/contact details) 을 동시에 포착하기 어렵습니다.
재현성 부족: 일관되지 않은 프롬프트와 보정 (Calibration) 문제로 인해 실험 결과의 재현성이 떨어집니다.

2. 방법론 (Methodology)

이 논문은 신경과학의 뇌 구조 (대뇌, 교뇌, 소뇌) 에서 영감을 받아 **삼분할 아키텍처 (Tripartite Architecture)**를 제안합니다. 이 구조는 이해 (Understanding) 와 제어 (Control) 를 분리하면서도 계산 효율성을 명시적으로 관리합니다.

A. 삼분할 아키텍처 구성

대뇌 (Cerebrum - Frozen VLM):
- 고정된 (Frozen) 대규모 VLM (예: Qwen-VL-8B) 으로 구성됩니다.
- 고수준의 다중 모달 사전 지식 (Multimodal priors) 을 제공하며, 하위 학습 단계 동안 동결됩니다.
- 초기, 중간, 후기 레이어의 숨겨진 상태 (Hidden states) 를 추출하여 다층적 맥락을 제공합니다.
교뇌 어댑터 (Pons Adapter):
- 대뇌의 cortical 특징과 실시간 감각 - 운동 (Proprioceptive) 입력을 통합하는 가변적 컴파일러 역할을 합니다.
- 대뇌의 고수준 의도를 실행 가능한 토큰 집합으로 변환하여 소뇌에 전달합니다.
- 대뇌를 재학습하지 않고도 새로운 로봇이나 작업에 적응할 수 있도록 합니다.
소뇌 (Cerebellum - ParaCAT):
- **ParaCAT (Parallel Categorical Action Transformer)**을 사용하여 고주파수 실시간 제어를 수행합니다.
- 입력: 현재 이미지 (메인 뷰 + 손목 ROI), 지시어, 로봇 상태, 대뇌 토큰.
- 출력: 각 차원 (DoF) 당 이산적인 카테고리 델타 $\{-1, 0, +1\}$ 를 병렬로 예측합니다.
- 안정화 기법: 히스테리시스 (Hysteresis), EMA(Exponential Moving Average), 온도 (Temperature), 엔트로피 제어를 통해 지연 시간 하에서도 안정적인 제어를 보장합니다.

B. 핵심 기술 요소

고정 비율 스케줄링 (Fixed-ratio Schedule): 대뇌는 $N$ 번의 소뇌 실행 주기마다 한 번만 호출됩니다 (기본값 $N=5$ ). 이는 계산 부하를 분산시키면서도 반응성을 유지합니다.
마이크로 호라이즌 재사용 (Micro-horizon Reuse): 한 번의 순전파 (Forward pass) 로 $K$ 단계의 행동 (기본값 $K=20$ ) 을 예측하여 순차적으로 실행합니다. 재계획 (Re-planning) 없이 실행하여 추론 속도를 극대화합니다.
초점화된 ROI (Foveated ROI): 인간의 중심시 (Fovea) 를 모방하여, 엔드 이펙터 (End-effector) 에 기하학적으로 고정된 손목 ROI 를 메인 뷰와 결합합니다. 이는 접촉 및 미세한 자세 변화를 고해상도로 포착하며, ROI 신뢰도가 낮을 경우 메인 뷰로 우아하게 페이드백 (Fallback) 합니다.
2 단계 학습 파이프라인:
- Stage A: 오프라인에서 대뇌의 특징을 추출하여 캐시 (Feature Caching) 합니다.
- Stage B: 캐시된 특징과 현재 프레임을 사용하여 Pons 어댑터와 소뇌를 엔드 - 투 - 엔드로 학습합니다.
- 이 방식은 학습 시간을 단축하고 재현성을 높입니다.

3. 주요 기여 (Key Contributions)

기하학적 결합 ROI: 보정을 통해 엔드 이펙터에 고정된 손목 ROI 를 도입하여, 도구 프레임 내에서 안정적인 고해상도 접촉 정보를 제공합니다.
정밀 제어 태스크: "물체를 10cm 왼쪽으로 이동"과 같은 정량적 목표를 도입하여 정밀한 공간 이해와 미세 제어를 강제합니다.
효율적인 분리 학습: 오프라인 대뇌 캐싱과 온라인 어댑터/소뇌 학습을 분리하여 학습 시간을 단축하고 재현성을 보장합니다.
ParaCAT 헤드: 병렬 소프트맥스 카테고리 디코딩을 통해 단일 순전파로 다단계 행동을 생성하며, 지연 시간과 계산 효율성을 최적화합니다.
모듈형 업그레이드: 대뇌를 업그레이드할 때 Pons 만 재학습하고, 로봇을 변경할 때 소뇌만 학습하여 일반성과 유지보수성을 높입니다.
계산 인식 (Compute-Aware) 평가: 지연 시간, FLOPs, 성공률을 함께 보고하며, 계산 정규화 성공률 ( $SR_{cn}$ ) 을 도입하여 공정한 비교를 가능하게 합니다.

4. 실험 결과 (Results)

LIBERO 벤치마크:
- 학습 시간 단축: 특징 캐싱 (Split feature caching) 을 적용한 결과, 학습 시간이 7.5 시간에서 4.5 시간으로 단축되었습니다.
- 성능 향상: 평균 성공률은 86.5% 에서 **92.5%**로 향상되었습니다 (공식 N1.5 헤드만 학습한 경우 대비).
- 최고 성능: 제안된 SaiVLA-0 은 LIBERO 전체에서 **99.0%**의 평균 성공률을 달성했습니다 (Spatial: 99.8%, Object: 100.0%, Goal: 98.2%, Long: 97.8%).
비교 모델: GR00T-N1.5, OpenVLA-OFT, $\pi_0$ 등 기존 SOTA 모델들보다 우수한 성능을 보였습니다.
실제 로봇: 옷 접기, 냄비 넣기, 고정 거리 이동 등 실제 로봇 태스크에 대한 평가 계획이 수립되었으며, 초기 실험에서 ROI 가 접촉 민감도를 높이는 것을 확인했습니다.

5. 의의 및 의의 (Significance)

신경과학 기반 설계: 대뇌 (계획), 교뇌 (통합), 소뇌 (실행) 의 생물학적 분리를 모방하여 VLA 시스템의 지연 시간과 안정성 문제를 해결했습니다.
제한된 데이터/계산 자원 환경 최적화: 대규모 VLM 을 동결하고 가벼운 어댑터와 소뇌만 학습함으로써, 제한된 데이터와 계산 자원을 가진 연구실 환경에서도 고품질 로봇 제어가 가능함을 입증했습니다.
재현성과 표준화: 오프라인 특징 캐싱, 버전 관리, 계산 정규화 지표 ( $SR_{cn}$ ) 를 도입하여 VLA 연구의 재현성과 공정한 비교를 위한 프로토콜을 제시했습니다.
실시간 제어의 혁신: 연속 회귀 (Continuous regression) 나 확산 모델 (Diffusion) 기반의 고지연 제어에서 벗어나, 이산 카테고리 델타를 통한 저지연 고주파수 제어의 가능성을 보여주었습니다.

이 논문은 VLA 시스템의 아키텍처를 단순한 엔드 - 투 - 엔드 모델에서 모듈화되고 계산 효율적인 삼분할 구조로 전환하는 새로운 패러다임을 제시하며, 실제 로봇 적용을 위한 실용적인 솔루션을 제공합니다.