Each language version is independently generated for its own context, not a direct translation.

🤖 VLANeXt: 로봇을 위한 '요리 레시피' 발견하기

이 논문은 최근 로봇 공학 분야에서 핫한 **'VLA(시각-언어-행동) 모델'**에 대한 연구입니다. 쉽게 말해, **"로봇이 눈으로 보고, 말을 듣고, 손으로 움직이는 것을 배우게 하는 인공지능"**에 대한 이야기죠.

지금까지 많은 연구팀이 각자 다른 방법으로 로봇을 가르치려 했지만, "어떤 방법이 진짜 좋은 건지" 알기 어려웠습니다. 마치 요리를 할 때 "소금과 설탕을 얼마나 넣어야 맛있는지" 각자 다른 레시피를 쓰다 보니, 어떤 조합이 최상인지 비교하기 힘들었던 거죠.

이 연구팀은 **"우리가 직접 실험실 주방을 차리고, 가장 맛있는 요리를 만드는 12 가지 핵심 레시피를 찾아냈다"**고 말합니다. 그 결과물이 바로 VLANeXt라는 새로운 로봇 두뇌입니다.

🍳 핵심 비유: 로봇 요리사 만들기

이 논문의 내용을 요리사 훈련에 비유해서 설명해 드릴게요.

1. 문제 상황: "혼란스러운 주방"

지금까지 로봇을 가르칠 때, 연구자들마다 "소스 (모델 구조)", "재료 (데이터)", "조리법 (학습 방법)"을 각자 다르게 사용했습니다. 그래서 "어떤 방법이 진짜 로봇을 똑똑하게 만드는지" 알 수 없었습니다.

2. 해결책: "통일된 실험실과 12 가지 레시피"

연구팀은 모든 실험을 **동일한 주방 (환경)**에서 진행하며, 3 가지 주요 영역에서 무엇이 중요한지 하나하나 테스트했습니다.

🧱 영역 1: 기본 재료 (기초 구성 요소)

두뇌 연결법: 로봇의 '눈과 귀 (시각/언어)'와 '손 (행동)'을 어떻게 연결할지 실험했습니다.
- 결과: 두 부분을 완전히 분리하거나, 너무 빡빡하게 붙이는 것보다, **가변적인 '연결 고리 (Soft Connection)'**를 두어 서로 정보를 주고받는 방식이 가장 맛있습니다. (마치 요리사가 레시피를 보며 유연하게 재료를 섞는 것처럼요.)
행동 예측: 로봇이 한 번에 한 동작만 할지, 아니면 여러 동작을 묶어서 (Chunking) 미리 계획할지 실험했습니다.
- 결과: 한 번에 8 개의 동작을 묶어서 예측하는 방식이 훨씬 자연스럽고 효율적이었습니다. (한 번에 8 컵의 커피를 내리는 것보다, 한 번에 여러 잔을 준비하는 게 더 빠르죠.)
학습 목표: 로봇의 손 움직임을 숫자 (분류) 로 가르칠지, 연속적인 값 (회귀) 으로 가르칠지 실험했습니다.
- 결과: 연속적인 흐름을 예측하는 '흐름 매칭 (Flow Matching)' 방식이 가장 정교한 움직임을 만들어냈습니다.

👁️ 영역 2: 감각의 중요성 (지각 필수 요소)

시야 (카메라): 로봇이 한쪽 눈만 쓸지, 두 눈 (상체 카메라 + 손목 카메라) 을 쓸지 실험했습니다.
- 결과: **두 눈 (멀티뷰)**을 모두 쓰면 공간 감각이 훨씬 좋아져서 물건을 잡는 실수가 줄어듭니다. (한쪽 눈을 감고 컵을 잡는 것보다 두 눈으로 보는 게 훨씬 쉽죠.)
자세 감각 (프로리오셉션): 로봇이 자신의 팔 위치를 아는 정보를 어디에 넣을지 실험했습니다.
- 결과: 이 정보를 로봇의 '눈과 귀 (VLM)' 부분에 먼저 넣어주면, 로봇이 상황을 더 잘 이해하고 움직입니다. (요리사가 칼을 쥔 손의 감각을 뇌가 직접 느끼는 것과 같습니다.)
과거 정보: 과거의 장면을 계속 보여주는 게 좋은지 실험했습니다.
- 결과: 오히려 현재 장면 하나만 보는 게 더 집중력이 좋았습니다. (과거의 기억이 너무 많으면 오히려 혼란스러워질 수 있죠.)

🎯 영역 3: 행동 모델링 (조리 기술)

미래 예측 (세계 모델링): 로봇이 "다음에 어떤 장면이 펼쳐질지" 상상하게 하면 좋을까요?
- 결과: 성능은 좋아지지만, 계산 비용이 3 배나 늘어 비효율적이었습니다. (맛은 좋지만 너무 비싼 식재료를 쓰는 셈이죠.)
주파수 분석: 로봇의 움직임을 '소리의 주파수'처럼 분석하면 어떨까요?
- 결과: 아주 적은 비용으로 성능을 크게 향상시켰습니다. (요리할 때 불 조절을 미세하게 맞추는 것과 비슷합니다.)

🏆 결과: VLANeXt 의 등장

이 모든 실험을 통해 찾아낸 최고의 레시피를 조합한 모델이 바로 VLANeXt입니다.

놀라운 점: VLANeXt 은 다른 최신 모델들보다 모델 크기는 작지만 (25 억 개 파라미터 vs 70 억 개), 성능은 훨씬 뛰어납니다.
성공: 기존에 로봇이 가장 어려워하던 'LIBERO'라는 테스트와, 더 어려운 'LIBERO-plus'(빛, 배경, 소음 등 환경이 바뀌는 상황) 에서 최고의 기록을 세웠습니다.
실제 적용: 실제 로봇 팔을 이용해 상자를 정리하거나 서랍을 여는 등 현실 세계에서도 잘 작동했습니다.

💡 이 연구의 핵심 메시지

이 논문은 단순히 "새로운 로봇 두뇌를 만들었다"는 것을 넘어, "로봇을 가르치는 올바른 방법론 (레시피)"을 정리했다는 데 의미가 큽니다.

"로봇을 더 똑똑하게 만드는 건, 무작정 모델을 키우는 것 (식재료를 많이 쓰는 것) 이 아니라, 어떻게 정보를 연결하고, 어떤 감각을 활용하며, 어떻게 움직임을 학습시킬지에 대한 현명한 선택에서 나옵니다."

연구팀은 이 레시피와 코드를 모두 공개하여, 누구나 이 '요리법'을 따라 해보고 새로운 로봇 두뇌를 개발할 수 있도록 도울 예정입니다. 이제 로봇 공학계는 혼란스러운 ' primordial soup(원시 수프)' 상태에서, 체계적인 '요리 학교'로 한 걸음 나아갔다고 볼 수 있습니다.

Each language version is independently generated for its own context, not a direct translation.

VLANeXt: 강력한 VLA 모델 구축을 위한 레시피 (Technical Summary)

이 논문은 현재 분산되어 있고 탐색적인 상태인 비전 - 언어 - 액션 (VLA, Vision-Language-Action) 모델 연구 분야를 체계화하기 위해 수행된 연구입니다. 저자들은 기존 VLA 모델들의 설계 선택지 (design choices) 가 일관된 평가 프레임워크 하에서 어떻게 성능에 영향을 미치는지 분석하고, 이를 통해 강력한 VLA 모델을 구축하는 12 가지 핵심 '레시피'를 도출했습니다. 그 결과로 VLANeXt이라는 새로운 모델을 제안하였으며, 이는 기존 최첨단 방법론보다 우수한 성능을 입증했습니다.

1. 문제 정의 (Problem)

최근 대규모 기초 모델 (Foundation Models) 의 발전으로 로봇 제어 분야에서 VLA 모델이 주목받고 있습니다. 그러나 현재 VLA 연구 환경은 다음과 같은 문제점을 안고 있습니다:

분산된 연구 환경: 다양한 그룹이 각자의 VLA 모델을 제안하고 있지만, 훈련 프로토콜과 평가 설정이 불일치하여 어떤 설계 선택이 실제로 중요한지 파악하기 어렵습니다.
구조의 부재: 아이디어는 풍부하지만 체계적인 구조가 부족하여 ('primordial soup' 상태), 효율적인 모델 개발을 저해합니다.
성능 한계: 단순히 모델 크기를 키우거나 특정 작업에 맞춰 엔지니어링하는 방식보다는, 원칙에 기반한 설계 선택이 더 중요할 수 있음에도 불구하고 이를 검증한 연구가 부족했습니다.

2. 방법론 (Methodology)

저자들은 RT-2 와 OpenVLA 와 유사한 간단한 VLA 베이스라인에서 시작하여, 세 가지 차원을 따라 체계적으로 설계 공간을 탐구했습니다. 모든 실험은 LIBERO 및 LIBERO-plus(강건성과 일반화 능력을 평가하기 위해 다양한 교란을 추가한 벤치마크) 에서 수행되었습니다.

2.1. 핵심 구성 요소 (Foundational Components)

정책 모듈 설계 (Policy Module Design): 텍스트 토큰을 재사용하는 방식 대신, 별도의 정책 헤드를 도입하거나 메타쿼리 (MetaQuery) 와 유사하게 더 많은 토큰과 깊은 레이어를 가진 전용 정책 모듈을 사용하는 것이 성능 향상에 기여함을 발견했습니다.
액션 청킹 (Action Chunking): 단일 액션 예측 대신 미래의 여러 액션을 한 번에 예측하는 '액션 청킹'을 도입하여 시간적 일관성을 높였습니다. (Chunk size 8 사용)
학습 목적 함수 (Action Learning Objective): 분류 (Classification) 기반 접근법보다 Flow Matching과 같은 연속적인 회귀 (Regression) 기반 목적 함수가 벤치마크의 가우시안 분포를 가진 액션 공간에서 더 우수한 성능을 보였습니다.
VLM 백본 용량 (VLM Backbone Capacity): 더 강력한 VLM 백본 (예: Qwen3-VL-2B) 을 사용할수록 VLA 성능이 향상됨을 확인했습니다.
VLM-정책 연결 (VLM-Policy Connection): VLM 과 정책 모듈을 완전히 분리 (Loose) 하거나 레이어별로 직접 연결 (Tight) 하는 것보다, **학습 가능한 쿼리 버퍼 (Learnable Query Buffer)**를 사이에 두는 'Soft Connection' 전략이 가장 효과적이었습니다.

2.2. 지각 필수 요소 (Perception Essentials)

다중 뷰 입력 (Multi-view): 3 인칭 시점과 손목 카메라 (Wrist camera) 를 모두 활용하는 것이 단일 뷰보다 공간적 모호성을 해결하는 데 도움이 되어 성능을 크게 향상시켰습니다.
고유감각 (Proprioception) 조건부 입력: 로봇의 내부 상태 (관절 각도 등) 정보를 VLM 레벨에서 입력으로 조건부 처리하는 것이 정책 모듈에 직접 주입하는 것보다 더 좋은 성능을 냈습니다. 이는 시각 및 언어 정보와의 융합을 원활하게 하기 때문입니다.
시간적 관찰 역사: 과거 프레임의 시간적 역사를 추가하는 것은 오히려 노이즈를 유발하여 성능을 저하시켰으므로, 현재 프레임만 사용하는 것이 효율적이었습니다.

2.3. 액션 모델링 관점 (Action Modelling Perspectives)

세계 모델링 (World Modelling): 미래 프레임을 예측하는 보조 목적 함수는 성능을 향상시켰지만, 훈련 시간을 3 배 이상 증가시켜 실용성이 낮았습니다.
시계열 예측 관점 (Time Series Forecasting): 액션 시퀀스를 주파수 영역 (Frequency Domain) 에서 모델링하는 보조 손실 함수 (Frequency Domain Loss) 를 도입하여, 거의 추가 비용 없이 성능을 추가로 향상시켰습니다.

3. 주요 기여 (Key Contributions)

체계적인 설계 레시피 도출: 3 가지 차원 (핵심 구성 요소, 지각, 액션 모델링) 에 대한 체계적인 분석을 통해 12 가지 핵심 발견을 정리하고, 이를 바탕으로 강력한 VLA 모델을 구축하는 실용적인 레시피를 제시했습니다.
VLANeXt 모델 제안: 위 레시피를 적용하여 개발된 VLANeXt는 2.5B 파라미터 크기로, 7B 파라미터의 OpenVLA-OFT 를 포함한 기존 최첨단 모델들을 능가하는 성능을 달성했습니다.
공유 코드베이스 및 프레임워크: 연구 결과의 재현과 커뮤니티의 추가 연구를 위해 통일되고 사용하기 쉬운 코드베이스를 공개하여, VLA 설계 공간에 대한 체계적인 연구를 장려합니다.

4. 실험 결과 (Results)

LIBERO 벤치마크: VLANeXt 은 Spatial, Object, Goal, Long 등 모든 작업_suite_에서 최상의 성공률을 기록했습니다. 특히 평균 성공률은 97.4% 로, 기존 최고 성능 모델 (OpenVLA-OFT, 97.1%) 을 상회했습니다.
LIBERO-plus 벤치마크 (강건성 평가): 조명, 배경, 로봇 상태, 언어 지시 등의 다양한 교란 (Perturbation) 하에서도 VLANeXt 은 OpenVLA-OFT 대비 약 10% 높은 성공률 (평균 80.1% vs 69.6%) 을 보여주며 뛰어난 일반화 능력을 입증했습니다.
실제 로봇 실험 (Real-World): Franka Emika(단일 암) 와 Aloha(이중 암) 로봇을 이용한 실제 환경 실험에서도 VLANeXt 은 OpenVLA-OFT 와 $\pi_0$ 보다 높은 성공률을 보였습니다. 특히 이중 암 작업에 대한 전이 학습 없이도 적응 가능한 능력을 입증했습니다.

5. 의의 및 결론 (Significance)

이 논문은 VLA 모델 개발이 단순히 모델 크기를 늘리는 것이 아니라, **원칙에 기반한 설계 선택 (Principled Design Choices)**을 통해 성능을 극대화할 수 있음을 보여줍니다.

효율성: 거대한 모델이나 복잡한 세계 모델링 없이도, 적절한 아키텍처 설계 (Soft Connection, Multi-view, Frequency Loss 등) 만으로도 최첨단 성능을 달성할 수 있음을 증명했습니다.
지표의 중요성: 정보 주입 위치 (예: 고유감각을 VLM 에 넣는 것) 나 액션 모델링 관점 (주파수 영역 모델링) 과 같은 세부 사항이 성능에 결정적인 영향을 미친다는 점을 강조했습니다.
미래 방향: 이 연구는 VLA 분야가 무질서한 탐색에서 벗어나 체계적인 설계 공간 탐구로 나아가야 함을 시사하며, 향후 더 다양한 신체 구조 (Embodiment) 와 장기적 추론을 위한 기반을 마련했습니다.

요약하자면, VLANeXt은 체계적인 실험을 통해 도출된 설계 레시피를 기반으로 한 효율적이면서도 강력한 VLA 모델로, 로봇 제어 분야에서 새로운 표준을 제시합니다.

VLANeXt: Recipes for Building Strong VLA Models