Each language version is independently generated for its own context, not a direct translation.

1. "20,000 시간의 요리 실습" (데이터의 힘)

기존의 로봇들은 요리 레시피를 책으로만 100 번 읽은 상태라면, 링봇-VLA 는 실제 주방에서 20,000 시간 동안 요리 실습을 한 셰프와 같습니다.

어떻게 배웠나요? 연구팀은 9 가지 다른 종류의 로봇 팔 (이중 팔 로봇) 을 이용해 실제 세상에서 약 20,000 시간 분량의 데이터를 모았습니다. 빵을 굽고, 샐러드를 만들고, 장난감을 정리하는 등 다양한 작업을 인간이 원격으로 조종하며 기록했습니다.
왜 중요할까요? 보통 로봇은 새로운 일을 배우려면 다시 처음부터 공부해야 하지만, 링봇-VLA 는 이렇게 방대한 경험을 통해 **"어떤 상황에서도 유연하게 대처하는 직관"**을 얻었습니다. 마치 20,000 시간의 경험을 쌓은 셰프가 새로운 재료가 들어와도 "아, 이걸로 이런 요리를 만들 수 있겠구나!"라고 바로 알아채는 것과 같습니다.

2. "눈과 손의 완벽한 팀워크" (모델의 구조)

이 로봇은 두 가지 전문가가 한 몸에서 협력하는 구조로 되어 있습니다.

이해 전문가 (Vision-Language Expert): 인간의 말 ("꽃병에 꽃을 꽂아줘") 을 듣고, 카메라로 보는 장면을 분석하는 두뇌입니다.
행동 전문가 (Action Expert): "왼손으로 꽃을 잡고, 오른쪽으로 꽃병을 들어라"처럼 구체적인 손 움직임을 계산하는 두뇌입니다.
비유하자면? 이 로봇은 **명상가 (이해)**와 **무술 선수 (행동)**가 한 몸이 된 것과 같습니다. 명상가가 상황을 파악하면 무술 선수가 즉시 그에 맞는 동작을 수행합니다. 여기에 깊이 (Depth) 정보를 더하면, 마치 3D 안경을 쓴 상태로 물체의 거리와 위치를 정확히 파악하여 실수를 줄입니다.

3. "초고속 훈련 공장" (효율성)

기존의 로봇 두뇌를 훈련시키려면 거대한 컴퓨터 (GPU) 가 몇 달 동안 돌아가야 했지만, 링봇-VLA 를 만든 연구팀은 훈련 공장을 개조했습니다.

비유하자면? 기존 방식이 "한 번에 한 명씩 요리 실습을 시키는 것"이었다면, 링봇-VLA 의 코드 (소프트웨어) 는 8 개의 대형 오븐을 동시에 가동하여 261 개의 요리를 한 번에 만들어내는 초고속 공장입니다.
결과: 기존 기술보다 1.5 배에서 2.8 배까지 더 빠르게 학습할 수 있어, 개발 비용과 시간을 획기적으로 줄였습니다.

🏆 실제 성능 테스트: "100 가지 미션 챌린지"

이 로봇이 정말 잘하는지 확인하기 위해, 연구팀은 3 가지 다른 로봇을 이용해 100 가지 다양한 미션 (예: 토스트를 구워 샌드위치를 만들기, 레고 블록 크기순으로 정리하기 등) 을 시켰습니다.

결과: 경쟁사들의 최신 로봇 두뇌들보다 압도적으로 높은 성공률을 보였습니다.
특이점: 로봇의 종류 (팔의 길이, 카메라 위치 등) 가 달라도 성능이 떨어지지 않았습니다. 마치 유연한 춤꾼이 어떤 무대 (로봇) 에 서도 똑같이 잘 추는 것과 같습니다.

🌍 이 연구의 의미: "열린 보물상자"

가장 중요한 점은 연구팀이 이 모든 것을 공개했다는 것입니다.

코드, 모델, 데이터를 누구나 무료로 사용할 수 있게 했습니다.
이는 마치 레고 블록의 설계도와 완성된 예시를 모두 공개하여, 전 세계의 개발자들이 이 위에 더 멋진 로봇을 만들 수 있도록 돕는 것과 같습니다.

요약

링봇-VLA는 방대한 실습 경험 (20,000 시간), 눈과 손의 완벽한 협력, 그리고 초고속 훈련 시스템을 통해, 실제 세상에서 인간처럼 유연하고 똑똑하게 일할 수 있는 로봇을 만드는 데 한 걸음 더 다가선 기술입니다. 이제 로봇은 단순한 기계가 아니라, 새로운 일을 배우고 적응할 수 있는 **'실전 전문가'**가 되어가고 있습니다.

Each language version is independently generated for its own context, not a direct translation.

LingBot-VLA: 실용적인 VLA 기반 모델에 대한 기술적 요약

이 논문은 로봇 조작 (manipulation) 분야에서 자연어 지시를 따르는 시각 - 언어 - 행동 (Vision-Language-Action, VLA) 기반 모델의 실용성과 확장성을 입증하기 위해 제안된 LingBot-VLA에 대한 연구입니다. 저자들은 대규모 실세계 데이터와 최적화된 학습 인프라를 통해 기존 모델들의 한계를 극복하고, 다양한 로봇 플랫폼에서 뛰어난 일반화 성능을 보이는 모델을 개발했습니다.

1. 문제 정의 (Problem)

기존 VLA 모델들은 대규모 사전 학습을 통해 다양한 작업을 수행할 수 있는 잠재력을 보였으나, 다음과 같은 주요 한계가 존재했습니다:

실세계 데이터 확장성에 대한 경험적 연구 부족: 데이터 양이 증가함에 따라 실제 로봇의 성능이 어떻게 스케일링되는지에 대한 체계적인 실증 연구가 부족했습니다.
효율적인 학습 코드베이스 부재: 방대한 양의 실세계 데이터를 처리할 수 있도록 최적화된 고효율 학습 인프라가 커뮤니티에 부족했습니다.
포괄적인 평가 기준의 부재: 기존 평가는 시뮬레이션에 의존하거나 소수의 작업/플랫폼에 국한되어 있어, 실제 배포 환경에서의 신뢰성을 검증하기 어려웠습니다.

2. 방법론 (Methodology)

2.1 대규모 실세계 데이터셋 구축

데이터 규모: 9 가지 인기 있는 듀얼 암 (dual-arm) 로봇 구성 (AgiBot G1, AgileX, Galaxea R1Lite/Pro, Realman, Leju KUAVO 4 Pro, Qinglong, ARX Lift2, Bimanual Franka 등) 에서 수집된 약 20,000 시간의 실세계 조작 데이터를 활용했습니다.
데이터 처리:
- 자동 주석 및 인간 정제: VR 기반 텔레오퍼레이션으로 수집된 비디오를 인간 주석가가 원자 행동 (atomic actions) 단위로 분할하고, Qwen3-VL-235B-A22B 와 같은 대형 언어 모델을 활용하여 작업 및 하위 작업 지시문을 정밀하게 주석했습니다.
- 다양성: 작업의 시작과 종료 시점의 정적 프레임을 제거하여 중복 정보를 줄이고, 다양한 물체 배치와 환경 조건을 포함하도록 설계되었습니다.

2.2 모델 아키텍처 (LingBot-VLA)

기반 구조: 사전 학습된 강력한 시각 - 언어 모델 (VLM, Qwen2.5-VL) 과 초기화된 행동 생성 모듈인 **'Action Expert'**를 통합했습니다.
Mixture-of-Transformers (MoT): BAGEL 아키텍처를 차용하여 시각 - 언어 모달리티와 행동 모달리티를 별도의 트랜스포머 경로를 통해 처리하되, 계층별 통합 시퀀스 모델링을 위해 공유된 자기 주의 (self-attention) 메커니즘으로 연결했습니다. 이를 통해 고차원 의미 사전 지식 (semantic priors) 이 모든 계층에서 지속적으로 가이드되도록 하면서 모달리티 간 간섭을 최소화했습니다.
행동 모델링: 연속적인 행동 생성을 위해 Flow Matching을 사용했습니다. 이는 매끄럽고 정밀한 로봇 제어를 가능하게 합니다.
공간 인식 강화: 복잡한 조작 작업을 위해 Depth Information을 통합했습니다. 학습 가능한 쿼리 (learnable queries) 를 VLM 을 통해 처리하고, 별도의 Depth 모델 (LingBot-Depth) 의 토큰과 정렬 (distillation) 하여 기하학적 정보를 모델에 주입했습니다.

2.3 학습 효율성 최적화

분산 학습 전략: GPU 메모리 사용량과 학습 처리량 (throughput) 간의 균형을 위해 **FSDP (Fully Sharded Data Parallel)**를 사용했습니다. 특히 Action Expert 모듈을 위한 전용 'shard groups'를 구성하여 통신 오버헤드를 줄였습니다.
연산자 수준 최적화: FlexAttention을 활용하여 희소 주의 (sparse attention) 과정을 최적화하고, torch.compile 을 통한 연산자 융합 (operator fusion) 으로 커널 실행 오버헤드를 줄였습니다.
성능: 8-GPU 설정에서 초당 261 샘플의 처리량을 달성하여 기존 VLA 코드베이스 대비 1.5~2.8 배의 속도 향상을 보였습니다.

3. 주요 기여 (Key Contributions)

실세계 데이터 스케일링 법칙 입증: 3,000 시간에서 20,000 시간으로 데이터를 확장함에 따라 하류 작업의 성공률이 지속적으로 향상되었으며, 20,000 시간 지점에서도 포화 현상이 나타나지 않음을 최초로 실증했습니다.
포괄적인 실세계 벤치마크 평가: 3 개의 서로 다른 로봇 플랫폼 (AgileX, Agibot G1, Galaxea R1Pro) 에서 100 가지 다양한 작업 (GM-100 벤치마크) 에 대해 각각 130 회 이상의 에피소드를 수행하는 대규모 평가를 수행했습니다.
고효율 오픈소스 코드베이스: 대규모 VLA 학습을 위한 최적화된 코드를 공개하여, 커뮤니티의 연구 속도를 가속화하고 재현성을 높였습니다.
오픈 액세스: 코드, 베이스 모델, 벤치마크 데이터를 공개하여 더 어려운 작업과 건전한 평가 기준을 촉진했습니다.

4. 실험 결과 (Results)

4.1 실세계 벤치마크 (GM-100)

성능 비교: WALL-OSS, GR00T N1.6, $\pi_0.5$ $π_{0} .5$ 등 최신 VLA 모델들과 비교하여 모든 플랫폼에서 명확한 우위를 보였습니다.
- **Depth 통합 모델 (Ours w/ depth)**은 $\pi_0.5$ 대비 평균 성공률 (SR) 이 4.28% 증가하고 진행 점수 (PS) 가 7.76% 향상되었습니다.
- Agibot G1, AgileX, Galaxea R1Pro 전 플랫폼에서 가장 높은 평균 성공률 (17.30%) 을 기록했습니다.
일반화 능력: 사전 학습 데이터에 포함되지 않은 새로운 로봇 플랫폼에서도 높은 성능을 발휘하여 뛰어난 이식성 (transferability) 을 입증했습니다.

4.2 시뮬레이션 벤치마크 (RoboTwin 2.0)

Clean 및 Randomized Scene: 깨끗한 환경과 다양한 난이도의 무작위 환경 (배경, 조명, 물체 배치 등) 에서 모두 $\pi_0.5$ $π_{0} .5$ 보다 우수한 성능을 보였습니다.
- Randomized 환경에서 Depth 통합 모델은 $\pi_0.5$ 대비 **9.92%**의 절대적인 성공률 향상을 달성했습니다.

4.3 데이터 효율성 및 스케일링

데이터 효율성: 제한된 데이터 (작업당 80 개 시연) 로도 $\pi_0.5$ 의 전체 데이터 (130 개) 학습 모델보다 우수한 성능을 보여주어 데이터 효율성이 뛰어남을 입증했습니다.
스케일링: 데이터 양이 증가함에 따라 성공률과 진행률이 꾸준히 상승하는 경향을 보였습니다.

5. 의의 및 결론 (Significance)

LingBot-VLA 는 로봇 학습 분야에서 대규모 실세계 데이터의 가치와 효율적인 학습 인프라의 중요성을 동시에 입증했습니다.

실용성: 높은 일반화 능력과 계산 효율성을 바탕으로 실제 로봇 배포에 즉시 적용 가능한 수준의 성능을 제공합니다.
연구 방향 제시: 데이터 양이 증가할수록 성능이 계속 향상된다는 사실은 향후 더 방대한 데이터 수집과 모델 확장의 필요성을 강조합니다.
커뮤니티 기여: 오픈소스 리소스를 통해 연구자들이 더 복잡한 작업과 엄격한 평가 기준을 개발할 수 있는 기반을 마련했습니다.

이 연구는 VLA 모델이 단순한 실험실 단계를 넘어, 다양한 환경과 로봇 하드웨어에서 신뢰할 수 있게 작동하는 실용적인 지능형 에이전트로 발전할 수 있음을 보여주는 중요한 이정표입니다.

A Pragmatic VLA Foundation Model