Each language version is independently generated for its own context, not a direct translation.

씨앗에서 거대 나무까지: 로봇이 스스로 배우는 'Seed2Scale' 이야기

이 논문은 **"로봇이 아주 적은 지시만으로도 스스로 수많은 경험을 쌓아 실력을 키우는 방법"**을 소개합니다. 기존에는 로봇을 가르치려면 사람이 직접 수천 번, 수만 번 시범을 보여줘야 했지만, 이 기술은 4 번의 시범만으로도 로봇이 스스로 학습하고 성장할 수 있게 해줍니다.

이 기술을 쉽게 이해할 수 있도록 **'마법 같은 농장'**에 비유해 설명해 드릴게요.

🌱 1. 문제: "로봇을 가르치려면 너무 많은 사람이 필요해!"

지금까지 로봇을 가르치려면 인간이 직접 로봇의 손을 잡고 "이것을 들어라", "저것을 놓아라"라고 수천 번 시범을 보여줘야 했습니다. 이는 마치 한 마리의 소를 키우기 위해 수만 마리의 풀을 직접 베어 가져와야 하는 것과一样로, 비용도 많이 들고 시간도 너무 오래 걸립니다. 그래서 로봇이 똑똑해지기가 매우 어려웠습니다.

🚀 2. 해결책: 'Seed2Scale' (씨앗에서 규모로)

이 연구팀은 **"작은 씨앗 (4 번의 시범) 만 있으면, 로봇이 스스로 농장을 키워 거대한 나무가 될 수 있다"**는 아이디어를 제안했습니다. 이를 위해 세 명의 **'가상의 농부'**가 팀을 이루어 일합니다.

🤖 농부 A: '슈퍼/tiny' (작은 로봇, 열정적인 수확가)

역할: 아주 작고 빠른 로봇입니다.
특징: 머리가 크지 않아서 (모델이 가벼워서) 엄청나게 빠르고 저렴하게 일을 합니다.
일: 인간이 보여준 4 번의 시범만 보고, "아마도 이렇게 해볼까?"라고 상상하며 수천 번의 실험을 동시에 진행합니다.
- 비유: 마치 초보 요리사가 레시피 4 개만 보고 수천 가지 요리를 만들어보는 것과 같습니다. 대부분 실패하거나 맛이 없을지라도, 일단 많이 만들어보는 것이 중요합니다.

👁️ 농부 B: '검증자' (거대한 AI, 엄격한 심사위원)

역할: 아주 똑똑하고 경험이 풍부한 거인입니다.
특징: 직접 요리를 하지는 않지만, 눈이 매우 밝고 판단력이 뛰어납니다.
일: 농부 A 가 만들어낸 수천 가지 요리를 하나하나 맛보고 평가합니다.
- "이건 타버렸네? (실패)" → 버림
- "먹을만하지만 좀 짜네? (보통)" → 보류
- "완벽한 맛이야! (성공)" → 수확
중요성: 실패한 요리 (나쁜 데이터) 가 섞이면 로봇이 망가질 수 있습니다. 이 '검증자'가 나쁜 데이터를 걸러내서 로봇이 오직 좋은 경험만 배우게 해줍니다.

🎓 농부 C: '타겟 모델' (배우는 로봇, 최종 졸업생)

역할: 진짜 실력을 키울 로봇입니다.
일: 농부 B 가 엄선해준 **'최고급 요리 레시피 (고품질 데이터)'**만 가지고 공부합니다.
결과: 처음엔 서툴렀지만, 검증된 좋은 경험만 반복해서 학습하니 점점 더 똑똑해집니다.

🔄 3. 과정: "스스로 진화하는 사이클"

이 세 농부는 끊임없이 돌아가는 마법 같은 사이클을 만듭니다.

시작: 인간이 4 번만 시범을 보여줍니다. (씨앗 심기)
수확: '슈퍼/tiny'가 이 씨앗을 바탕으로 수천 번의 실험을 합니다. (대량 생산)
선별: '검증자'가 그중 진짜 성공한 것만 골라냅니다. (불량품 제거)
학습: '타겟 로봇'은 좋은 것만 보고 실력을 늘립니다.
반복: 실력이 늘어난 로봇이 다시 더 많은 실험을 하고, 검증자가 더 정교하게 골라냅니다. (점점 더 큰 나무로 성장)

이 과정을 거치면 로봇은 처음의 4 번 시범만으로는 절대 할 수 없었던 복잡한 일도 해낼 수 있게 됩니다.

🏆 4. 결과: "기적 같은 성장"

실험 결과를 보니 놀라운 일이 일어났습니다.

성공률 209% 상승: 처음엔 22% 만 성공하던 로봇이, 이 시스템을 통해 68% 이상 성공하게 되었습니다.
다른 방법보다 훨씬 좋음: 기존에 로봇을 가르치던 다른 방법 (예: 시뮬레이션만 돌려보는 방법) 보다 훨씬 자연스럽고 정확한 움직임을 보여줍니다. 마치 실제 인간이 시범을 보인 것처럼 부드럽게 움직입니다.
비용 절감: 사람이 일일이 가르칠 필요 없이, 로봇이 스스로 배우기 때문에 시간과 돈이 엄청나게 절약됩니다.

💡 요약

Seed2Scale은 **"적은 씨앗 (4 번의 시범)"**을 **"작은 로봇 (빠른 수확)"**과 **"똑똑한 심사위원 (엄격한 검증)"**이 협력하게 만들어, 로봇이 스스로 수천 번의 경험을 쌓아 거대한 실력을 갖도록 만든 혁신적인 기술입니다.

이제 로봇은 더 이상 인간이 수천 번 시범을 보여줄 필요 없이, **스스로 배우고 성장하는 '자립적인 존재'**가 될 수 있게 되었습니다! 🌱➡️🌳

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

Embodied AI(신체화된 인공지능) 의 핵심인 Vision-Language-Action (VLA) 모델의 성능은 대규모의 고품질 전문가 시연 (Human Demonstration) 데이터에 의존합니다. 그러나 수동 데이터 수집은 비용이 많이 들고 시간이 소요되어 '데이터 부족'이라는 병목 현상을 초래합니다. 기존 자동화 데이터 생성 방법들은 다음과 같은 한계가 있습니다:

탐색의 한계: 단순한 데이터 증강 (Data Augmentation) 은 인간 시연의 '편안한 영역 (Comfort Zone)' 내에서만 작동하여 새로운 행동 논리를 생성하지 못합니다.
구현 격차 (Embodiment Gap): 인터넷 비디오 기반 학습은 물리적 로봇의 실행 명령으로 정밀하게 변환하기 어렵습니다.
신호 대 잡음비 (SNR) 저하: 자동 수집 과정에서 실패한 시도가 데이터에 포함될 경우, 모델의 성능이 Iteration(반복 학습) 을 거치며 오히려 저하되는 '모델 붕괴 (Model Collapse)' 현상이 발생합니다.

2. 방법론 (Methodology)

저자들은 이러한 문제를 해결하기 위해 **"작은 모델 수집, 큰 모델 평가, 목표 모델 학습"**이라는 이질적 시너지 (Heterogeneous Synergy) 아키텍처를 가진 Seed2Scale을 제안합니다.

A. 핵심 구성 요소

SuperTiny (소규모 수집기, Small-Scale Collector):
- 역할: 데이터 수집을 위한 경량 VLA 모델.
- 특징: 450M 파라미터의 타겟 모델과 달리, 48M 파라미터 (ResNet-18 + T5-Small + 경량 Transformer) 로 설계되어 매우 빠른 추론 속도를 가집니다.
- 기능: 최소한의 시드 데이터 (4 개) 로부터 강력한 귀납적 편향 (Inductive Bias) 을 통해 대규모 병렬 환경에서 robust 한 탐색을 수행합니다.
VLV-Agent (대규모 검증기, Large-Scale Verifier):
- 역할: 생성된 궤적의 품질을 자동으로 평가하고 필터링하는 VLM (Vision-Language Model).
- 구현: 사전 학습된 Qwen3-VL(32B) 을 사용하여 고정된 (Frozen) 상태의 검증기로 작동합니다.
- 기능: 작업 지시문, 현재 시도 영상, 성공 시연 영상을 입력받아 성공/실패 판단 및 품질 점수 (0~10) 를 부여합니다. 이를 통해 실패하거나 품질이 낮은 궤적을 제거하여 모델 붕괴를 방지합니다.
SmolVLA (목표 모델, Target Model):
- 역할: 최종적으로 고품질 데이터로 학습되는 VLA 모델.
- 학습: 검증된 고품질 데이터 ( $D_{silver}$ ) 를 기반으로 Conditional Flow Matching 기법을 사용하여 학습합니다.

B. 작동 프로세스 (Seed-to-Scale Bootstrapping)

시드 부트스트래핑: 테이블 작업 공간의 4 개 모서리 위치에서 수집된 최소 4 개의 인간 시연 데이터로 시작합니다.
병렬 데이터 수집: SuperTiny 를 사용하여 수천 개의 병렬 환경에서 초기 궤적을 생성합니다.
VLV 검증 및 필터링: 생성된 궤적을 VLV-Agent 가 평가합니다. 품질 임계값 ( $\gamma$ ) 을 넘는 고품질 궤적만 선별하여 데이터셋에 추가합니다.
반복적 학습 (Deep Iteration): 선별된 데이터로 SuperTiny 를 업데이트하고, 다시 새로운 데이터를 수집하는 과정을 반복합니다.
최종 학습: 축적된 고품질 데이터로 SmolVLA 를 학습시켜 복잡한 기술까지 확장합니다.

3. 주요 기여 (Key Contributions)

비용 효율적인 자기 진화 엔진: 4 개의 인간 시연만으로 대규모 고품질 데이터를 생성하여, Embodied AI 의 수동 데이터 의존성을 획기적으로 줄였습니다.
VLM 기반 데이터 큐레이션 파이프라인: 경량 VLA 수집기와 사전 학습된 VLM 검증기를 결합하여, 자기 반복 학습 중 발생하는 성능 저하를 방지하고 안정적인 진화를 가능하게 했습니다.
이질적 모델 시너지: "작은 모델의 탐색 효율성"과 "큰 모델의 일반화/평가 능력"을 결합하여 탐구 효율성과 일반화 능력 간의 트레이드오프를 해결했습니다.
실험적 검증 및 확장성: 반복 학습을 통해 목표 모델의 성공률이 지속적으로 상승함을 입증했습니다.

4. 실험 결과 (Results)

성능 향상: 4 개의 시드 데이터만으로 학습된 타겟 모델의 성공률은 평균 22.18% 에서 68.57% 로 상승하여, 209.15% 의 상대적 개선을 기록했습니다. 특히 'Can Stacking' 작업에서는 778.67% 의 개선이 있었습니다.
기존 방법 대비 우위:
- MimicGen (기존 데이터 증강법) 대비: 재현 성공률 (Replay Success Rate) 에서 4 배 이상 향상되었으며, 정책 성공률에서도 현저히 높은 성능을 보였습니다.
- 궤적 품질: 생성된 궤적의 Total Variation(변화량) 과 Jerk(가속도 변화율) 가 인간 시연과 유사하거나 더 매끄러운 수준을 보여, 물리적 실행 가능성이 높음을 입증했습니다.
수렴 속도: SuperTiny 수집기는 ACT 나 Diffusion Policy 기반 수집기보다 더 빠른 수렴 속도와 더 높은 최종 성능을 보였습니다.
VLV 의 효과성: VLV 를 통한 품질 필터링을 제거한 경우 (SuperTiny-) 성능이 크게 저하되어, 단순 성공/실패 판단뿐만 아니라 '품질 게이트키퍼' 역할이 필수적임을 입증했습니다.

5. 의의 및 결론 (Significance)

Seed2Scale 은 Embodied AI 분야에서 데이터 부족의 근본적인 병목 현상을 해결할 수 있는 새로운 패러다임을 제시합니다.

스케일링 가능성: 인간의 개입 없이도 자기 진화 (Self-evolving) 를 통해 데이터의 양과 질을 동시에 확장할 수 있음을 증명했습니다.
실용성: 저비용 (4 개 시드) 으로 시작하여 복잡한 조작 기술을 습득할 수 있어, Generalist Embodied AI(범용 신체 AI) 의 상용화와 확장성을 크게 높입니다.
안정성: 대규모 VLM 을 검증자로 활용함으로써, 자동화 학습 과정에서 발생할 수 있는 오류 누적과 모델 붕괴를 효과적으로 차단합니다.

이 연구는 소규모 데이터에서 시작하여 대규모 고품질 데이터 생태계를 구축하는 자기 진화형 데이터 엔진의 가능성을 보여주며, 향후 장기적 작업 (Long-horizon tasks) 및 다양한 로봇 형태 (Cross-embodiment) 로의 확장을 위한 기반을 마련했습니다.

Seed2Scale: A Self-Evolving Data Engine for Embodied AI via Small to Large Model Synergy and Multimodal Evaluation