AtomicVLA: Unlocking the Potential of Atomic Skill Learning in Robots

이 논문은 장기적 작업과 지속적 학습을 위한 기존 VLA 모델의 한계를 극복하기 위해, 기술 가이드 혼합 전문가 (SG-MoE) 를 활용한 확장 가능한 원자 기술 라이브러리와 유연한 라우팅 인코더를 통해 작업 계획, 원자 기술 추상화, 정밀 행동을 통합적으로 생성하는 'AtomicVLA' 프레임워크를 제안하고 그 우수성을 입증합니다.

Likui Zhang, Tao Tang, Zhihao Zhan, Xiuwei Chen, Zisheng Chen, Jianhua Han, Jiangtong Zhu, Pei Xu, Hang Xu, Hefeng Wu, Liang Lin, Xiaodan Liang

게시일 Tue, 10 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **'AtomicVLA(아토믹 VLA)'**라는 새로운 로봇 학습 시스템을 소개합니다. 이 시스템을 이해하기 위해 복잡한 기술 용어 대신, **'요리사'**와 **'레시피'**에 비유해서 설명해 드리겠습니다.

🍳 핵심 비유: "한 명의 천재 요리사 vs 전문 요리팀"

기존의 로봇 모델들은 마치 **"모든 요리를 혼자서 다 해보려는 초보 요리사"**와 비슷했습니다.

  • 문제점: 이 요리사는 파스타를 만들다가 갑자기 스테이크를 구우면, 파스타를 잊어버리거나 스테이크를 태우는 등 실수를 자주 했습니다. 또한, 새로운 요리 (예: 디저트) 를 배우려면 모든 레시피를 다시 외워야 했기 때문에 시간이 너무 오래 걸리고, 이전에 배운 요리 실력이 사라지는 (망각) 문제가 있었습니다.

AtomicVLA는 이 문제를 해결하기 위해 **"전문가들이 모여 있는 요리팀"**으로 변신했습니다.


1. AtomicVLA 가 어떻게 작동할까요?

① "생각 (Thinking)"과 "행동 (Acting)"을 나누다

기존 로봇은 "무엇을 할지"와 "어떻게 움직일지"를 동시에 하느라 혼란스러웠습니다. 하지만 AtomicVLA 는 두 단계를 명확히 나눕니다.

  • 생각 단계 (두뇌): 로봇은 먼저 "오늘 메뉴가 뭐지? 먼저 불을 켜고, 다음에 냄비를 올리고, 그다음 뚜껑을 닫아야지"라고 **큰 그림 (계획)**을 그립니다.
  • 행동 단계 (손): 계획을 세운 후, "불 켜기"라는 명령이 떨어지면 불 켜기 전문 요리사가 나옵니다. "냄비 올리기"가 필요하면 냄비 올리기 전문가가 나옵니다.

② '원자 (Atomic)' 기술의 마법

이 시스템의 핵심은 **'원자 (Atomic)'**라는 개념입니다. 복잡한 요리도 결국 '자르기', '볶기', '담기' 같은 가장 작은 기본 동작들의 조합입니다.

  • AtomicVLA 는 이 **기본 동작들 (원자 기술)**을 각각의 **전문가 (Expert)**에게 맡깁니다.
  • 예를 들어, '회전 (Turn)'을 잘하는 전문가, '잡기 (Pick)'를 잘하는 전문가가 따로 있습니다. 로봇은 상황에 따라 필요한 전문가만 불러서 일을 시킵니다.

③ 새로운 기술을 배울 때 (지속 학습)

기존 로봇은 새로운 요리를 배우려면 기존 레시피를 지우고 다시 공부해야 해서, 이전에 배운 요리를 잊어버렸습니다.

  • 하지만 AtomicVLA 는 새로운 전문가를 팀에 합류시키는 방식으로 배웁니다.
  • "새로 '오븐 열기'를 배워야 한다?" -> 오븐 열기 전문가만 새로 채용하고 훈련시키면 됩니다. 기존에 '자르기'나 '볶기'를 잘하던 전문가들은 그대로 유지되므로, 이전에 배운 실력이 사라지지 않습니다.

2. 왜 이것이 중요한가요? (실제 성과)

이론만 좋은 게 아니라, 실제 실험에서도 놀라운 결과를 보여줬습니다.

  • 긴 작업도 척척: "냉장고에서 물건을 꺼내서, 전자레인지에 넣고, 문을 닫고, 버튼을 누르는"처럼 긴 작업을 할 때, 기존 로봇들은 중간에 헷갈려서 실패했지만, AtomicVLA 는 단계별로 전문가를 투입해 성공률을 크게 높였습니다.
  • 실수 복구 능력: 만약 로봇이 물건을 잡다가 떨어뜨리면, 기존 로봇은 당황해서 멈추지만, AtomicVLA 는 "아, 내가 떨어뜨렸구나. 다시 잡아야지"라고 생각을 다시 하고 (재계획) 실수를 바로잡아 작업을 완료했습니다.
  • 실제 로봇에서도 작동: 컴퓨터 시뮬레이션뿐만 아니라, 실제 Franka 로봇 팔에서도 복잡한 작업을 잘 수행하며, 기존 모델보다 훨씬 높은 성공률을 기록했습니다.

3. 한 줄 요약

AtomicVLA는 로봇에게 **"모든 것을 한 번에 외우게 하는 것"**이 아니라, **"작은 기본 동작을 담당하는 전문가 팀을 구성하고, 상황에 따라 필요한 전문가만 불러서 일하게 하는 시스템"**을 만들어, 로봇이 더 똑똑하고, 실수를 잘 고치며, 평생 새로운 기술을 배우도록 돕는 혁신적인 기술입니다.

이제 로봇도 요리사처럼, 복잡한 요리를 하나하나 차근차근, 전문가의 손길로 완벽하게 해낼 수 있게 된 것입니다! 🤖✨