LAR-MoE: Latent-Aligned Routing for Mixture of Experts in Robotic Imitation Learning

Each language version is independently generated for its own context, not a direct translation.

🤖 핵심 아이디어: "로봇의 '스마트한 팀워크' 시스템"

기존의 로봇 학습 방식은 마치 한 명의 천재가 모든 일을 혼자 다 하려고 애쓰는 것과 비슷했습니다. 로봇이 복잡한 수술이나 물건 잡기 같은 일을 배울 때, 모든 상황을 평균내어 처리하려다 보니 "어느 정도는 잘하지만, 정작 중요한 순간에는 엉뚱한 행동"을 하거나, 여러 가지 다른 행동 방식을 섞어서 제대로 된 실력을 발휘하지 못했습니다.

이 논문은 이를 해결하기 위해 **"전문가 팀 (Mixture of Experts)"**을 구성하는 방식을 제안합니다. 하지만 여기서 중요한 점은, 누가 어떤 일을 할지 정해주는 '매니저'를 어떻게 만들 것인가입니다.

1. 기존 방식의 문제점: "매니저가 없거나, 지도가 필요함"

기존의 전문가 팀 방식은 "이건 '잡기' 전문가가 하고, 저건 '당기기' 전문가가 해"라고 사람이 직접 알려줘야 (지도 학습) 했습니다. 하지만 로봇 수술 같은 복잡한 일에서는 어떤 순간이 '잡기'고 어떤 순간이 '당기기'인지 일일이 라벨을 붙여주는 건 너무 비싸고 어렵습니다.

2. LAR-MoE 의 해결책: "스스로 배우는 숨은 지도"

이 연구팀은 로봇에게 사람이 알려주지 않아도 스스로 행동의 흐름을 파악하게 만들었습니다. 이를 LAR-MoE라고 부릅니다.

이 과정을 두 단계로 나누어 설명해 볼게요.

🎬 두 단계 학습 과정 (비유로 이해하기)

1 단계: "비밀 스승과 제자의 관찰 수업" (잠재 공간 학습)

상황: 로봇은 인간의 수술 영상을 봅니다.
제자 (Student): 영상만 보고 "지금 무슨 일이 일어나고 있을까?"라고 추측합니다.
스승 (Teacher): 영상과 **그다음에 인간이 어떻게 움직였는지 (미래 행동)**를 모두 알고 있습니다.
수업 방식: 제자가 추측한 내용을 스승이 가진 정답과 비교하며 맞춥니다.
결과: 로봇은 "아, 지금 이 화면을 보면 다음엔 '잡는' 행동이 나올 거야", "저 화면은 '당기는' 행동이 나오겠구나"라고 **눈에 보이지 않는 행동의 흐름 (잠재 공간)**을 스스로 깨닫게 됩니다. 이때는 아직 로봇이 직접 행동하지 않고, 그저 '상황 파악'만 연습합니다.

2 단계: "상황에 맞는 전문가 호출" (라우팅)

이제 로봇은 실제 행동을 배웁니다. 여러 명의 '전문가 (Expert)'들이 있습니다.
핵심 기술: 로봇은 1 단계에서 배운 '숨은 지도'를 봅니다. "지금 상황은 A 전문가가 잘할 수 있는 영역이야"라고 판단하면, 자연스럽게 그 전문가를 선택합니다.
효과: 이렇게 하면 로봇은 사람이 일일이 가르치지 않아도 상황에 따라 자연스럽게 '잡기 전문가', '당기기 전문가', '잡고 기다리기 전문가' 등으로 역할을 나누어 협력하게 됩니다.

🏆 왜 이 기술이 대단한가요?

1. "작은 몸집, 큰 실력" (효율성)

이 로봇은 **1 억 5 천만 개 (150M)**의 파라미터 (뇌세포 같은 것) 만 가지고 있습니다. 최신 거대 AI 모델들은 수십억 개를 쓰는데, 이 로봇은 그보다 훨씬 작으면서도 LIBERO라는 유명한 로봇 학습 대회에서 **95.2%**라는 놀라운 성공률을 기록했습니다. 마치 작은 팀이 거대 기업과 경쟁해서 이긴 것과 같습니다.

2. "실제 수술에서도 통했다" (현실 적용)

이론만 좋은 게 아닙니다. 연구팀은 실제 로봇을 이용해 장 (Bowel) 을 잡고 당기는 수술을 시켰습니다.

기존 방식: 수술의 각 단계 (잡기, 당기기 등) 를 사람이 일일이 표시해줘야 했습니다.
LAR-MoE: 사람의 표시 없이도, 로봇이 스스로 "지금 잡는 단계야", "이제 당기는 단계야"라고 구분해서 완벽하게 수행했습니다.
생체 조직 테스트: 인형 (Phantom) 에서만 훈련한 로봇을, 실제 돼지의 장 (Ex-vivo) 에도 바로 적용해 보았습니다. (새로운 훈련 없이도) 20 번 중 9 번 성공했습니다. 이는 로봇이 시각적 특징을 보고도 새로운 상황에 적응할 수 있음을 의미합니다.

3. "스스로 발견한 패턴"

그림 3 을 보면, 로봇이 시간을 따라가며 어떤 전문가를 선택했는지 색깔로 나타냈는데, 이 패턴이 실제 외과 의사가 손으로 구분한 수술 단계와 거의 일치했습니다. 즉, 로봇이 사람과 똑같은 논리로 상황을 이해하고 있다는 뜻입니다.

💡 한 줄 요약

"LAR-MoE 는 로봇에게 '사람이 일일이 가르쳐주지 않아도, 스스로 행동의 흐름을 파악하여 상황에 맞는 전문가 팀을 자동으로 소환하는 능력'을赋予了 (부여한) 기술입니다."

이 기술은 로봇이 더 적은 데이터로, 더 똑똑하고 유연하게 복잡한 일을 배울 수 있게 해주는 핵심 열쇠가 될 것입니다. 마치 로봇이 스스로 "지금부터는 내가 잡는 역할을 할게, 너는 당기는 역할을 해"라고 팀워크를 발휘하게 만든 것과 같습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

로봇 모방 학습 (Imitation Learning, IL) 은 데모를 통해 조작 기술을 습득하게 하지만, 이질적인 역학 (heterogeneous dynamics) 과 다양한 접촉 패턴을 가진 여러 작업에 단일 정책을 배포하는 것은 여전히 어렵습니다.

핵심 문제: 기존 모델들은 데모에 존재하는 서로 다른 행동 모드 (behavioral modes) 를 평균화하여 학습하는 경향이 있어, 특정 상황에 맞는 전문화된 행동을 수행하지 못합니다.
기존 MoE 의 한계: 전문가 혼합 (Mixture of Experts, MoE) 아키텍처는 입력 특성에 따라 전문 서브네트워크를 활성화하여 이 문제를 해결할 수 있으나, 전문가 라우팅 (expert routing) 을 위한 의미 있는 기술 분해 (skill decomposition) 가 필요합니다. 기존에는 이를 위해 명시적인 작업 단계 (task phase) 주석이나 수동 정의가 필요했는데, 이는 데이터가 부족한 수술 로봇과 같은 분야에서 큰 장벽이 됩니다.

2. 제안 방법론: LAR-MoE (Methodology)

저자들은 잠재 공간 정렬 라우팅 (Latent-Aligned Routing) 을 통해 지도 학습 없이도 구조화된 전문가 분리를 가능하게 하는 2 단계 프레임워크인 LAR-MoE를 제안합니다.

A. 1 단계: 비지도 잠재 공간 학습 (Unsupervised Pre-training)

학생 - 교사 (Student-Teacher) 공동 학습:
- 교사 (Teacher): 현재 관찰 ( $o_t$ ) 과 미래 행동 블록 ( $a_{t:t+H}$ ) 을 입력받아 잠재 벡터 $z_t$ 를 생성하고, 이를 통해 행동 블록을 재구성하도록 학습됩니다.
- 학생 (Student): 현재 관찰 ( $o_t$ ) 만을 입력받아 잠재 벡터 $\hat{z}_t$ 를 추론하도록 학습됩니다.
- 목표: 학생이 교사의 잠재 표현을 모방하도록 MSE 손실 함수를 최소화합니다. 이를 통해 관찰과 미래 행동 간의 관계를 포착하는 구조화된 잠재 공간이 비지도 방식으로 학습됩니다.

B. 2 단계: MoE 정책 학습 및 라우팅 정규화 (Post-training & Regularization)

구조: 비전/언어 인코더 뒤에 $N$ 개의 행동 전문가 (Action Experts) 가 위치하며, 학습된 학생 모델을 통해 잠재 벡터 $\hat{z}_t$ 를 예측합니다.
소프트 게이팅 (Soft Gating): 예측된 잠재 벡터를 기반으로 전문가 선택 확률 $p_t$ 를 계산합니다.
잠재 정렬 정규화 (Latent-Alignment Regularization):
- 거리 일관성 손실 (Distance Consistency Loss): 학습된 잠재 공간에서의 거리 ( $D(Z)$ ) 와 전문가 선택 분포 간의 거리 ( $D(P)$ ) 가 일치하도록 강제합니다. 즉, 잠재 공간에서 유사한 작업은 유사한 전문가가 담당하도록 유도합니다.
- 엔트로피 정규화: 전문가들이 특정 작업에 특화되도록 유도합니다.
- 그룹 희소 정규화 (Group Sparse Regularization): 학습 안정성을 높이고 전문가 붕괴 (Expert Collapse) 를 방지합니다.
효과: 명시적인 작업 단계 주석 없이도, 학습된 잠재 공간의 구조에 라우팅을 고정함으로써 전문가들이 자연스럽게 분업화되고 효율성을 유지합니다.

3. 주요 기여 (Key Contributions)

비지도 공동 학습 전략: 관찰과 미래 운동 궤적 간의 관계를 포착하는 기술적 잠재 공간을 학습하는 새로운 전략을 제시했습니다.
LAR-MoE 아키텍처: 학습된 잠재 공간의 구조에 소프트 전문가 라우팅을 고정하는 정규화 전략을 제안하여, 전문가 붕괴를 방지하고 파라미터 효율성을 극대화했습니다.
실제 검증: LIBERO 시뮬레이션 벤치마크와 실제 하드웨어 (수술용 창자 잡기 및 후퇴 작업) 에서 비지도 학습된 라우팅 구조가 인간이 주석한 작업 단계와 유사한 패턴을 보이며, 제로샷 (zero-shot) 으로 생체 외 (ex vivo) 조직에도 전이됨을 입증했습니다.

4. 실험 결과 (Results)

A. LIBERO 벤치마크 (시뮬레이션)

성능: 150M 파라미터 (약 20 배 더 큰 모델인 $\pi_{0.5}$ 대비) 로 **평균 성공률 95.2%**를 달성했습니다.
비교: Diffusion Policy, Octo, OpenVLA 등 더 큰 규모의 모델들보다 우수한 성능을 보였으며, 150M 파라미터로 3.5B 파라미터 모델 ( $\pi_{0.5}$ ) 에 필적하는 성능을 기록했습니다.
애블레이션: 학생 모델 고정 (+F) 과 잠재 정렬 정규화 (+R) 가 모두 적용되었을 때 성능이 가장 크게 향상됨을 확인했습니다.

B. 하드웨어 실험 (수술 로봇)

작업: 창자 잡기 (Grasping) 및 후퇴 (Retraction) 작업 (5 단계로 구성).
데이터: 120 개의 데모만 사용 (명시적 단계 주석 없음).
성능:
- 유령 (Phantom) 데이터: 100% 성공률 (Reach, Grasp) 및 높은 후퇴 성공률로, 주석이 있는 MoE 베이스라인과 유사한 성능을 보였습니다.
- 생체 외 (Ex vivo) 조직: 추가 학습 없이 제로샷 전이로 45% (9/20) 의 성공률을 기록하여 실제 조직의 시각적/기계적 변화에 대한 일반화 능력을 입증했습니다.

C. 해석 가능성 (Interpretability)

시간적/공간적 패턴: 비지도 학습된 라우팅이 인간이 수동으로 주석한 작업 단계 (Phase) 와 매우 유사한 시간적 전환 패턴을 보였습니다 (Fig. 3).
전문가 특화: 서로 다른 전문가가 작업 공간의 특정 영역 (접근, 잡기, 당기기 등) 에 특화되어 활성화되는 것을 시각적으로 확인했습니다 (Fig. 6).

5. 의의 및 결론 (Significance & Conclusion)

주석 비용 절감: 수술 로봇과 같이 데모가 희소하고 주석 비용이 높은 분야에서, 명시적인 작업 단계 주석 없이도 MoE 의 이점을 활용할 수 있는 방법을 제시했습니다.
효율성: 150M 파라미터라는 경량 모델로 대규모 모델에 버금가는 성능을 달성하여, 로봇 학습의 계산 효율성을 증명했습니다.
일반화: 학습된 잠재 공간 기반 라우팅은 시각적 도메인 차이 (유령 vs 실제 조직) 에도 강건하게 작동하여, 복잡한 접촉이 필요한 조작 작업에서의 제로샷 전이 가능성을 보여주었습니다.

결론적으로, LAR-MoE 는 비지도 학습을 통해 작업의 내재적 구조를 발견하고 이를 MoE 라우팅에 활용함으로써, 구조화된 로봇 행동의 자동 분해와 전문화를 가능하게 하는 획기적인 프레임워크입니다.