Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"로봇이 더 똑똑하게 행동하게 만드는 새로운 방법"**에 대해 설명합니다. 제목은 **"COMPOSE YOUR POLICIES!"**로, 한국어로 번역하면 "로봇의 행동 규칙 (정책) 을 섞어보세요!" 정도가 됩니다.

이 연구의 핵심은 **"새로운 로봇을 처음부터 가르치는 대신, 이미 잘 훈련된 로봇 두 대의 '생각'을 섞어서 더 똑똑한 로봇을 만드는 것"**입니다.

이 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 문제: 로봇을 가르치는 건 너무 비싸고 힘들어요

지금까지 로봇을 가르치려면 엄청난 양의 데이터 (예: 인간이 로봇 팔을 움직이는 영상) 가 필요했습니다. 마치 어린아이가 세상에 모든 것을 배우기 위해 수백 년을 살아야 하는 것과 비슷하죠. 그래서 연구자들은 "이미 잘 훈련된 로봇 A 와 로봇 B 가 있는데, 이 둘을 합치면 더 똑똑한 로봇 C 가 될 수 있을까?"라고 궁금해했습니다.

2. 해결책: "요리사 두 명"의 비유

이 논문의 아이디어를 요리에 비유해 볼까요?

로봇 A (요리사 1): 소금기 있는 국물을 아주 잘 만듭니다. 하지만 고기 굽는 건 서툴러요.
로봇 B (요리사 2): 고기를 아주 맛있게 굽습니다. 하지만 국물 맛은 좀 싱겁죠.

기존에는 이 두 요리사를 합쳐서 새로운 요리사를 만들려면, 둘을 다시 훈련시켜야 했습니다. 하지만 이 논문은 **"아니야, 그냥 두 요리사의 '손맛'을 섞으면 돼!"**라고 말합니다.

**로봇 A 의 손맛 (소금기)**과 **로봇 B 의 손맛 (고기 굽기)**을 적절히 섞으면, 소금기도 적당하고 고기도 잘 구워지는 완벽한 요리가 나옵니다.
여기서 중요한 점은, 새로운 요리사를 새로 뽑거나 훈련시킬 필요 없이, 이미 있는 두 요리사의 의견을 섞는 것만으로도 더 좋은 결과가 나온다는 것입니다.

3. 어떻게 섞나요? "투명한 유리를 겹쳐서 보기"

이 논문에서는 로봇들이 세상을 보는 방식 (확률 분포) 을 투명한 유리창에 비유합니다.

로봇 A 의 유리창: 어떤 물체가 '성공적인 위치'에 있을 확률이 높은 곳을 밝게 비춥니다.
로봇 B 의 유리창: 다른 각도에서 성공적인 위치를 비춥니다.

이 두 유리를 겹쳐서 (Composition) 보면, 두 유리가 모두 "여기가 중요해!"라고 밝게 비추는 곳 (공통된 영역) 이 가장 선명하게 보입니다. 반대로, 한쪽만 "여기가 중요해"라고 말하고 다른 쪽은 "아니야"라고 하는 곳은 흐릿해집니다.

이 논문은 이 **겹쳐진 유리창 (섞인 생각)**을 통해 로봇이 움직이게 하면, 어느 한쪽 로봇보다 훨씬 더 정확하고 안정적인 행동을 할 수 있다고 증명했습니다.

4. 실험 결과: 1+1 이 2 가 아니라 3 이 됩니다!

연구자들은 다양한 시뮬레이션과 실제 로봇 실험을 했습니다.

시나리오: 한 로봇은 카메라 (RGB) 로 보고, 다른 로봇은 3D 점 (Point Cloud) 으로 보게 했습니다.
결과: 두 로봇의 생각을 섞은 GPC(일반적 정책 조합) 로봇은, 카메라만 보는 로봇이나 점만 보는 로봇보다 훨씬 더 많은 일을 성공적으로 해냈습니다.
비유: 안경을 한 개만 끼고 있는 사람보다, 두 개의 안경을 적절히 겹쳐서 초점을 맞춘 사람이 세상을 더 선명하게 보는 것과 같습니다.

5. 왜 이 방법이 특별한가요?

훈련 불필요 (Training-Free): 새로운 데이터를 모으거나 로봇을 다시 가르칠 필요가 없습니다. 이미 만들어진 로봇 두 대만 있으면 됩니다.
유연함: 서로 다른 종류의 로봇 (예: 한쪽은 영상으로 보고, 다른 쪽은 텍스트 명령을 듣는 로봇) 을 섞을 수도 있습니다.
실시간 조정: 상황에 따라 "로봇 A 의 의견을 70%, 로봇 B 의 의견을 30% 반영하자"라고 실시간으로 조절할 수 있습니다. 마치 요리사가 "오늘은 소금을 조금 더 넣자"라고 조절하는 것처럼요.

요약

이 논문은 **"로봇을 더 똑똑하게 만들고 싶다면, 무조건 더 많이 가르치려 하지 말고, 이미 잘하는 로봇들의 '생각'을 잘 섞어보세요"**라고 말합니다.

마치 두 명의 전문가가 모여서 회의 (Composition) 를 하면, 한 명 혼자 일할 때보다 더 훌륭한 결정을 내릴 수 있는 것과 같습니다. 이 방법은 로봇 공학 분야에서 비용과 시간을 크게 아껴주면서도 성능을 획기적으로 높여줄 수 있는 획기적인 아이디어입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

배경: 로봇 제어 분야에서 확산 모델 (Diffusion Models) 과 흐름 매칭 (Flow-matching) 기반의 정책 (Policy) 은 복잡한 행동 분포를 표현하는 데 있어 뛰어난 성능을 보여주고 있습니다. 특히 비전 - 언어 - 행동 (VLA) 및 비전 - 행동 (VA) 정책들이 다양한 조작 및 항법 작업에서 성공을 거두고 있습니다.
문제점:
- 이러한 모델의 성능 향상은 대규모 상호작용 데이터셋의 확보 비용과 모델 용량 (Capacity) 의 한계에 의해 제한받고 있습니다.
- 기존 성능 한계를 극복하기 위한 방법들 (지도 미세 조정, 강화 학습 등) 은 추가적인 데이터 수집 비용, 보상 함수 설계의 복잡성, 온라인 상호작용의 필요성 등으로 인해 비효율적이거나 실현하기 어렵습니다.
- 기존 모델들의 성능을 단순히 향상시키기 위해 새로운 모델을 처음부터 훈련 (Training from scratch) 하거나 미세 조정 (Fine-tuning) 하는 것은 시간과 자원이 많이 소요됩니다.

2. 제안 방법: 일반 정책 조합 (General Policy Composition, GPC)

이 논문은 추가적인 모델 훈련 없이 기존에 훈련된 여러 정책들을 테스트 시간 (Test-time) 에 결합하여 더 강력한 정책을 만드는 새로운 패러다임을 제안합니다. 이를 GPC라고 명명했습니다.

핵심 아이디어:
- 서로 다른 사전 훈련된 정책들 (예: 다른 아키텍처, 다른 입력 모달리티, 다른 학습 목표) 의 분포 점수 (Distributional Scores) 를 볼록 결합 (Convex Combination) 하여 새로운 점수를 생성합니다.
- 생성된 점수를 기반으로 테스트 시간에 가중치 (Weight) 를 탐색하여 최적의 조합을 찾습니다.
작동 원리:
1. 점수 조합 (Score Composition): 여러 정책 $\pi_1, \pi_2, \dots$ 가 각기 다른 조건 (모달리티, 아키텍처 등) 하에서 학습된 점수 함수 $s_{\theta}(\tau_t, t, c_i)$ 를 출력합니다.
2. 볼록 결합: 이 점수들을 가중치 $w_i$ ( $\sum w_i = 1$ ) 로 선형 결합하여 새로운 점수 $\hat{s}_{comp}$ 를 만듭니다.
  $\hat{s}_{comp} = \sum_{i} w_i s_{\theta}(\tau_t, t, c_i)$
3. 테스트 시간 탐색 (Test-time Search): 다양한 가중치 조합 ( $w$ ) 을 시도하여 성공률 (Success Rate) 이 가장 높은 최적의 가중치 $w^*$ 를 찾습니다.
4. 플러그 앤 플레이: 이 방법은 확산 모델 (Diffusion) 이나 흐름 기반 모델 (Flow-matching) 이든, VLA 나 VA 모델이든, 입력 모달리티 (RGB, 포인트 클라우드 등) 가 무엇이든 상관없이 적용 가능합니다.

3. 주요 기여 (Key Contributions)

이론적 기반 확립:
- 여러 확산 모델의 분포 점수를 볼록 결합하면 개별 점수보다 우월한 단일 단계 기능적 목적 함수 (One-step functional objective) 를 얻을 수 있음을 수학적으로 증명했습니다.
- 그론월 부등식 (Grönwall-type bound) 을 사용하여, 단일 단계에서의 점수 오차 감소가 전체 생성 궤적 (Trajectory) 에 걸쳐 전파되어 시스템 전체의 성능 향상으로 이어짐을 보였습니다. 즉, 점수 추정 오차를 줄이면 최종 행동의 오차도 줄어듭니다.
GPC 프레임워크 제안:
- 훈련이 필요 없는 (Training-free) 일반 정책 조합 (GPC) 방법을 제안했습니다.
- 이 방법은 이질적인 모델들 (VA 와 VLA, 확산과 흐름 기반 모델 등) 을 유연하게 결합할 수 있으며, 추가적인 훈련 없이 기존 모델들을 재사용하여 성능을 극대화합니다.
광범위한 실증적 검증:
- Robomimic, PushT, RoboTwin 등 다양한 시뮬레이션 벤치마크와 실제 로봇 환경에서 실험을 수행했습니다.
- 단일 정책 베이스라인에 비해 일관된 성능 향상 (평균 7~15% 증가) 을 입증했습니다.
- 다양한 조합 전략 (볼록 결합, 논리 AND/OR 연산자) 과 가중치 전략의 효과를 분석하여 GPC 의 작동 메커니즘에 대한 통찰을 제공했습니다.

4. 실험 결과 (Results)

시뮬레이션 환경 (Robomimic, PushT, RoboTwin):
- 아키텍처 간 결합: 동일한 모달리티의 다른 아키텍처 (예: DP + Mamba Policy) 를 결합하여 평균 성공률 (SR) 을 2.22% 향상시켰습니다.
- 모달리티 간 결합: RGB 기반 정책과 포인트 클라우드 기반 정책을 결합하여 3D 공간 이해력을 높이고 SR 을 5% 이상 향상시켰습니다.
- VLA 와 VA 결합: 언어 이해력이 있는 VLA 모델과 시각 기반 VA 모델을 결합하여, 특히 RDT(비전 - 언어 모델) 와 DP(비전 모델) 의 결합에서 기존 RDT 대비 32% 의 획기적인 성능 향상을 보였습니다.
- 최적 가중치: 모든 작업에서 동일한 가중치가 최적인 것은 아니며, 작업에 따라 최적의 가중치 조합이 달라짐을 발견했습니다 (예: 한 정책이 더 강력할 경우 그 정책에 높은 가중치를 부여하는 것이 유리함).
실제 로봇 실험 (Real-world):
- 실제 로봇 (Piper) 을 이용한 '병 놓기', '컵 걸기', '테이블 정리', '구멍 뚫기' 작업에서 GPC 가 단일 정책보다 높은 성공률을 기록했습니다 (예: 테이블 정리 작업에서 14/20 성공).
효율성:
- GPC 는 모델 훈련이 필요 없으므로, 기존 모델들을 재사용할 수 있어 비용 효율적입니다.
- 가중치 탐색 비용은 훈련 비용에 비해 매우 낮으며 (약 1~2.5 시간), 추론 시간 지연 (Latency) 도 미미하게 증가하는 수준입니다.

5. 의의 및 결론 (Significance)

데이터 효율성: 대규모 데이터 수집 없이 기존에 훈련된 다양한 정책들을 결합하여 성능을 향상시킬 수 있는 새로운 패러다임을 제시했습니다.
유연성과 확장성: 모델의 아키텍처, 입력 모달리티, 학습 목표에 구애받지 않고 다양한 정책들을 '플러그 앤 플레이' 방식으로 결합할 수 있어 로봇 학습 시스템의 모듈화를 촉진합니다.
이론과 실증의 일치: 볼록 결합이 왜 그리고 어떻게 성능을 향상시키는지에 대한 엄밀한 이론적 증명과 다양한 실험적 검증을 통해, 정책 조합 (Policy Composition) 이 로봇 제어 분야에서 강력한 기법임을 입증했습니다.

요약하자면, 이 논문은 개별 로봇 정책의 한계를 극복하기 위해 추가 훈련 없이 기존 정책들의 '지식'을 테스트 시간에 조합하여 더 강력하고 견고한 정책을 생성하는 GPC를 제안하며, 이는 로봇 학습의 데이터 효율성과 일반화 능력을 크게 향상시킬 수 있는 중요한 방법론입니다.

Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition

1. 문제: 로봇을 가르치는 건 너무 비싸고 힘들어요

2. 해결책: "요리사 두 명"의 비유

3. 어떻게 섞나요? "투명한 유리를 겹쳐서 보기"

4. 실험 결과: 1+1 이 2 가 아니라 3 이 됩니다!

5. 왜 이 방법이 특별한가요?

요약

1. 연구 배경 및 문제 정의 (Problem)

2. 제안 방법: 일반 정책 조합 (General Policy Composition, GPC)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

Equitable Multi-Task Learning for AI-RANs

SPREAD: Subspace Representation Distillation for Lifelong Imitation Learning

The Temporal Markov Transition Field

SoftJAX & SoftTorch: Empowering Automatic Differentiation Libraries with Informative Gradients

Expressivity-Efficiency Tradeoffs for Hybrid Sequence Models