xTED: Cross-Domain Adaptation via Diffusion-Based Trajectory Editing

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"xTED"**라는 새로운 기술을 소개합니다. 이 기술은 로봇이 새로운 환경에서 일을 배우는 것을 도와주는 '데이터 편집기' 역할을 합니다.

이해하기 쉽게 요리사와 레시피에 비유해서 설명해 드릴게요.

1. 문제 상황: "다른 주방의 레시피를 그대로 가져오면 실패한다?"

상상해 보세요.

타겟 (Target): 당신이 새로 부임한 실제 주방입니다. 여기는 재료가 다르고, 가스불 세기도 다르고, 조리기구도 다릅니다. 하지만 여기에서 요리를 배워야 합니다. 문제는 실제 주방에서 요리를 해본 데이터 (레시피) 가 매우 부족하다는 것입니다.
소스 (Source): 당신은 **다른 주방 (예: 시뮬레이션이나 다른 로봇)**에서 요리를 해본 풍부한 레시피를 가지고 있습니다. 이 레시피는 "닭을 잡아서 접시에 올리는 법" 같은 기본 원리는 잘 설명하고 있습니다.

하지만 여기서 문제가 생깁니다.
다른 주방의 레시피를 그대로 가져와서 실제 주방에 적용하면 실패합니다. 왜냐하면 다른 주방은 가스불이 너무 세거나, 냄비 크기가 다르거나, 손잡이 모양이 달라서 실제 환경과 맞지 않기 때문입니다.

기존의 방법들은 이 문제를 해결하려고 **매우 복잡한 새로운 요리사 (AI 모델)**를 훈련시켰습니다. "이 레시피를 어떻게 변형해야 우리 주방에 맞을까?"를 계속 계산하게 만든 거죠. 하지만 이 방법은 모델이 너무 무거워지고, 새로운 주방이 나오면 다시 처음부터 훈련해야 하는 번거로움이 있었습니다.

2. xTED 의 해결책: "레시피를 '수정'해서 가져오자!"

저자들은 이런 질문을 던집니다.

"왜 복잡한 요리사를 훈련시키면서 레시피를 맞추려고 할까? 그냥 레시피 (데이터) 자체를 우리 주방에 맞게 '편집'해서 가져오면 안 될까?"

이것이 바로 xTED의 핵심 아이디어입니다.

🎨 비유: 사진 편집기 (Diffusion Model)

이 기술은 사진 편집기와 비슷하게 작동합니다.

원래 사진 (소스 데이터): 다른 주방에서 찍은 요리 사진입니다. 색감이나 조명 (환경) 이 다릅니다.
편집 과정: 우리는 이 사진을 **노이즈 (잡음)**로 살짝 덮은 뒤, 우리가 원하는 주방 스타일 (타겟 데이터) 로 훈련된 AI를 통해 다시 선명하게 만듭니다.
결과: 사진 속의 **요리 자체 (과일, 접시, 행동)**는 그대로 유지되면서, **색감과 조명 (환경적 특성)**만 우리 주방에 맞게 바뀝니다.

이 과정을 **확산 모델 (Diffusion Model)**이라고 하는데, 마치 안개 낀 사진을 천천히 맑게 만드는 과정과 비슷합니다.

3. xTED 가 특별한 이유: "혼합된 재료를 따로따로 다룬다"

기존의 사진 편집기는 픽셀 (점) 들을 다 똑같은 점으로 취급합니다. 하지만 로봇의 행동 데이터는 다릅니다.

상태 (State): 로봇이 어디에 있는지 (위치).
행동 (Action): 로봇이 손을 어떻게 움직이는지.
보상 (Reward): 성공했는지 실패했는지.

이것들은 서로 다른 성질을 가진 재료들입니다. (예: 소금과 설탕을 섞어서 한 번에 다 녹이는 게 아니라, 각각의 맛을 살려야 하죠.)

xTED 는 이 세 가지 재료를 각각 따로 분리해서 편집합니다.

위치, 행동, 점수를 따로 인코딩합니다.
서로 간의 **관계 (인과관계)**를 잘 파악합니다. (예: "손을 움직여야 (Action) 물체가 움직이고 (State), 그다음에 성공 점수 (Reward) 가 나온다"는 식).
이렇게 정교하게 편집된 데이터를 타겟 데이터와 섞어서 로봇에게 가르칩니다.

4. 실험 결과: "실제 로봇에서도 대박!"

저자들은 실제 로봇 실험을 했습니다.

A 로봇 (Airbot): 시뮬레이션에서 많은 데이터를 모았습니다.
B 로봇 (WidowX): 실제 실험용 로봇인데 데이터가 거의 없습니다.

결과:

A 로봇의 데이터를 그대로 B 로봇에게 주면: B 로봇은 엉뚱한 행동을 하거나 아예 실패합니다. (레시피가 너무 달라서요.)
xTED 로 편집한 데이터를 주면: B 로봇의 성공률이 **43% 에서 97%**까지 치솟았습니다! (거의 완벽하게 성공!)

5. 요약: 왜 이것이 중요한가?

xTED 는 **"데이터를 먼저 고치고, 그다음에 학습하자"**는 철학을 가지고 있습니다.

간단함: 복잡한 새로운 AI 모델을 만들 필요가 없습니다.
유연함: 어떤 학습 방법 (RL, IL 등) 과도 잘 어울립니다.
효율성: 적은 데이터로도 좋은 성능을 냅니다.

마치 요리사가 새로운 주방에 들어갈 때, 낡은 레시피를 복사해서 가져오는 게 아니라, 그 주방의 특성에 맞게 레시피를 수정 (편집) 해서 가져오는 것과 같습니다. 이렇게 하면 새로운 주방에서도 금방 요리를 잘할 수 있게 되는 거죠.

이 기술은 로봇이 새로운 환경에 적응하는 데 있어 데이터 부족이라는 큰 벽을 허무는 열쇠가 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

강화학습 (RL) 및 모방학습 (IL) 을 실제 세계의 복잡한 작업에 적용할 때, 타겟 도메인 (Target Domain) 의 데이터 부족은 주요한 병목 현상입니다. 이를 해결하기 위해 시뮬레이션이나 다른 소스 도메인 (Source Domain) 에서 수집된 데이터를 재사용하려는 시도가 많지만, 다음과 같은 도메인 간격 (Domain Gaps) 으로 인해 직접적인 데이터 활용이 어렵습니다.

시각적/관측 차이: 카메라 뷰포인트, 조명, 외형 차이.
동역학 차이: 중력, 마찰계수, 물체 질량 등 물리 환경의 불일치.
형태적 차이 (Morphology): 로봇의 관절 수, 링크 길이, 질량 분포 등 에이전트의 구조적 차이.

기존의 크로스 도메인 정책 전이 (Cross-Domain Policy Transfer) 방법들은 주로 도메인 대응 (Correspondence) 학습, 도메인 구별자 (Discriminator) 학습, 또는 도메인 특화 정규화 등을 통해 정책 학습 과정 자체를 수정하는 방식에 의존합니다. 이러한 접근법은 모델 아키텍처가 복잡해지고, 특정 작업이나 도메인에 종속적이며, 유연성이 부족하다는 한계가 있습니다.

핵심 질문: "복잡한 정책 전이 과정을 수정하는 대신, 데이터 수준 (Data Level) 에서 소스 도메인의 데이터를 타겟 도메인의 특성에 맞춰 직접 변환 (Bridge) 할 수 있는가?"

2. 제안 방법: xTED (Methodology)

저자들은 xTED (Cross-Domain Trajectory EDiting) 라는 새로운 패러다임을 제안합니다. 이는 확산 모델 (Diffusion Model) 을 활용하여 소스 도메인의 궤적 (Trajectory) 을 타겟 도메인의 특성에 맞게 '편집'하는 데이터 전처리 프레임워크입니다.

2.1 핵심 아키텍처 설계

기존 이미지 편집과 달리, 의사결정 궤적 데이터는 상태 (State), 행동 (Action), 보상 (Reward) 이라는 이질적인 요소들과 복잡한 시간적/인과적 의존성을 가집니다. 이를 해결하기 위해 xTED 는 다음과 같은 특수한 확산 모델 아키텍처를 설계했습니다.

분리된 인코딩/디코딩 (Separate Encoding/Decoding):
- 상태, 행동, 보상을 각각 별도의 서브네트워크로 인코딩하고 디코딩합니다.
- 이는 각 요소의 물리적 의미와 고유한 특성을 보존하며, 이미지 처리처럼 모든 픽셀을 동일하게 취급하는 오류를 방지합니다.
의존성 구조 모델링 (Dependency Structure Modeling):
- 상태 - 행동 상호 의존성: Multi-head Attention 을 통해 상태와 행동 간의 상호 의존성을 포착합니다 (Cross-Attention).
- 인과적 보상 의존성: 보상은 상태 - 행동 쌍에 의존하지만 그 역은 성립하지 않으므로, 보상 임베딩을 상태 - 행동 임베딩으로 쿼리하는 비대칭적인 구조를 적용합니다.
조건부 모델링:
- 노이즈 단계뿐만 아니라, 궤적의 반환값 (Return) 등 외부 조건을 입력받아 고보상 영역으로 궤적을 유도할 수 있습니다.

2.2 편집 프로세스 (Editing Process)

xTED 는 다음과 같은 3 단계로 작동합니다.

타겟 도메인 학습: 타겟 도메인 데이터만으로 위 아키텍처의 확산 모델을 학습합니다 (타겟 분포를 Prior 로 사용).
소스 데이터 노이즈 추가 (Forward Process): 소스 도메인 궤적에 노이즈를 추가합니다. 이때 노이즈 비율 ( $\kappa$ ) 을 조절하여 미세한 동역학 정보 (도메인 편향) 는 제거하되, 거시적인 작업 의미 (Skill Primitives) 는 보존합니다.
노이즈 제거 (Reverse Process): 학습된 타겟 확산 모델을 사용하여 노이즈가 추가된 소스 데이터를 제거 (Denoise) 합니다. 이 과정에서 소스 데이터는 타겟 도메인의 동역학 및 관측 특성을 따르도록 변환되지만, 원래 작업의 의미는 유지됩니다.

3. 주요 기여 (Key Contributions)

데이터 중심의 크로스 도메인 적응: 정책 학습 알고리즘의 복잡성을 줄이고, 데이터 전처리 단계에서 도메인 간격을 해결하는 범용적이고 유연한 프레임워크를 제시했습니다.
의사결정 데이터에 특화된 확산 모델: 상태, 행동, 보상의 이질성과 인과적 의존성을 고려한 새로운 확산 모델 아키텍처를 제안했습니다.
범용성: 편집된 데이터는 임의의 단일 도메인 또는 크로스 도메인 정책 학습 알고리즘 (IL, RL) 과 결합하여 사용할 수 있으며, 다른 크로스 도메인 방법론과도 직교 (Orthogonal) 하여 시너지를 낼 수 있습니다.
데이터 증강 도구: 소스 데이터가 없는 단일 도메인 상황에서도 타겟 데이터의 증강 (Augmentation) 모델로 활용 가능합니다.

4. 실험 결과 (Results)

저자들은 시뮬레이션 (MuJoCo: HalfCheetah, Walker2d) 과 실제 로봇 (WidowX, Airbot) 실험을 통해 xTED 의 효과를 입증했습니다.

성능 향상:
- 실제 로봇 실험: 소스 데이터 (Airbot) 를 xTED 로 편집하여 타겟 로봇 (WidowX) 의 학습에 적용한 결과, 작업 성공률이 크게 향상되었습니다 (예: 컵 잡기 작업에서 43% → 97%).
- 반대 현상: 편집되지 않은 원본 소스 데이터를 직접 추가하면 도메인 간격으로 인해 성능이 오히려 급격히 저하되는 경우가 많았습니다 (예: 40% → 20% 또는 0%).
동역학 정합성 (Dynamics Alignment):
- 편집된 소스 데이터의 동역학 오차 (MAE/MSE) 는 원본 소스 데이터보다 훨씬 낮으며, 타겟 데이터와 유사한 수준으로 감소함을 확인했습니다.
기타 방법론과의 비교:
- 기존 데이터 증강 기법 (S4RL 등) 이나 다른 크로스 도메인 방법 (DARA 등) 과 비교했을 때, xTED 를 적용한 경우 일관되게 더 높은 성능을 보였습니다.
- xTED 는 다른 크로스 도메인 방법론과 결합 시 추가적인 성능 향상을 제공했습니다.

5. 의의 및 결론 (Significance)

패러다임의 전환: 도메인 적응을 '모델 학습 과정의 수정'이 아닌 '데이터의 변환' 문제로 재정의함으로써, 복잡한 도메인 특화 설계 없이도 다양한 소스 데이터를 효율적으로 재사용할 수 있는 길을 열었습니다.
실용성: 실제 로봇 제어와 같이 데이터 수집 비용이 높고 도메인 간격이 큰 환경에서, 소스 데이터의 활용도를 극대화하여 정책 학습의 안정성과 효율성을 높이는 강력한 도구가 됩니다.
확장성: 이 프레임워크는 다양한 관측 모달리티 (시각, proprioception 등) 와 작업 설정에 적용 가능하며, 미래의 대규모 크로스-embodiment 로봇 학습의 핵심 기술로 기대됩니다.

요약하자면, xTED는 확산 모델의 강력한 생성 능력을 활용하여 소스 도메인의 궤적을 타겟 도메인의 물리 법칙에 맞게 '수정'함으로써, 데이터 수준에서 크로스 도메인 적응 문제를 해결하는 혁신적인 접근법입니다.