UMI-Underwater: Learning Underwater Manipulation without Underwater Teleoperation

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"물속 로봇이 어떻게 스스로 물건을 잡는 법을 배우고, 땅에서 배운 지식을 물속에서도 그대로 쓸 수 있게 되었는지"**에 대한 이야기입니다.

기존의 물속 로봇은 사람이 조종桿 (Teleoperation) 을 잡고 직접 조작해야 했기 때문에, 로봇이 스스로 물건을 잡는 법을 배우려면 사람이 물속에서 수없이 많은 시도를 해줘야 했습니다. 하지만 물속은 시야도 흐리고, 빛도 변하며, 로봇을 조종하는 것 자체가 매우 힘들고 비쌉니다.

이 연구팀은 이 문제를 해결하기 위해 두 가지 똑똑한 전략을 썼습니다.

1. "스스로 실수하고 배우는 로봇" (자가 학습 데이터 수집)

비유: 수영장에서 혼자 연습하는 아이

기존에는 사람이 물속에서 로봇을 조종하며 "이건 성공, 저건 실패"라고 알려줘야 했습니다. 하지만 이 연구팀은 로봇에게 스스로 시도해보게 했습니다.

자동 시나리오: 로봇이 물속에서 물건을 잡으려다 실패하면, 로봇은 스스로 "아, 내가 너무 빨리 갔구나"라고 생각하고 뒤로 물러나서 다시 잡으려 합니다. (이걸 '회복 행동'이라고 합니다.)
성공 판정: 로봇이 물건을 잡고 3 초 동안 끌어당겨도 떨어지지 않으면 "성공!"이라고 스스로 판단하고 그 데이터를 저장합니다.
결과: 사람이 직접 조종할 필요 없이, 로봇이 스스로 수백 번의 시도를 하며 '성공적인 잡기' 데이터를 모았습니다.

2. "땅에서 배운 지식을 물속에 가져오기" (UMI-Aquatic 과 affordance)

비유: 땅에서 '어디를 잡아야 할지' 눈으로 익힌 뒤, 물속으로 내려가는 것

가장 큰 문제는 땅과 물속의 환경이 너무 달라서 로봇이 혼란을 겪는다는 점입니다. 물속은 빛이 흐리고 색이 변해서, 땅에서 찍은 사진과 물속 사진이 완전히 다르게 보입니다.

이 연구팀은 **"RGB(색깔) 는 믿지 말고, 깊이 (Depth) 를 믿자"**는 아이디어를 썼습니다.

UMI-Aquatic (휴대용 그립퍼): 연구팀은 땅에서 사람이 손에 든 작은 그립퍼 (휴대폰 카메라가 달린 도구) 로 물건을 잡는 모습을 촬영했습니다. 이때 중요한 건 색깔이 아니라 '깊이' 정보입니다.
매직 안경 (Affordance 예측 모델): 땅에서 찍은 데이터로 학습한 AI 모델은 "물체의 모양과 깊이"를 보고 **"어디를 잡으면 가장 잘 잡힐까?"**를 나타내는 **열지도 (Heatmap)**를 그려줍니다. 마치 "여기를 잡으면 돼!"라고 빨간색으로 표시해 주는 지도 같은 거죠.
제로샷 (Zero-shot) 전이: 이 모델은 물속 데이터로 다시 학습하지 않고도, 땅에서 배운 지식을 그대로 물속에 적용할 수 있습니다. 색깔이 변해도 '깊이'와 '모양'은 비슷하기 때문에, 로봇은 물속에서도 "아, 이 빨간 표시된 곳이 잡기 좋은 곳이야!"라고 바로 알아챕니다.

실험 결과: 얼마나 잘했을까?

연구팀은 수영장에서 로봇을 테스트했습니다.

여러 물체 중 원하는 것만 잡기: 물속에 여러 가지 장난감이 떠 있을 때, 로봇은 "저기 있는 노란 오리"를 잡으라고 지시받으면, 다른 물건을 혼동하지 않고 정확히 잡았습니다. (기존 방식은 색깔만 보고 헷갈려서 엉뚱한 걸 잡곤 했습니다.)
배경이 바뀌어도 끄떡없음: 수영장 벽지 패턴을 갑자기 바꾸거나 (나무 무늬 등), 빛이 어두워져도 로봇은 여전히 잘 잡았습니다. 색깔에 의존하는 로봇들은 배경이 바뀌자마자 완전히 망가졌지만, 이 로봇은 '깊이'와 '잡기 좋은 위치'를 보았기 때문에 흔들리지 않았습니다.
처음 보는 물체도 잡음: 훈련 때 본 '돌'이나 '장난감 오리'가 아닌, 땅에서 찍은 '주전자'나 '드릴' 같은 새로운 물체도 물속에서 잘 잡았습니다. 땅에서 배운 '잡기 감각'이 물속에서도 통했던 것입니다.

요약: 왜 이것이 중요한가?

이 연구는 **"사람이 물속에서 로봇을 조종하는 고된 노동을 없애고, 땅에서 쉽게 데이터를 모아 물속 로봇에게 가르쳐주는 방법"**을 제시했습니다.

기존: 사람이 물속에서 로봇을 조종하며 수백 번 시도해야 함 = 비싸고 느림.
이 연구: 로봇이 스스로 연습하고, 땅에서 찍은 '깊이 지도'를 물속에 가져다 씀 = 빠르고, 저렴하며, 새로운 환경에서도 잘 작동함.

마치 스키를 타는 법을 땅에서 연습한 뒤, 눈이 쌓인 산에서도 바로 탈 수 있는 것처럼, 이 기술은 로봇이 물속이라는 낯선 환경에서도 스스로 적응하며 일할 수 있는 길을 열었습니다.

Each language version is independently generated for its own context, not a direct translation.

UMI-Underwater: 수중 조작을 위한 원격 조종 없는 학습

이 논문은 수중 로봇 조작 (Underwater Manipulation) 분야에서 데이터 수집의 어려움과 환경 변화에 따른 일반화 문제를 해결하기 위해 제안된 새로운 시스템입니다. 핵심 아이디어는 자가 감독 (Self-supervised) 데이터 수집 파이프라인과 지상 (On-land) 데이터에서 학습된 affordance(행위 가능성) 모델의 제로샷 (Zero-shot) 수중 전이를 결합하여, 원격 조종 (Teleoperation) 없이도 효율적이고 강건한 수중 그립을 가능하게 하는 것입니다.

1. 문제 정의 (Problem)

수중 로봇 조작은 다음과 같은 심각한 도전 과제에 직면해 있습니다:

시각적 열화: 수중 환경은 빛의 파장별 감쇠, 산란, 탁도, 급변하는 조명 및 광선 (caustics) 으로 인해 이미지가 심하게 왜곡되고 변합니다.
데이터 수집 비용: 수중에서 다양한 시나리오와 객체에 대한 고품질 시연 (Demonstration) 데이터를 수집하려면 원격 조종이 필요하며, 이는 시간과 비용이 매우 많이 듭니다.
일반화 부재: 기존 학습 기반 정책들은 환경 변화 (배경, 조명, 객체) 에 취약하여 분포 이동 (Distribution Shift) 상황에서 쉽게 실패합니다.

2. 방법론 (Methodology)

저자들은 두 가지 주요 전략을 통해 문제를 해결합니다:

가. 자가 감독 수중 데이터 수집 파이프라인 (Self-Supervised Underwater Data Collection)

원리: 원격 조종 없이 로봇이 스스로 성공적인 그립 시연을 수집합니다.
프로세스:
1. 휴리스틱 제어기: PD 제어기를 사용하여 객체 중심을 이미지 중앙에 맞추고 접근합니다.
2. 단계적 접근: 요 (Yaw) 정렬 $\rightarrow$ 전진 $\rightarrow$ 깊이 조절 $\rightarrow$ 근접 접근 및 그립.
3. 성공 검증: 그립 후 물체를 당기는 (Drag) 행동을 수행하여 미끄러짐이 없으면 성공으로 라벨링합니다.
4. 회복 메커니즘: 그립 실패 시 재시도 (Regrasp) 또는 시야 이탈 시 후퇴 및 재획득 (Overshoot recovery) 을 수행하여 데이터 수집 효율성을 높입니다.
결과: 약 15 시간의 자율 실행으로 536 개의 시연 데이터를 수집했으며, 이 중 233 개의 성공 데이터를 학습에 사용했습니다.

나. UMI-Aquatic 및 지능형 전이 학습 (UMI-Aquatic & Zero-shot Transfer)

UMI-Aquatic: 지상에서 휴대용 그립퍼 (iPhone 카메라 장착) 를 사용하여 다양한 객체와 배경에서 그립 시연을 수집합니다.
Affordance (행위 가능성) 예측:
- 입력: RGB 대신 깊이 (Depth) 정보를 기반으로 훈련된 모델을 사용합니다. 이는 수중과 지상의 색상/조명 차이를 극복하기 위함입니다.
- 학습: 지상 데이터 (UMI-Aquatic) 로만 학습된 affordance 모델이 수중 환경에서 제로샷 (Zero-shot) 으로 작동하도록 설계되었습니다.
- 정렬: iPhone 카메라와 수중 카메라 간의 기하학적 불일치를 해결하기 위해 평면 재투영 (Plane-at-depth warp) 기법을 사용하여 지상 이미지를 수중 카메라 기하학에 맞춥니다.
Diffusion Policy:
- 예측된 affordance 히트맵 (그립 위치), 단안 깊이도, 로봇 상태 정보를 입력으로 받아 제어 명령을 생성하는 확산 정책 (Diffusion Policy) 을 훈련합니다.
- 이 정책은 수중에서 수집된 성공 데이터로 학습되지만, 목표 위치 (Goal) 는 지상 데이터 기반의 affordance 모델로부터 제공됩니다.

3. 주요 기여 (Key Contributions)

자가 감독 수중 데이터 수집 파이프라인: 원격 조종에 의존하지 않고, 회복 행동과 자동 성공 필터링을 통해 확장 가능한 수중 그립 데이터를 수집하는 실용적인 시스템 구축.
교차 도메인 지각 인터페이스 (Affordance Heatmaps): 지상 UMI-Aquatic 데이터로 훈련된 깊이 기반 affordance 모델을 수중 환경에 제로샷으로 전이하여, 혼합 학습이나 미세 조정 (Fine-tuning) 없이도 지상 - 수중 도메인 간격을 극복.
강건성 및 전이 평가: 기존 RGB 기반 베이스라인을 능가하는 성능을 입증. 특히 배경 변화, 조명 변화, 그리고 훈련 데이터에 없던 새로운 객체에 대한 일반화 능력을 검증.

4. 실험 결과 (Results)

수영장 환경에서 수행된 실험 결과는 다음과 같습니다:

분포 내 (In-Distribution) 성능: 훈련된 객체와 배경에서 제안된 방법 (DP + Aff + Depth) 은 85% 성공률을 기록하여, RGB 만 사용하는 베이스라인 (65%) 보다 우수했습니다. 이는 다중 객체 환경에서 목표 객체 혼동을 줄여주었기 때문입니다.
시각적 일반화 (배경 변화): 훈련되지 않은 배경 (예: 목재 무늬 벽지) 에서 RGB 기반 정책은 0% 성공률로 완전히 실패했으나, 제안된 방법은 80% 의 성공률을 유지했습니다. 이는 RGB 의 색상/텍스처 변화에 민감한 반면, 깊이와 affordance 는 배경 변화에 강건하기 때문입니다.
새로운 객체 일반화 (Novel-Object): 훈련 데이터에 없던 지상 객체 (주전자, 캔, 전동 드릴 등) 를 수중에서 테스트했을 때, 제안된 방법은 75% 성공률을 보인 반면 RGB 베이스라인은 50% 에 그쳤습니다. 이는 지상 데이터로 학습된 affordance 가 새로운 객체의 그립 가능 영역을 잘 포착했음을 의미합니다.

5. 의의 및 결론 (Significance & Conclusion)

인간 부담 감소: 수중 로봇 조작 데이터 수집에 필요한 인간의 원격 조종 노력을 획기적으로 줄였습니다.
강건한 자율성: 수중 환경의 심한 시각적 열화와 도메인 간격을 깊이 기반 affordance 표현을 통해 효과적으로 해결했습니다.
확장성: 지상에서 저렴하고 쉽게 수집한 데이터를 수중 로봇의 고난도 작업에 전이할 수 있는 새로운 패러다임을 제시했습니다.

한계 및 향후 과제:
현재 시스템은 깊이 추정 (Depth Anything V2) 에 의존하므로, 깊이가 노이즈가 많거나 색상/질감이 중요한 경우 정보가 손실될 수 있습니다. 또한, PID 제어기의 오버슈트 (Overshoot) 로 인해 시야 이탈 시 목표 객체가 변경되는 실패 모드가 발생하므로, 동역학을 고려한 제어기 (MPC 등) 로의 개선이 필요합니다.

이 연구는 수중 로봇이 복잡한 환경에서도 인간 개입 없이 자율적으로 학습하고 일반화할 수 있는 가능성을 보여주었습니다.