Each language version is independently generated for its own context, not a direct translation.

1. 문제: 로봇은 왜 '노가다'를 해야 할까?

지금까지 로봇이 새로운 일을 배우려면, 인간이 직접 로봇의 손을 잡고 수천 번을 시연해 주어야 했습니다. 마치 유치원 선생님이 아이에게 "이건 사과야, 저건 바나나야"라고 일일이 가르쳐 주는 것과 비슷합니다. 하지만 이 방법은 시간이 너무 많이 들고, 로봇이 처음 보는 상황 (예: 사과 대신 딸기가 있거나, 테이블이 비틀어져 있는 경우) 이면 당황해서 일을 못 합니다.

2. 해결책: Tether(테더) 의 두 가지 마법

이 연구팀은 로봇이 스스로 놀면서 (Autonomous Play) 경험을 쌓게 하는 시스템을 만들었습니다. 핵심은 두 가지입니다.

첫 번째 마법: "유령 손" (Trajectory Warping)

로봇이 새로운 장면을 마주했을 때, 인간이 수천 번 시연해 줄 필요 없이 단 10 번의 시연만 있으면 됩니다.

비유: Imagine you are trying to fold a shirt on a table that is a different shape than the one you practiced on.
- 기존 방식: 새로운 테이블 모양에 맞춰 옷을 접는 법을 처음부터 다시 배워야 합니다.
- Tether 방식: "아, 이 테이블 구석은 내가 예전에 연습했던 테이블 구석과 비슷하구나!"라고 중요한 점 (키 포인트) 을 찾아냅니다. 그리고 예전에 연습했던 손동작을 그 점에 맞춰서 늘리거나 줄여서 (Warpping) 새로운 테이블에 적용합니다.
- 마치 투명 유령 손이 예전의 동작을 따라 하되, 새로운 공간의 크기와 모양에 맞춰 자연스럽게 변형시키는 것과 같습니다. 이 덕분에 로봇은 사과가 딸기로 바뀌거나, 그릇이 뒤집혀 있어도 "아, 이건 그릇의 가장자리구나"라고 알아채고 똑같은 동작을 해냅니다.

두 번째 마법: "스스로 놀고 평가하는 AI 코치" (VLM-guided Play)

로봇이 혼자 놀면서 실수하고 성공하는 데이터를 모으는 과정입니다.

비유: 로봇은 혼자서 장난감을 가지고 노는 아이이고, Vision-Language Model (VLM, 눈과 언어를 가진 AI) 은 그 아이를 지켜보는 똑똑한 코치입니다.
1. 코치가 미션을 줍니다: "자, 지금 pineaple(파인애플) 이 테이블에 있네? 그걸 선반으로 옮겨봐!"
2. 로봇이 실행합니다: 위에서 설명한 '유령 손' 기술로 파인애플을 옮깁니다.
3. 코치가 평가합니다: "오, 성공했어! 잘했어!" 혹은 "아이고, 그릇이 엎어졌네. 다시 해봐."
4. 반복: 이 과정을 24 시간 동안 멈추지 않고 반복합니다. 로봇이 실수해서 그릇이 뒤집히면, 로봇이 그걸 다시 일으켜 세우거나, 운 좋게 그릇이 다시 제자리에 놓이는 '우연한 성공'도 경험하게 됩니다.

3. 놀라운 결과: 24 시간의 놀이, 1,000 개의 전문가 데이터

이 시스템은 24 시간 동안 로봇이 혼자 놀게 했습니다. 그 결과:

인간의 개입은 5 번뿐: 24 시간 동안 인간이 개입한 건 고작 5 번 (약 5 분) 뿐이었습니다. 나머지는 모두 로봇이 스스로 해결했습니다.
1,000 개 이상의 성공 데이터: 로봇은 스스로 1,000 개 이상의 완벽한 작업 데이터를 만들어냈습니다.
더 똑똑해진 로봇: 이렇게 모은 데이터를 다시 로봇에게 가르치니, 로봇은 인간이 직접 가르친 데이터로 학습한 로봇만큼이나, 혹은 그보다 더 잘하게 되었습니다.

4. 핵심 요약 (한 줄 정리)

"로봇에게 수천 번의 시연 데이터를 주지 말고, '중요한 연결점'을 찾아 동작을 변형시키는 능력과, 스스로 놀면서 실수와 성공을 경험하게 하는 환경을 만들어주면, 로봇은 인간보다 훨씬 빠르게, 그리고 저렴하게 전문가가 될 수 있다."

이 기술은 로봇이 인간의 노가다 없이도 스스로 세상을 탐험하고 배우는 자율적인 학습의 새로운 시대를 열었다고 볼 수 있습니다. 마치 아이가 장난감을 가지고 놀면서 자연스럽게 세상을 배우는 것처럼요.

Each language version is independently generated for its own context, not a direct translation.

Tether: 자율적 기능적 놀이와 대응 기반 궤적 왜곡을 통한 로봇 학습 기술 요약

이 논문은 ICLR 2026 에 게재된 **"Autonomous Functional Play with Correspondence-Driven Trajectory Warping"**으로, 인간이 직접 시연 (demonstration) 을 제공하는 번거로움을 극복하고 로봇이 자율적으로 경험을 쌓으며 학습할 수 있는 새로운 패러다임인 Tether 시스템을 제안합니다.

1. 문제 정의 (Problem)

로봇 조작 (manipulation) 분야에서 최근의 발전은 주로 인간이 원격 조종 (teleoperation) 을 통해 수집한 대량의 시연 데이터에 기반한 모방 학습 (Imitation Learning) 에 힘입었습니다. 그러나 이러한 방식에는 다음과 같은 근본적인 한계가 있습니다.

확장성 부족: 인간이 시연을 제공하는 데 드는 노력이 방대하여 데이터 양이 인간 시간과 선형적으로만 비례합니다.
일반화 한계: 데이터 집약적인 신경망 정책 (Policy) 은 다양한 공간적, 의미적 (semantic) 환경 변화에 대해 일반화하려면 방대하고 다양한 데이터셋이 필요합니다.
자율성 부재: 로봇이 스스로 실수를 하고, 이를 통해 새로운 상황을 탐색하며 학습하는 '놀이 (play)'의 개념을 구현하기 어렵습니다.

2. 방법론 (Methodology)

Tether 는 두 가지 핵심 구성 요소를 통해 위 문제를 해결합니다.

2.1 대응 기반 궤적 왜곡 (Correspondence-Driven Trajectory Warping)

소수의 시연 데이터 (최대 10 개) 만으로도 다양한 환경에서 작동할 수 있는 오픈 루프 (open-loop) 정책을 설계했습니다.

시맨틱 키프인트 대응 (Keypoint Correspondence): 새로운 장면에서 시연 이미지와 의미론적으로 중요한 키프인트 (예: 과일 중심, 용기 가장자리) 간의 대응 관계를 계산합니다. 최신 컴퓨터 비전 모델 (DINOv2, Stable Diffusion 기반) 을 사용하여 객체의 위치, 크기, 모양이 달라지더라도 (Out-of-Distribution) 가장 유사한 시연을 자동으로 선택합니다.
궤적 왜곡 (Trajectory Warping): 선택된 시연의 3D 그리퍼 궤적을 현재 장면의 키프인트 위치에 맞춰 선형 보간 (linear interpolation) 을 통해 변환합니다. 이는 시간 축이 아닌 공간 축에서 보간을 수행하여, 시연과 현재 장면 사이의 기하학적 관계를 정밀하게 유지합니다.
특징: 대규모 신경망 학습 없이도 소량의 데이터로 높은 공간적, 의미적 강건성 (robustness) 을 확보합니다.

2.2 비전 - 언어 모델 (VLM) 기반 자율 기능적 놀이 (Autonomous Functional Play)

Tether 정책을 활용하여 인간 개입 없이 데이터를 생성하는 순환 프로세스를 구축했습니다.

작업 선택 및 계획: 비전 - 언어 모델 (VLM, Gemini Robotics-ER 1.5) 에 현재 장면을 입력받아 수행할 작업을 계획합니다. 성공 확률이 낮은 희귀 작업을 우선시하거나, 현재 상태에서 실행 가능한 작업 순서를 생성합니다.
자율 리셋 (Natural Resets): 각 작업의 종료 상태가 다음 작업의 시작 상태가 되도록 설계하여 (예: "상자에 과일을 넣음" $\rightarrow$ "상자를 선반에 올림"), 수동 리셋 없이도 로봇이 연속적으로 작업을 수행할 수 있게 합니다.
성공 평가: VLM 을 사용하여 작업 수행 전후의 이미지를 분석하여 성공 여부를 판단하고, 성공한 궤적만 필터링하여 하류 학습에 사용합니다.
탐색과 활용 (Exploration vs. Exploitation): 다중 암 밴딧 (Multi-armed Bandit) 알고리즘을 사용하여 어떤 시연 데이터를 기반으로 궤적을 왜곡할지 선택함으로써, 다양한 시도와 성공적인 시연의 활용을 균형 있게 조절합니다.

3. 주요 기여 (Key Contributions)

강건한 키프인트 대응 기반 정책: 소수의 시연 (10 개 이하) 만으로도 공간적 배치와 객체 종류 (색상, 크기, 모양) 가 크게 변하는 환경에서도 높은 성공률을 보이는 새로운 오픈 루프 정책 아키텍처를 제안했습니다.
자율 데이터 생성 파이프라인: VLM 을 가이드로 하여 26 시간 동안 인간 개입을 최소화하며 1,000 개 이상의 전문가 수준 (expert-level) 성공 궤적을 자동으로 생성하는 시스템을 구축했습니다.
하류 정책 학습의 효과 입증: Tether 가 생성한 데이터를 통해 학습된 신경망 정책 (Diffusion Policy 등) 이 시간이 지남에 따라 성능이 지속적으로 향상되어, 인간이 수집한 데이터로 학습된 정책과 경쟁 가능한 수준에 도달함을 입증했습니다.

4. 실험 결과 (Results)

실험 환경: 가정 환경과 유사한 12 가지 조작 작업 (과일 이동, 용기 정리, 천 닦기, 문 열기, 테이프 걸기, 커피 캡슐 삽입 등) 을 수행했습니다.
정책 비교: Tether 는 10 개의 시연 데이터로 Diffusion Policy, KAT (Keypoint Action Tokens), $\pi_0$ (VLA 모델) 등 최신 베이스라인을 압도적으로 능가했습니다. 특히 Diffusion Policy 는 10 개 시연으로는 일반화에 실패했고, $\pi_0$ 는 미세 조정 시 과적합으로 실패했습니다.
자율 놀이 성과:
- 약 26 시간의 자율 놀이 동안 1,085 개의 성공적인 궤적을 생성했습니다 (시도 1,946 회, 성공률 55.8%).
- 인간 개입은 총 5 회 (전체 시도의 0.26%) 만 필요했습니다.
- 생성된 데이터로 학습된 Diffusion Policy 는 시간이 지날수록 성공률이 100% 에 근접하며 향상되었습니다.
강건성: 훈련 데이터에 없던 객체 (예: 파인애플 대신 딸기, 그릇 대신 컵) 나 복잡한 물리 현상 (변형, 정밀 접촉) 이 포함된 환경에서도 높은 성공률을 보였습니다.

5. 의의 및 결론 (Significance)

이 논문은 로봇 학습의 패러다임을 **"인간 시연에 의존"**하는 방식에서 **"로봇의 자율적 상호작용과 경험"**으로 전환할 수 있음을 보여줍니다.

데이터 효율성: 소수의 시연으로 시작하여 로봇이 스스로 데이터를 확장하고 학습할 수 있는 선순환 구조를 확립했습니다.
실용성: 복잡한 가정 환경에서도 인간 개입 없이 장시간 자율적으로 작동하며, 생성된 고품질 데이터는 더 강력한 신경망 정책 학습의 연료로 활용됩니다.
미래 방향: Tether 는 강력한 사전 지식 (prior) 으로 작용하며, 향후 강화 학습이나 더 많은 데이터가 확보되었을 때 모방 학습과 결합하여 로봇의 자기 개선 (self-improvement) 능력을 극대화할 수 있는 기반을 마련했습니다.

요약하자면, Tether는 컴퓨터 비전의 대응 (correspondence) 기술과 VLM 의 추론 능력을 결합하여, 로봇이 인간 없이도 스스로 '놀이'를 통해 숙련된 조작 기술을 습득할 수 있는 획기적인 시스템을 제시합니다.

Tether: Autonomous Functional Play with Correspondence-Driven Trajectory Warping