Iterative On-Policy Refinement of Hierarchical Diffusion Policies for Language-Conditioned Manipulation

이 논문은 환경 피드백을 통해 고수준 계획자와 저수준 제어기의 능력을 자동으로 정렬하고 상호 개선하는 자기 강화 사이클을 도입한 'HD-ExpIt' 프레임워크를 제안하여, 언어 조건부 조작 작업에서 오프라인 데이터만 사용하는 기존 계층적 확산 정책의 성능을 획기적으로 향상시킵니다.

Clemence Grislain, Olivier Sigaud, Mohamed Chetouani

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🤖 핵심 비유: "현장 지휘관"과 "실무자"의 팀워크

로봇이 일을 할 때, 보통 두 명의 가상의 인물이 역할을 나눕니다.

  1. 고위 지휘관 (High-Level Planner): "책상 위의 빨간 컵을 가져와서 싱크대에 넣어줘"라는 큰 명령을 듣고, **'먼저 컵을 잡고, 들어 올리고, 이동하고, 놓아야 해'**라는 단계별 계획 (하위 목표) 을 세웁니다.
  2. 실무자 (Low-Level Controller): 지휘관의 계획을 보고, 실제로 로봇 팔을 움직여 컵을 잡는 구체적인 동작을 수행합니다.

기존의 문제점: "계획과 현실의 괴리"
기존 방식은 지휘관이 책상에서만 계획을 세울 뿐, 실무자가 실제로 그 일을 할 수 있는지 (예: 로봇 팔이 너무 짧거나, 컵이 미끄러워서 잡기 힘든지) 를 모르고 계획을 세웠습니다.

  • 상황: 지휘관이 "저 높은 선반까지 올라가서 물건을 가져와"라고 계획했는데, 실무자는 발이 닿지 않아 실패합니다.
  • 결과: 계획은 완벽해 보였지만, 실제 실행에서 계속 실패하는 '불일치'가 발생합니다.

💡 이 논문이 제안한 해결책: "HD-ExpIt" (스스로 배우는 팀)

이 연구는 **지휘관과 실무자가 서로의 능력을 알고, 실패를 통해 함께 성장하는 '반복적인 훈련 루프'**를 만들었습니다. 이를 HD-ExpIt이라고 부릅니다.

1. "시뮬레이션 속의 무한한 시도" (확률적 탐색)

기존에는 정해진 데이터만 보고 학습했지만, 이 방법은 지휘관이 수천 번의 시뮬레이션을 돌립니다.

  • 마치 게임에서 캐릭터가 같은 맵을 수천 번 달리며 최적의 경로를 찾는 것과 같습니다.
  • 지휘관이 "이렇게 해보자"라고 계획을 세우면, 실무자가 실제로 시도해 봅니다.
  • 성공하면: "좋아! 이 계획은 실무자가 할 수 있구나!"라고 기억합니다.
  • 실패하면: "아, 이 계획은 현실적으로 불가능하구나."라고 배웁니다.

2. "성공한 경험만 모아 다시 가르치기" (데이터 증류)

이 과정은 스스로를 가르치는 선생님과 같습니다.

  • 로봇이 실패한 수많은 시도 중에서, 실제로 성공한 '명작'들만 골라냅니다.
  • 이 성공한 경험들을 다시 지휘관과 실무자에게 보여주고 학습시킵니다.
  • 지휘관은 "아, 실무자가 할 수 있는 범위 내에서 계획을 세워야겠다"라고 배우게 됩니다.
  • 실무자는 "이런 상황에서는 이렇게 움직여야 성공하구나"라고 더 정교해집니다.

이 과정을 몇 번 반복하면, 지휘관은 실무자의 능력을 완벽하게 이해하게 되고, 실무자는 지휘관의 계획을 더 잘 수행하게 되어 팀워크가 완벽해집니다.

📊 실제 성과: "CALVIN"이라는 어려운 시험에서 최강자가 되다

연구진은 로봇이 복잡한 작업을 연속으로 수행하는 CALVIN이라는 어려운 시험을 치르게 했습니다.

  • 기존 방식: 정해진 데이터만 보고 학습한 로봇은 연속으로 2~3 개의 작업을 성공하는 데 그쳤습니다.
  • HD-ExpIt 방식: 이 새로운 훈련법을 쓴 로봇은 연속으로 4~5 개의 작업을 성공하는 등, 기존 방식보다 성공률이 2 배 이상 뛰었습니다.

🌟 왜 이것이 중요한가요?

기존의 로봇 학습은 "책상 위에서의 이론 공부"만 했다면, 이 방법은 **"현장에서의 실전 훈련"**을 통해 로봇을 성장시켰습니다.

  • 더 이상 '계획만 세우는' 로봇이 아닙니다: 실제로 할 수 있는 일을 계획합니다.
  • 데이터에 의존하지 않습니다: 처음에 부족했던 데이터라도, 스스로 실패와 성공을 반복하며 부족한 부분을 채워갑니다.
  • 복잡한 일도 가능해집니다: 단순한 물건 잡기부터, 여러 단계를 거치는 복잡한 작업까지 로봇이 스스로 해결할 수 있는 능력을 키웠습니다.

📝 한 줄 요약

**"로봇에게 '이론'만 가르치지 말고, 실패와 성공을 반복하며 스스로 '현실 감각'을 익히게 하여, 계획가와 실행자가 완벽한 팀워크를 이루게 만든 혁신적인 훈련법"**입니다.

이 기술은 앞으로 우리가 집에서 로봇에게 "청소하고, 설거지하고, 옷 개고" 같은 복잡한 지시를 내렸을 때, 로봇이 덜 헷갈리고 더 정확하게 일을 해낼 수 있는 토대가 될 것입니다.