Hierarchical Latent Action Model

이 논문은 기존 잠재 행동 모델이 놓친 장기적인 시간적 구조를 포착하기 위해 사전 훈련된 모델을 저수준 추출기로 활용하여 고수준 잠재 기술을 발견하는 계층적 잠재 행동 모델 (HiLAM) 을 제안합니다.

Hanjung Kim, Lerrel Pinto, Seon Joo Kim

게시일 2026-03-09
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"로봇이 행동 없이 찍힌 영상만 보고도, 복잡한 일을 스스로 배울 수 있게 하는 새로운 방법"**을 소개합니다.

기존의 로봇 학습은 "사람이 직접 손으로 움직이는 모습을 찍고, 그때 로봇이 어떤 버튼을 눌렀는지 (행동 데이터) 를 알려줘야" 배울 수 있었습니다. 하지만 이 데이터는 구하기 너무 비싸고 귀찮죠. 그래서 연구자들은 **"행동 데이터 없이 영상만 보고 로봇이 스스로 움직임을 추론하는 것 (잠재 행동 모델)"**을 개발해 왔습니다.

하지만 기존 방법들은 **"짧은 순간의 움직임"**만 보고 배워서, **"오래 걸리는 복잡한 일 (예: 요리하기, 청소하기)"**을 잘 못 했습니다. 마치 알파벳 (단어) 은 잘 읽지만, 문장이나 책의 흐름을 이해하지 못하는 상태와 비슷하죠.

이 논문은 이 문제를 해결하기 위해 HiLAM이라는 새로운 모델을 제안합니다.


🧩 핵심 비유: "레고 블록"과 "지시명령서"

이 모델을 이해하기 위해 레고지시명령서를 생각해보세요.

1. 문제: 알파벳만 아는 로봇 (기존 모델)

기존 모델은 영상을 볼 때, "손이 오른쪽으로 1cm 이동" 같은 아주 작은 움직임 (알파벳) 만 기억합니다.

  • 상황: 로봇이 "컵을 들어 테이블에 올려라"는 일을 해야 합니다.
  • 기존 방식: 로봇은 "손 들어가기, 손 잡기, 손 들어 올리기..." 같은 알파벳 나열만 보고, 이걸 어떻게 조합해야 '컵을 드는 행위'가 되는지 모릅니다. 마치 알파벳은 다 외웠지만, 문장을 못 만드는 사람처럼요.

2. 해결책: HiLAM (계층적 잠재 행동 모델)

HiLAM은 이 알파벳 나열을 **의미 있는 문장 (기술/스킬)**으로 묶어줍니다.

  • 동작: 영상 속 로봇의 움직임을 보고, "손을 뻗기", "컵을 잡기", "들기", "놓기" 같은 **중요한 단계 (스킬)**를 스스로 찾아냅니다.
  • 비유: 마치 책장을 넘기면서 "이 부분은 '도입부', 저 부분은 '절정', 저기는 '결말'이야"라고 **챕터 (장)**를 자동으로 나누는 것과 같습니다.

🚀 HiLAM이 어떻게 작동할까요? (3 단계 과정)

이 모델은 H-Net이라는 기술을 기반으로 하는데, 쉽게 설명하면 "동적 조각내기 (Dynamic Chunking)" 기술입니다.

1 단계: 작은 조각 모으기 (잠재 행동 추출)

먼저, 기존에 훈련된 모델이 영상 속 움직임을 아주 작은 조각 (잠재 행동) 으로 쪼개서 나열합니다.

  • 비유: 영상 속 모든 움직임을 레고 조각처럼 하나하나 분리해 놓는 상태입니다.

2 단계: 의미 있는 블록 만들기 (계층적 학습)

이제 HiLAM은 이 작은 레고 조각들을 보고, **"어떤 것들이 모여서 하나의 큰 의미를 가질까?"**를 스스로 판단합니다.

  • 동적 조각내기: 이 모델은 "이제 손이 움직이는 구간이 끝났고, 잡는 구간이 시작됐다"라고 스스로 경계를 그립니다.
  • 비유: 흩어진 레고 조각들을 보고, **"이건 '바퀴' 블록, 저건 '문' 블록"**이라고 분류해서 **작은 집 (기술)**을 만드는 것입니다.
  • 결과: "손 뻗기", "잡기", "들기" 같은 **고급 기술 (잠재 스킬)**이 만들어집니다.

3 단계: 로봇에게 가르치기 (정책 학습)

이제 로봇은 이 **만들어진 기술 (스킬)**을 보고 일을 수행합니다.

  • 고수 (High-level): "컵을 들어라"는 명령을 들으면, **"손 뻗기 -> 잡기 -> 들기"**라는 스킬 시퀀스를 계획합니다.
  • 실무자 (Low-level): 그 계획에 따라 실제 **작은 레고 조각 (작은 움직임)**들을 실행합니다.

🌟 왜 이 방법이 특별한가요?

  1. 데이터 효율성 (적은 데이터로 더 잘함):

    • 실험 결과, 기존 모델 (BAKU) 은 전문가의 시범 영상을 100% 다 봐야 80% 정도 성공했는데, HiLAM은 10% 만 봐도 거의 50% 성공했습니다.
    • 비유: 요리 레시피를 통째로 외우는 것보다, "불 조절하기, 재료를 다지기" 같은 핵심 기술을 먼저 익히면, 새로운 요리를 배울 때 훨씬 빠르다는 뜻입니다.
  2. 긴 시간의 일도 가능함:

    • 복잡한 일 (예: 여러 단계로 이루어진 청소) 을 할 때, 한 번에 모든 걸 기억하지 않아도 단계별 기술로 나누어 처리하므로 훨씬 안정적입니다.
  3. 스스로 배우는 능력:

    • "이건 '잡는' 구간이야, 저건 '놓는' 구간이야"라고 사람이 알려주지 않아도 스스로 경계를 찾아냅니다.

💡 결론

이 논문은 **"로봇에게 알파벳 (작은 움직임) 을 가르치는 것을 넘어, 문장 (복잡한 기술) 을 스스로 구성하는 법을 가르쳤다"**는 점에서 획기적입니다.

앞으로 로봇은 사람이 직접 하나하나 가르치지 않아도, 유튜브 같은 다양한 영상만 보고도 복잡한 일을 스스로 배워낼 수 있는 시대가 열릴 것입니다. 마치 유튜브를 보며 요리법을 스스로 터득하는 요리사처럼 말이죠!