Hierarchical Latent Action Model

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"로봇이 행동 없이 찍힌 영상만 보고도, 복잡한 일을 스스로 배울 수 있게 하는 새로운 방법"**을 소개합니다.

기존의 로봇 학습은 "사람이 직접 손으로 움직이는 모습을 찍고, 그때 로봇이 어떤 버튼을 눌렀는지 (행동 데이터) 를 알려줘야" 배울 수 있었습니다. 하지만 이 데이터는 구하기 너무 비싸고 귀찮죠. 그래서 연구자들은 **"행동 데이터 없이 영상만 보고 로봇이 스스로 움직임을 추론하는 것 (잠재 행동 모델)"**을 개발해 왔습니다.

하지만 기존 방법들은 **"짧은 순간의 움직임"**만 보고 배워서, **"오래 걸리는 복잡한 일 (예: 요리하기, 청소하기)"**을 잘 못 했습니다. 마치 알파벳 (단어) 은 잘 읽지만, 문장이나 책의 흐름을 이해하지 못하는 상태와 비슷하죠.

이 논문은 이 문제를 해결하기 위해 HiLAM이라는 새로운 모델을 제안합니다.

🧩 핵심 비유: "레고 블록"과 "지시명령서"

이 모델을 이해하기 위해 레고와 지시명령서를 생각해보세요.

1. 문제: 알파벳만 아는 로봇 (기존 모델)

기존 모델은 영상을 볼 때, "손이 오른쪽으로 1cm 이동" 같은 아주 작은 움직임 (알파벳) 만 기억합니다.

상황: 로봇이 "컵을 들어 테이블에 올려라"는 일을 해야 합니다.
기존 방식: 로봇은 "손 들어가기, 손 잡기, 손 들어 올리기..." 같은 알파벳 나열만 보고, 이걸 어떻게 조합해야 '컵을 드는 행위'가 되는지 모릅니다. 마치 알파벳은 다 외웠지만, 문장을 못 만드는 사람처럼요.

2. 해결책: HiLAM (계층적 잠재 행동 모델)

HiLAM은 이 알파벳 나열을 **의미 있는 문장 (기술/스킬)**으로 묶어줍니다.

동작: 영상 속 로봇의 움직임을 보고, "손을 뻗기", "컵을 잡기", "들기", "놓기" 같은 **중요한 단계 (스킬)**를 스스로 찾아냅니다.
비유: 마치 책장을 넘기면서 "이 부분은 '도입부', 저 부분은 '절정', 저기는 '결말'이야"라고 **챕터 (장)**를 자동으로 나누는 것과 같습니다.

🚀 HiLAM이 어떻게 작동할까요? (3 단계 과정)

이 모델은 H-Net이라는 기술을 기반으로 하는데, 쉽게 설명하면 "동적 조각내기 (Dynamic Chunking)" 기술입니다.

1 단계: 작은 조각 모으기 (잠재 행동 추출)

먼저, 기존에 훈련된 모델이 영상 속 움직임을 아주 작은 조각 (잠재 행동) 으로 쪼개서 나열합니다.

비유: 영상 속 모든 움직임을 레고 조각처럼 하나하나 분리해 놓는 상태입니다.

2 단계: 의미 있는 블록 만들기 (계층적 학습)

이제 HiLAM은 이 작은 레고 조각들을 보고, **"어떤 것들이 모여서 하나의 큰 의미를 가질까?"**를 스스로 판단합니다.

동적 조각내기: 이 모델은 "이제 손이 움직이는 구간이 끝났고, 잡는 구간이 시작됐다"라고 스스로 경계를 그립니다.
비유: 흩어진 레고 조각들을 보고, **"이건 '바퀴' 블록, 저건 '문' 블록"**이라고 분류해서 **작은 집 (기술)**을 만드는 것입니다.
결과: "손 뻗기", "잡기", "들기" 같은 **고급 기술 (잠재 스킬)**이 만들어집니다.

3 단계: 로봇에게 가르치기 (정책 학습)

이제 로봇은 이 **만들어진 기술 (스킬)**을 보고 일을 수행합니다.

고수 (High-level): "컵을 들어라"는 명령을 들으면, **"손 뻗기 -> 잡기 -> 들기"**라는 스킬 시퀀스를 계획합니다.
실무자 (Low-level): 그 계획에 따라 실제 **작은 레고 조각 (작은 움직임)**들을 실행합니다.

🌟 왜 이 방법이 특별한가요?

데이터 효율성 (적은 데이터로 더 잘함):
- 실험 결과, 기존 모델 (BAKU) 은 전문가의 시범 영상을 100% 다 봐야 80% 정도 성공했는데, HiLAM은 10% 만 봐도 거의 50% 성공했습니다.
- 비유: 요리 레시피를 통째로 외우는 것보다, "불 조절하기, 재료를 다지기" 같은 핵심 기술을 먼저 익히면, 새로운 요리를 배울 때 훨씬 빠르다는 뜻입니다.
긴 시간의 일도 가능함:
- 복잡한 일 (예: 여러 단계로 이루어진 청소) 을 할 때, 한 번에 모든 걸 기억하지 않아도 단계별 기술로 나누어 처리하므로 훨씬 안정적입니다.
스스로 배우는 능력:
- "이건 '잡는' 구간이야, 저건 '놓는' 구간이야"라고 사람이 알려주지 않아도 스스로 경계를 찾아냅니다.

💡 결론

이 논문은 **"로봇에게 알파벳 (작은 움직임) 을 가르치는 것을 넘어, 문장 (복잡한 기술) 을 스스로 구성하는 법을 가르쳤다"**는 점에서 획기적입니다.

앞으로 로봇은 사람이 직접 하나하나 가르치지 않아도, 유튜브 같은 다양한 영상만 보고도 복잡한 일을 스스로 배워낼 수 있는 시대가 열릴 것입니다. 마치 유튜브를 보며 요리법을 스스로 터득하는 요리사처럼 말이죠!

Each language version is independently generated for its own context, not a direct translation.

논문 요약: HIERARCHICAL LATENT ACTION MODEL (HiLAM)

1. 문제 정의 (Problem)

배경: 로봇 학습은 대규모 데이터에 의존하고 있지만, 행동 (Action) 이 레이블링된 데이터를 수집하는 것은 비용이 많이 들고 다양성을 확보하기 어렵습니다. 이를 해결하기 위해 **잠재 행동 모델 (Latent Action Models, LAMs)**이 관찰 데이터 (Actionless data) 만에서 잠재 행동을 추출하여 학습하는 방식으로 등장했습니다.
기존 LAM 의 한계: 기존 LAM 들은 주로 짧은 시간 범위 (Short-horizon) 의 프레임 전환에 초점을 맞추어 저수준의 운동 (Low-level motion) 을 포착하는 데 그칩니다. 반면, 행동 레이블이 없는 비디오에는 시간적으로 확장된 **고수준의 기술 (High-level skills)**이 포함되어 있음에도 불구하고, 이를 효과적으로 활용하지 못하고 있습니다.
핵심 과제: 고정된 길이의 윈도우나 미리 정의된 기술 집합에 의존하지 않고, 레이블이 없는 비디오에서 **가변적인 길이의 고수준 잠재 기술 (Latent Skills)**을 자동으로 추출하고 모델링하는 방법론이 필요합니다.

2. 방법론 (Methodology)

HiLAM 은 관찰 데이터만으로부터 고수준 잠재 기술을 학습하기 위해 제안된 계층적 잠재 행동 모델입니다. 주요 구성 요소는 다음과 같습니다.

하이브리드 아키텍처:
- 저수준 추출기 (Low-level Extractor): 사전 훈련된 역동역학 모델 (Inverse Dynamics Model, IDM) 을 사용하여 인접한 프레임 사이의 잠재 행동 (Latent Actions) 시퀀스를 추출합니다.
- 계층적 구조 (Hierarchical Structure): H-Net 아키텍처를 기반으로 하여, 추출된 잠재 행동 시퀀스를 동적 청킹 (Dynamic Chunking) 메커니즘을 통해 자동으로 세분화하고 고수준 잠재 기술로 압축합니다.
동적 청킹 메커니즘 (Dynamic Chunking Mechanism):
- 고정된 길이가 아닌 데이터 기반의 분할을 수행합니다.
- 인코더를 통해 토큰의 특징 벡터를 추출한 후, 인접 토큰 간의 유사도 (Feature dissimilarity) 를 기반으로 경계 (Boundary) 를 예측합니다.
- 경계가 예측된 지점 (새로운 청크의 시작) 에서만 특징을 선택하여 시퀀스를 다운샘플링함으로써, 시간적으로 확장된 기술 단위를 형성합니다.
학습 목표 (Training Objectives):
1. Next-Latent Prediction: 현재 시점의 잠재 행동을 기반으로 다음 잠재 행동을 예측 (Next-token prediction).
2. Visual Supervision (Reconstruction): 예측된 잠재 행동을 사용하여 미래 프레임을 재구성하는 순동역학 모델 (Forward Dynamics Model, FDM) 을 통해 잠재 행동이 운동 특성을 유지하도록 강제합니다.
3. Chunking Regularizer: H-Net 의 비율 정규화 항을 사용하여 경계 패턴이 퇴화 (Degenerate) 하지 않도록 하고 평균 청크 길이를 제어합니다.
계층적 정책 학습 (Hierarchical Policy Learning):
- Pretraining: 학습된 잠재 기술 (High-level) 과 잠재 행동 (Low-level) 을 가짜 레이블 (Pseudo-label) 로 사용하여 고수준 정책 ( $\pi_h$ ) 과 저수준 정책 ( $\pi_l$ ) 을 사전 훈련합니다.
- Fine-tuning: 사전 훈련된 고수준 정책을 고정하고, 타겟 도메인의 실제 행동 레이블이 있는 데이터로 저수준 정책만 미세 조정합니다.

3. 주요 기여 (Key Contributions)

HiLAM 제안: 레이블이 없는 비디오에서 고정된 길이 제약 없이 가변적인 길이의 고수준 잠재 기술을 자동으로 발견하고 인코딩하는 최초의 계층적 모델 중 하나입니다.
동적 청킹을 통한 기술 발견: H-Net 기반의 동적 경계 예측 메커니즘을 도입하여, 데이터의 운동 패턴에 따라 자연스럽게 기술의 시작과 끝을 구분합니다.
효율적인 데이터 활용: 대규모 관찰 데이터 (Human/Robot videos) 로 사전 훈련된 잠재 기술을 활용하여, 소량의 전문가 시연 데이터 (Expert demonstrations) 만으로도 장기 과제 (Long-horizon tasks) 에서 뛰어난 성능을 달성합니다.
해석 가능성 (Interpretability): 예측된 잠재 행동이 실제 미래 프레임을 정확하게 예측할 수 있음을 통해, 추출된 잠재 표현이 의미 있는 운동 정보를 담고 있음을 입증했습니다.

4. 실험 결과 (Results)

벤치마크 (LIBERO): 로봇 제어 벤치마크인 LIBERO (Spatial, Object, Goal, Long) 에서 최신 기법인 BAKU 와 비교 실험을 수행했습니다.
- 전체 성능: 모든 4 개 스위트 (Suite) 에서 HiLAM 이 BAKU 를 일관되게 상회했습니다.
- 데이터 효율성 (LIBERO-Long): 장기 과제의 경우, 전문가 시연 데이터의 10% 만 사용했을 때 BAKU 는 23% 성공률을 보인 반면, HiLAM 은 **45%**를 기록하여 거의 2 배의 성능 향상을 보였습니다. 데이터 50% 사용 시에는 BAKU 가 100% 데이터로 달성한 성능과 유사한 84% 를 기록했습니다.
Ablation Study:
- 인간 비디오 (Something-Something V2) 로 사전 훈련하는 것이 로봇 비디오보다 더 좋은 성능을 보였습니다.
- 가장 깊은 인코더 단계 (Stage 2) 에서 추출된 잠재 기술과 초기 단계 (Stage 0) 의 잠재 행동을 결합하는 구성이 최적의 성능을 보였습니다.
- 계층적 구조 없이 평면 (Flat) 정책을 사용한 경우 성능이 저하되어, 계층적 학습의 필요성이 입증되었습니다.
정성적 분석:
- 기술 경계 예측: 비디오 프레임들을 의미 있는 기술 단위 (예: 그릇 이동, 집기, 내려놓기) 로 자연스럽게 분할하는 것을 시각적으로 확인했습니다.
- 미래 프레임 예측: 예측된 잠재 행동을 입력으로 받아 미래 프레임을 재구성하는 데 성공하여, 모델이 동적 운동 패턴을 잘 학습했음을 증명했습니다.

5. 의의 및 결론 (Significance)

데이터 효율성 극대화: 레이블이 없는 대규모 비디오 데이터를 효과적으로 활용하여, 실제 로봇 제어에 필요한 고수준 기술을 학습할 수 있는 새로운 패러다임을 제시했습니다.
장기 과제 해결: 기존 LAM 이 해결하지 못했던 장기 시간적 구조 (Long-horizon temporal structure) 를 계층적으로 모델링함으로써, 복잡한 다단계 로봇 작업 수행 능력을 크게 향상시켰습니다.
향후 방향: 현재는 운동 정보에 집중하고 있으나, 자연어 (Language) 와의 결합을 통해 운동 정보와 언어 지시를 상호 보완적으로 활용하는 것이 향후 중요한 연구 방향임을 제시했습니다. 또한, 실제 물리 환경 (Real-world) 에서의 검증을 통해 방법론의 실용성을 더 입증할 필요가 있음을 인정했습니다.

이 논문은 레이블이 없는 데이터에서 고수준의 의미 있는 행동을 자동으로 추출하고 이를 로봇 제어에 효과적으로 적용하는 강력한 프레임워크를 제시했다는 점에서 로봇 학습 및 세계 모델 (World Model) 연구 분야에서 중요한 의의를 가집니다.