LHM-Humanoid: Learning a Unified Policy for Long-Horizon Humanoid Whole-Body Loco-Manipulation in Diverse Messy Environments

이 논문은 다양한 혼란스러운 환경에서 장시간의 로코-매니퓰레이션 작업을 단일 통합 정책으로 수행하기 위한 벤치마크 LHM-Humanoid 와 이를 학습하는 프레임워크를 제안하며, 강화학습 기반 교사 정책과 DAgger 를 통한 지식 증류, 그리고 비전 - 언어 - 행동 (VLA) 모델로의 최종 정제를 통해 인간형 로봇의 뛰어난 일반화 능력과 견고성을 입증합니다.

Haozhuo Zhang, Jingkai Sun, Michele Caprio, Jian Tang, Shanghang Zhang, Qiang Zhang, Wei Pan

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🤖 1. 이 로봇은 어떤 일을 하나요? (과제)

상상해 보세요. 방이 엉망진창입니다. 소파 위에 노트북이 있고, 복도에는 쓰레기통이 가로막고 있죠.
이 로봇의 임무는 다음과 같습니다:

  1. 걸어가서 노트북을 찾습니다.
  2. 균형을 잡으며 노트북을 집어 듭니다. (넘어지지 않게 조심해야 해요!)
  3. 물건을 들고 장애물을 피해 이동합니다.
  4. 제자리에 노트북을 내려놓습니다.
  5. 그리고 멈추지 않습니다. 바로 다음 물건 (예: 쓰레기통) 을 찾아서 같은 과정을 반복합니다.

기존 로봇들은 "물건을 집어라"라고 하면 집고, "내려놓아라"라고 하면 내려놓는 식으로 하나씩만 했습니다. 하지만 이 로봇은 환경을 초기화 (Reset) 하지 않은 채 계속 이어지는 긴 작업을 스스로 해결해야 합니다. 마치 게임에서 '게임 오버' 없이 계속 플레이하는 것과 같습니다.

🎓 2. 어떻게 가르쳤나요? (핵심 아이디어)

이렇게 복잡한 일을 한 번에 가르치기는 너무 어렵습니다. 그래서 연구진은 스승 (Teacher) 두 명을 고용해서 로봇을 가르쳤습니다.

  • 스승 1 (첫 번째 물건 전문가):

    • 첫 번째 물건을 찾아서 들고, 제자리에 내려놓은 후, 안전하게 물러서는 (Release-and-Retreat) 행동까지 완벽하게 가르칩니다.
    • 비유: 요리사가 요리를 다 하고 난 뒤, 식탁을 정리하고 주방에서 깔끔하게 물러나는 법을 가르치는 거죠.
  • 스승 2 (복구 및 다음 물건 전문가):

    • 스승 1 이 물러난 직후의 어색한 자세 (예: 몸을 숙인 채, 혹은 비틀어진 상태) 에서 시작합니다.
    • 그 상태에서 균형을 잡고, 다음 물건을 찾아서 같은 일을 반복하는 법을 가르칩니다.
    • 비유: 요리사가 식탁을 정리하고 물러났는데, 갑자기 또 새로운 손님이 와서 요리 요청을 합니다. 스승 2 는 그 어색한 상황에서 바로 다음 요리를 시작하는 법을 가르칩니다.
  • 학생 (로봇 본체):

    • 이 두 스승의 가르침을 받아, 하나의 통합된 두뇌로 학습합니다.
    • 마치 두 명의 명장에게서 배운 제자가, 어떤 상황에서도 스스로 판단하여 모든 일을 해결하는 마스터가 되는 것입니다.

🧠 3. 왜 이 방법이 특별한가요? (기존 방식과의 차이)

기존 방법들은 대부분 조각조각 나뉜 기술을 사용했습니다.

  • 비유: "걷기", "잡기", "놓기"라는 별개의 레시피를 따로따로 외운 로봇입니다.
  • 문제점: 만약 물건이 예상과 다르게 놓여 있거나, 발이 미끄러지면, "걷기" 레시피는 작동하지만 "잡기" 레시피가 실패해서 전체 시스템이 멈춰버립니다.

이 연구의 방식은 한 번에 모든 것을 연결합니다.

  • 비유: 로봇이 직관을 갖게 된 것입니다. 물건이 어디에 있든, 발이 어떻게 되어 있든, "어떻게 하면 다음 단계로 넘어갈까?"를 스스로 고민하며 균형을 유지합니다.

📺 4. 눈과 귀를 가진 로봇 (VLA 모델)

이 연구는 단순히 로봇의 두뇌만 만든 것이 아닙니다. 로봇에게 **눈 (카메라)**과 **귀 (언어 이해)**를 달아주었습니다.

  • 사람이 "저기 소파 위의 컵을 치워줘"라고 말하면, 로봇은 그 말을 듣고 카메라로 소파를 비추며 컵을 찾아냅니다.
  • 비유: 로봇이 이제 명령어를 듣고 눈으로 직접 확인하며 행동하는, 진짜 인간과 같은 상호작용이 가능해졌습니다.

🏆 5. 결과는 어땠나요?

실험 결과, 이 로봇은 보지 못한 새로운 방 (예: 처음 보는 주방이나 창고) 에 들어가도 잘 작동했습니다.

  • 기존 로봇들은 방이 조금만 달라져도 길을 잃거나 넘어졌지만, 이 로봇은 장애물을 피하고 균형을 잡으며 여러 개의 물건을 연속으로 정리해 냈습니다.
  • 특히, 물건을 내려놓은 후 다음 작업을 위해 자연스럽게 뒤로 물러나는 동작이 매우 중요하다는 것을 발견했습니다. 이 작은 동작이 전체 미션의 성공률을 크게 높여주었습니다.

💡 요약

이 논문은 **"복잡하고 엉망인 환경에서, 인간형 로봇이 넘어지지 않고 여러 가지 일을 연속으로 해내는 방법"**을 찾아냈습니다.
두 명의 스승을 통해 단계별 기술을 가르치고, 이를 하나로 합쳐 스스로 판단하는 로봇을 만든 것입니다. 이는 미래에 우리가 집에서 로봇에게 "방 정리해 줘"라고 말하면, 로봇이 스스로 모든 물건을 찾아서 깔끔하게 정리해 줄 수 있는 초석이 될 것입니다.