H-WM: Robotic Task and Motion Planning Guided by Hierarchical World Model

이 논문은 심볼릭 추론의 장기적 견고성과 시각적 기반을 통합하여 장거리 작업에서 오류 누적을 완화하고 로봇의 실행을 강화하는 계층적 세계 모델 (H-WM) 을 제안합니다.

Jinbang Huang, Wenyuan Chen, Zhiyuan Li, Oscar Pang, Xiao Hu, Lingfeng Zhang, Yuanzhao Hu, Zhanguang Zhang, Mark Coates, Tongtong Cao, Xingyue Quan, Yingxue Zhang

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🤖 로봇의 딜레마: "큰 그림"과 "실제 행동" 사이의 간극

지금까지의 로봇들은 두 가지 큰 문제를 겪고 있었습니다.

  1. LLM(거대 언어 모델) 기반 로봇: "냉장고에서 우유를 꺼내 컵에 따르세요"라고 말하면, 로봇은 언어적으로 그 의미를 이해합니다. 하지만 "얼마나 힘을 줘야 우유병이 깨지지 않을까?", "컵이 어디에 있는지 정확히 어떻게 잡아야 할까?" 같은 물리적인 세부 사항은 잘 모릅니다. 마치 이론은 완벽하지만 손발이 없는 천재 같습니다.
  2. 시각 기반 로봇 (VLA): 카메라로 보고 바로 손발을 움직입니다. 하지만 장기적인 계획을 세우는 데는 약합니다. "우유를 따르고, 컵을 씻고, 식탁을 치우는" 10 단계짜리 일을 하면, 중간에 길을 잃거나 실수가 쌓여 마지막엔 실패합니다. 마치 눈은 좋지만 방향을 잃기 쉬운 여행객 같습니다.

💡 해결책: H-WM (계층적 세계 모델)

저자들은 이 두 문제를 해결하기 위해 **"두 개의 뇌"**를 가진 시스템을 만들었습니다. 이를 H-WM이라고 부르는데, 마치 명예로운 사령관정예 부하가 팀을 이루는 것과 같습니다.

1. 상층부: 논리적 세계 모델 (사령관) 🧠

  • 역할: "무엇을 해야 하는가?"를 결정합니다.
  • 비유: 건축 설계도게임의 스토리 시나리오를 보는 사람입니다.
    • "우선 우유병을 열고, 다음엔 컵을 가져와야 해."
    • "이 순서가 아니면 우유가 쏟아져!"
  • 이 부분은 논리와 규칙을 기반으로 로봇이 해야 할 일을 큰 단계 (Sub-goal) 로 나눕니다. 하지만 "정확히 손이 어디로 가야 하지?" 같은 세부적인 시각 정보는 모릅니다.

2. 하층부: 시각적 세계 모델 (부하) 👁️

  • 역할: "어떻게 해야 하는가?"를 시각적으로 보여줍니다.
  • 비유: 설계도를 보고 실제 건물을 짓는 시공팀장입니다.
    • 사령관이 "컵을 가져와"라고 하면, 이 부하는 "아, 저기 있는 컵을 잡으려면 손가락을 이렇게 구부리고, 이 각도로 접근해야겠구나"라고 상상합니다.
    • 중요한 점은 실제 사진을 그리는 게 아니라, 로봇이 다음 단계에서 봐야 할 '핵심 이미지'를 추상적으로 (잠재 특징으로) 예측한다는 것입니다.
    • 마치 내비게이션이 "다음 100m 지점에 좌회전하세요"라고 말해주면서, 그 지점의 지도를 미리 보여주는 것과 같습니다.

🚀 이 시스템이 어떻게 작동할까요?

이 두 뇌는 동기화되어 작동합니다.

  1. 계획: 사령관 (논리 모델) 이 "다음 단계는 컵을 잡는 거야"라고 계획을 세웁니다.
  2. 예측: 부하 (시각 모델) 가 그 계획을 바탕으로 **"컵을 잡았을 때의 모습"**을 머릿속으로 미리 그려냅니다.
  3. 실행: 로봇은 이 미리 그려진 '목표 이미지'를 보며, 실제 카메라로 보는 현재 모습과 비교합니다.
    • "아, 내가 지금 이 각도로 잡으면 목표와 다르네. 조금 더 왼쪽으로 움직여야겠다."
  4. 보정: 이 과정을 반복하며 로봇은 실수 (오차) 가 쌓이는 것을 막고, 긴 작업도 끝까지 정확하게 수행합니다.

🌟 왜 이것이 중요한가요? (핵심 장점)

  • 오류 방지: 로봇이 한 번 실수하면 그 실수가 다음 단계로 이어져 큰 실패가 되는 것을 막아줍니다. (예: 컵을 잘못 잡으면 컵이 깨지고, 컵이 깨지면 다음 단계인 '물 붓기'가 불가능해짐)
  • 구체적인 목표: "컵을 가져와"라는 막연한 명령 대신, **"이렇게 잡힌 컵"**이라는 구체적인 목표 이미지를 제시해 로봇이 헷갈리지 않게 합니다.
  • 긴 작업 성공: 10 단계, 20 단계에 달하는 복잡한 일 (예: 식탁 치우기, 요리하기) 에서 기존 로봇들보다 훨씬 높은 성공률을 보였습니다.

📝 한 줄 요약

**"로봇에게 '논리적 지도 (사령관)'와 '시각적 나침반 (부하)'를 동시에 주어, 복잡한 일을 할 때 길을 잃지 않고 실수 없이 끝까지 완수하게 만든 혁신적인 시스템"**입니다.

이 기술은 앞으로 로봇이 우리 집에서 설거지를 하거나, 공장에서 복잡한 조립 작업을 할 때 훨씬 더 똑똑하고 믿을 수 있게 만들어 줄 것입니다.