UniHM: Unified Dexterous Hand Manipulation with Vision Language Model

이 논문은 다양한 손 형태를 통합 토크나이저로 매핑하고 물리 법칙 기반의 동적 정제 모듈을 통해 자연어 명령만으로 물리적으로 타당한 다재도 손 조작을 가능하게 하는 최초의 프레임워크인 'UniHM'을 제안합니다.

Zhenhao Zhang, Jiaxin Liu, Ye Shi, Jingya Wang

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"UniHM(유니엠)"**이라는 새로운 로봇 기술에 대해 설명합니다. 쉽게 말해, **"사람처럼 손이 유연한 로봇에게 '그냥 말로' 복잡한 일을 시키는 방법"**을 개발한 연구입니다.

기존의 로봇들은 물건을 잡거나 움직일 때 매우 딱딱한 명령만 들을 수 있었거나, 미리 정해진 동작만 반복했습니다. 하지만 UniHM 은 **"병 뚜껑을 따서 냉장고에 넣어줘"**처럼 자연스러운 말로 지시하면, 로봇이 사람처럼 손가락을 구부리고 물건을 감싸는 등 유연하게 움직이게 합니다.

이 기술의 핵심을 일상적인 비유로 설명해 드릴게요.


1. 문제점: 로봇은 '말'을 못 알아듣고, '손'이 제각각이야

지금까지 로봇 연구자들은 두 가지 큰 장벽에 부딪혔습니다.

  • 말을 못 알아듣음: "컵을 들어"라고 하면 컵을 들어주지만, "컵을 들어 그릇에 담아"처럼 복잡한 순서나 새로운 물건에 대한 지시는 못 알아듣습니다.
  • 손이 제각각임: 로봇 손의 모양 (손가락 개수, 길이 등) 이 제각각이라서, A 로봇에게 가르친 동작을 B 로봇에게 바로 적용할 수 없었습니다. 마치 서양인 손에 맞는 장갑을 한국인 손에 끼우려다 손가락이 찢어지는 상황과 비슷합니다.

2. 해결책 1: "모든 손에 맞는 만능 장갑" (Unified Hand-Dexterous Tokenizer)

연구진은 모든 종류의 로봇 손 (Shadow Hand, Allegro Hand 등) 을 하나의 **'공통된 언어 (코드)'**로 번역하는 시스템을 만들었습니다.

  • 비유: imagine 모든 나라의 악기 (피아노, 바이올린, 기타) 를 하나의 '악보 (코드)'로 통일한 상황을 상상해 보세요.
    • UniHM 은 복잡한 로봇 손의 움직임을 이 공통된 '악보'로 먼저 변환합니다.
    • 로봇이 어떤 모양이든 상관없이, 이 공통된 악보를 보고 자신의 손에 맞는 연주로 변환합니다.
    • 덕분에 한 번 배운 동작을 다른 모양의 로봇 손에게도 바로 가르칠 수 있게 되었습니다.

3. 해결책 2: "유튜브로 배우는 로봇" (Vision Language Model)

기존에는 로봇에게 직접 손을 잡고 가르치는 (텔레오퍼레이션) 방식이 필요해서 비용이 너무 비쌌습니다. UniHM 은 사람이 물건을 다루는 유튜브 영상을 보고 배웁니다.

  • 비유: 로봇이 요리 유튜브를 보며 "감자를 깎고, 양파를 썰고, 냄비에 넣는" 과정을 눈으로 보고 배운 것입니다.
    • 로봇은 직접 사람이 시키는 대로 움직이는 훈련을 받지 않아도, 사람과 사물이 상호작용하는 수많은 영상을 통해 "어떻게 해야 물건을 잘 잡을지"를 스스로 터득합니다.
    • 여기에 **시각 언어 모델 (VLM)**을 결합해, "그릇을 열어"라는 말과 영상 속 상황을 연결지어 이해합니다.

4. 해결책 3: "물리 법칙을 지키는 교정 선생님" (Physics-Guided Dynamic Refinement)

로봇이 영상만 보고 따라 하면, 가끔 물리 법칙을 무시한 엉뚱한 동작을 할 수 있습니다. (예: 손가락이 물건을 뚫고 지나가거나, 너무 급하게 움직여 넘어지는 경우)

  • 비유: 로봇이 만든 동작을 물리 법칙을 잘 아는 '교정 선생님'이 한 번 더 점검합니다.
    • "이 손가락은 물건을 뚫고 지나가면 안 돼", "너무 급하게 움직이면 넘어져"라고 지적하며 동작을 부드럽고 자연스럽게 다듬어 줍니다.
    • 이 과정을 통해 로봇은 실제 세상에서 넘어지지 않고, 물건을 부수지 않고 안전하게 움직일 수 있게 됩니다.

5. 결과: 실제로 잘 작동할까?

이 기술을 실제 실험실에서 테스트해 보니 놀라운 결과가 나왔습니다.

  • 보지 못한 물건도 가능: 훈련할 때 보지 못했던 새로운 물건 (예: 낯선 모양의 병) 을 줘도, 지시만 하면 잘 다룹니다.
  • 성공률 향상: 기존 방법들보다 훨씬 높은 확률로 물건을 잡거나 뚜껑을 여는 등 복잡한 작업을 성공했습니다.
  • 자연스러운 동작: 로봇이 움직이는 모습이 기계적이지 않고, 사람처럼 부드럽고 자연스럽습니다.

요약

UniHM"모든 모양의 로봇 손에 맞는 공통 언어를 만들고, 사람의 영상을 보고 배우며, 물리 법칙으로 최종 점검을 거치는" 시스템을 개발했습니다. 덕분에 로봇은 이제 복잡한 지시도 알아듣고, 새로운 물건도 잘 다루며, 사람처럼 유연하게 손놀림을 할 수 있게 되었습니다.

이 기술은 앞으로 가정용 로봇이 집안일을 돕거나, 공장에서 복잡한 조립 작업을 대신하는 시대를 앞당길 것으로 기대됩니다.