Embedding Morphology into Transformers for Cross-Robot Policy Learning

이 논문은 킨매틱 토큰, 토폴로지 인식 어텐션 편향, 관절 속성 조건화라는 세 가지 메커니즘을 통해 형태학을 트랜스포머에 주입하여 다양한 로봇 형태에 걸쳐 견고한 정책 학습을 가능하게 하는 새로운 접근법을 제안합니다.

Kei Suzuki, Jing Liu, Ye Wang, Chiori Hori, Matthew Brand, Diego Romeres, Toshiaki Koike-Akino

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"로봇이 서로 다른 몸매를 가졌을 때도 똑똑하게 일할 수 있게 하는 새로운 방법"**에 대해 설명합니다.

기존의 로봇 학습 방식은 마치 **"모든 로봇에게 똑같은 두뇌만 심어주고, 몸이 어떻게 생겼는지 직접 눈으로 보고 추측하게 하는 것"**과 비슷했습니다. 하지만 로봇의 몸 (팔 길이, 관절 개수, 손가락 모양 등) 이 다르면 이 방식은 잘 작동하지 않았습니다.

이 연구는 **"로봇의 몸 구조 (형태) 를 두뇌에 미리 알려주는 3 가지 비법"**을 제안합니다. 이를 쉽게 비유해서 설명해 드릴게요.


🤖 핵심 아이디어: "로봇의 몸매를 두뇌에 심어주자!"

기존의 거대 인공지능 (Transformer) 모델은 로봇이 어떤 모양인지 모른 채, 오직 카메라로 본 영상과 언어 지시만 보고 "어떻게 팔을 움직일까?"를 추측해야 했습니다. 이는 마치 눈이 가린 상태에서 낯선 사람의 손가락 개수를 맞추는 것처럼 어렵고 비효율적입니다.

저자들은 이 문제를 해결하기 위해 로봇의 **관절 구조 (형태)**를 두 가지 방식으로 두뇌에 주입했습니다.

1. "관절별 메모장" (Kinematic Tokens)

  • 비유: 기존 방식은 로봇의 모든 팔 동작을 "한 번에 뭉쳐서" 기억했습니다. 마치 "오전 10 시부터 11 시까지 한 시간 동안 한 일"을 통째로 기억하는 거죠.
  • 새로운 방식: 각 관절 (어깨, 팔꿈치, 손목 등) 마다 작은 메모장을 하나씩 만들어줍니다. 그리고 시간도 잘게 쪼개서, "어깨는 1 초 동안 이렇게 움직였고, 손목은 그다음 1 초 동안 저렇게 움직였다"는 식으로 관절별로 정리된 정보를 제공합니다.
  • 효과: 로봇이 자신의 몸 각 부위가 어떻게 움직이는지 훨씬 명확하게 이해하게 됩니다.

2. "연결된 친구들만 대화하게 하기" (Topology-aware Attention)

  • 비유: 기존 두뇌는 모든 관절이 서로 아무 때나 대화할 수 있었습니다. (예: "손가락"이 "어깨"에게 직접 말을 거는 것). 하지만 실제 로봇은 관절끼리 물리적으로 연결된 순서대로만 정보가 전달됩니다.
  • 새로운 방식: 두뇌의 대화 규칙을 바꿉니다. **"물리적으로 연결된 관절끼리만 먼저 대화하고, 필요한 경우에만 멀리 있는 관절과 대화하라"**는 규칙을 세웁니다.
    • 하드 마스크 (Hard Mask): 연결된 친구 (1 단계 이웃) 와만 대화하게 강제로 제한합니다.
    • 믹스 마스크 (Mix Mask): 가끔은 연결된 친구끼리만 대화하다가, 가끔은 전체가 모여서 대화하는 시간을 가집니다. (이 방식이 가장 효과적이었습니다.)
  • 효과: 로봇이 자신의 몸 구조를 자연스럽게 이해하게 되어, 엉뚱한 동작을 하거나 넘어지는 일이 줄어듭니다.

3. "관절의 성격을 알려주는 명찰" (Joint-attribute Conditioning)

  • 비유: 단순히 "이 관절은 저 관절과 연결되어 있다"는 정보만으로는 부족합니다. "이 관절은 회전하는 거야", "이 관절은 직선으로 움직이는 거야", "이 관절은 무거운 물건을 들 수 있어"라는 성격 정보도 필요합니다.
  • 새로운 방식: 각 관절에 **성격 명찰 (데이터)**을 붙여줍니다. (예: 회전 관절인지, 직선 관절인지, 움직일 수 있는 범위 등). 두뇌가 이 명찰을 보고 "아, 이 관절은 회전하는 거구나, 회전하는 방식으로 명령을 내려야겠다"라고 판단하게 합니다.
  • 효과: 몸의 구조뿐만 아니라 각 부위의 기능적 역할까지 정확히 파악하게 됩니다.

🏆 실험 결과: 얼마나 잘했을까?

연구진은 이 방법을 다양한 로봇 (프랑카 판다 팔, 유니트리의 G1 로봇 등) 에 적용해 보았습니다.

  • 한 로봇만 다룰 때: 기존 방식보다 성공률이 크게 향상되었습니다. 특히 복잡한 작업 (컵에 컵을 넣기, 바나나를 통에 넣기 등) 에서 효과가 두드러졌습니다.
  • 여러 로봇을 섞어서 다룰 때: 서로 다른 몸매를 가진 로봇 두 대를 동시에 가르쳤을 때도, 기존 방식은 혼란을 겪었지만 이 새로운 방법은 두 로봇 모두를 잘 가르칠 수 있었습니다.

💡 결론

이 논문은 **"로봇에게 몸의 구조를 가르쳐주면, 로봇은 훨씬 더 똑똑하고 튼튼해진다"**는 것을 증명했습니다.

마치 사람이 자신의 몸 (팔, 다리, 손가락) 을 어떻게 움직여야 하는지 본능적으로 알고 있듯이, 로봇도 자신의 몸 구조를 알고 있으면 새로운 환경이나 다른 몸매의 로봇으로 넘어갈 때도 훨씬 쉽게 적응할 수 있다는 것입니다. 이는 앞으로 다양한 로봇이 한두 가지 작업만 하는 게 아니라, 어떤 로봇이든 다양한 일을 척척 해내는 '범용 로봇'을 만드는 데 큰 디딤돌이 될 것입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →