InterReal: A Unified Physics-Based Imitation Framework for Learning Human-Object Interaction Skills

이 논문은 물리 기반의 통합 모방 학습 프레임워크인 InterReal 을 제안하여, 인간 - 물체 상호작용 데이터 증강 및 자동 보상 학습을 통해 실외 환경에서 인간형 로봇의 정교한 상호작용 기술 학습과 배포를 가능하게 합니다.

Dayang Liang, Yuhang Lin, Xinzhe Liu, Jiyuan Shi, Yunlong Liu, Chenjia Bai

게시일 Tue, 10 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 핵심 비법 1: "만들기 쉬운 연습장" (운동 데이터 증강)

비유: 요리사에게 다양한 재료를 주는 것

기존의 로봇 학습은 마치 요리사가 오직 '한 가지 모양의 감자'만 가지고 요리 연습을 하는 것과 비슷했습니다. 감자가 항상 같은 위치에 있다면 요리사는 그 상황에만 익숙해집니다. 하지만 실제 부엌에서는 감자가 어디에 있을지 모릅니다.

InterReal 은 이 문제를 해결하기 위해 '운동 데이터 증강 (Motion Augmentation)' 기술을 썼습니다.

  • 어떻게 작동하나요? 로봇이 물건을 잡는 동작을 기록할 때, 물건의 위치를 살짝씩 바꿔가며 (왼쪽, 오른쪽, 앞, 뒤) 수백 가지의 '가상 시나리오'를 만들어냅니다.
  • 효과: 로봇은 마치 다양한 재료가 섞여 있는 연습장에서 훈련을 하듯, 물건의 위치가 달라져도 어떻게 손을 움직여야 할지 스스로 추론하게 됩니다. 마치 요리사가 감자 모양이 달라도 어떻게 요리할지 아는 것처럼, 로봇도 물건의 위치가 조금씩 달라져도 안정적으로 잡을 수 있게 됩니다.

2. 핵심 비법 2: "스마트한 코치" (자동 보상 학습기)

비유: 상황에 맞춰 점수판을 바꾸는 코치

로봇을 훈련시킬 때 가장 어려운 점은 **'무엇을 잘했는지 점수 (보상) 를 매기는 기준'**을 정하는 것입니다.

  • 예를 들어, 물건을 들 때 '균형을 잡는 것'이 중요할 수도 있고, '물건을 정확히 잡는 것'이 중요할 수도 있습니다.
  • 기존 방식은 연구자가 "이때는 균형 점수를 50 점, 잡기 점수를 50 점으로 해라"라고 고정된 규칙을 정해줬습니다. 하지만 로봇이 배우는 단계에 따라 중요한 것이 달라지는데, 고정된 규칙은 로봇을 혼란스럽게 만들었습니다.

InterReal 은 **'자동 보상 학습기 (Automatic Reward Learner)'**라는 스마트한 코치를 도입했습니다.

  • 어떻게 작동하나요? 이 코치는 로봇의 학습 상황을 실시간으로 지켜봅니다. 로봇이 넘어질 위기에 처하면 "지금엔 균형 점수를 더 올려줘!"라고 점수판의 비중을 자동으로 조절합니다. 물건을 잡는 순간이 오면 "이제 잡기 점수를 높여줘!"라고 바꿉니다.
  • 효과: 로봇은 상황에 맞춰 가장 중요한 목표를 스스로 찾아내는 능력을 갖게 되어, 훨씬 더 빠르고 정확하게 숙달됩니다.

3. 실전 성과: 가상에서 현실까지

이 시스템은 시뮬레이션 (가상 공간) 에서만 테스트한 것이 아니라, Unitree G1 이라는 실제 휴머노이드 로봇에 적용하여 검증했습니다.

  • 테스트 내용: 무거운 상자를 들어 옮기는 일 (Box-picking) 과 바닥에 있는 상자를 밀어내는 일 (Box-pushing).
  • 결과:
    • 정확도: 로봇이 물건을 잡는 손의 위치나 물건의 움직임이 인간이 시연한 동작과 거의 일치했습니다.
    • 성공률: 100 번 시도 중 96 번 이상 성공할 정도로 매우 안정적이었습니다. (기존 기술들은 70~80% 수준이었습니다.)
    • 실시간 대응: 로봇이 상자를 들고 걸을 때, 상자가 살짝 비틀어지거나 예상치 못한 위치에 있어도, 로봇은 즉시 자세를 수정하며 넘어지지 않고 임무를 완수했습니다.

요약

InterReal 은 로봇에게 **"다양한 상황을 미리 경험하게 하는 훈련법"**과 **"상황에 맞춰 점수 기준을 자동으로 바꾸는 똑똑한 코치"**를 제공했습니다. 덕분에 로봇은 이제 단순히 걷는 것을 넘어, 공장이나 가정에서 물건을 다루는 복잡한 일을 인간처럼 유연하고 정확하게 수행할 수 있는 토대를 마련하게 되었습니다.

이 기술은 앞으로 로봇이 우리 일상생활이나 산업 현장에서 더 자연스럽게 일할 수 있는 길을 열어줄 것으로 기대됩니다.