RL-Augmented MPC for Non-Gaited Legged and Hybrid Locomotion

이 논문은 강화학습 (RL) 이 고수준의 보행 및 항법 명령을, 모델 예측 제어 (MPC) 가 저수준의 구동 제어를 담당하는 계층적 아키텍처를 제안하여, 도메인 랜덤화 없이 시뮬레이션과 실제 120kg 휴머노이드 로봇 (Centauro) 에서 비주기적 보행 및 다양한 지형에서의 제로샷 이동을 성공적으로 구현했음을 보여줍니다.

Andrea Patrizi, Carlo Rizzardo, Arturo Laurenzi, Francesco Ruscelli, Luca Rossini, Nikos G. Tsagarakis

게시일 2026-03-12
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"로봇이 어떻게 스스로 걷는 법을 배우고, 복잡한 지형에서도 넘어지지 않고 달릴 수 있게 되는가?"**에 대한 놀라운 해답을 제시합니다.

기존의 로봇 걷기 기술은 마치 엄격한 악보를 따라 연주하는 피아니스트 같았습니다. "왼발 1 초, 오른발 2 초"처럼 미리 정해진 리듬 (보행) 을 따르는데, 만약 갑자기 방향을 바꾸거나 계단을 만나면 이 '악보'가 무너져 로봇이 넘어지기 일쑤였습니다.

이 연구는 그 문제를 해결하기 위해 두 명의 천재 파트너를 팀으로 꾸렸습니다. 바로 **"직관적인 두뇌 (강화학습, RL)"**와 **"정교한 계산기 (모델 예측 제어, MPC)"**입니다.

🤖 두 명의 파트너, 어떻게 일할까요?

이 시스템은 마치 자율주행 자동차의 내비게이션과 엔진이 협력하는 것과 같습니다.

  1. 상위 두뇌 (RL - 강화학습): "대략적인 방향과 리듬을 정하는 지휘자"

    • 이 두뇌는 미리 정해진 악보가 없습니다. 대신 **시행착오 (Trial and Error)**를 통해 스스로 배우는 '유아기' 같은 존재입니다.
    • "지금 빨리 달려야 해!", "왼발을 들어야겠어!", "점프할 시간인가?" 같은 큰 그림의 명령만 내립니다.
    • 중요한 점은 이 두뇌가 매우 단순한 보상만 받으면 된다는 것입니다. "잘 걸어라", "에너지 아껴라" 정도면 충분합니다. 복잡한 수학적 계산은 하지 않고, 로봇이 넘어지지 않고 목적지로 가는 '감'을 익힙니다.
  2. 하위 계산기 (MPC - 모델 예측 제어): "정밀하게 발을 움직이는 실력자"

    • 이 계산기는 지휘자의 명령을 받으면, 수천 번의 시뮬레이션을 0.01 초 만에 돌려서 "정확히 몇 도 각도로, 몇 뉴턴의 힘으로 발을 내려놓아야 넘어지지 않을까?"를 계산합니다.
    • 로봇의 무게, 마찰력, 지면의 상태 등 모든 물리 법칙을 고려해 실시간으로 최적의 동작을 만들어냅니다.
    • 지휘자가 "점프해!"라고 하면, 계산기는 "좋아, 0.3 초 뒤 땅을 차고 0.5 초 뒤 착지하도록 발을 움직일게"라고 정밀하게 실행합니다.

🌟 이 방식의 마법 같은 점들

이 연구의 가장 큰 성과는 **"예측 불가능한 리듬 (비주기적 보행)"**을 만들어냈다는 것입니다.

  • 기존 방식: "1-2-1-2"처럼 딱딱 끊어지는 리듬을 고수합니다.
  • 이 연구의 방식: 로봇은 상황에 따라 달리다가 갑자기 뛰고, 다시 걷고, 한 발로 멈추고를 자유롭게 섞습니다. 마치 인간이 계단을 오를 때 발을 어떻게 옮겨야 가장 편한지 순간순간 결정하는 것처럼요.
    • 비유: 마치 재즈 연주자처럼, 기본 리듬은 있지만 즉흥적으로 리듬을 바꾸며 상황에 맞춰 연주합니다.

🚀 놀라운 결과: "한 번 배운 걸 그대로 적용하다"

이 시스템은 **시뮬레이션 (가상 세계)**에서 배운 것을 실제 로봇에 그대로 적용했습니다. 보통 로봇 공학에서는 가상과 현실의 차이 (빛, 마찰력, 센서 오차 등) 를 맞추기 위해 엄청난 노력이 필요하지만, 이 연구는 아무런 추가 조정 (Zero-shot) 없이 바로 성공했습니다.

  • 다양한 로봇: 50kg 짜리 작은 개형 로봇부터 120kg 짜리 거대한 인간형 로봇 (Centauro) 까지, 몸무게와 생김새가 달라도 같은 두뇌로 작동했습니다.
  • 복합 이동: 바퀴로 달릴 때는 바퀴를 쓰고, 계단이나 장애물을 만나면 다리를 써서 걷는 '하이브리드' 모드를 스스로 선택했습니다.
  • 비탈길과 계단: 평지뿐만 아니라, 계단처럼 생겼거나 울퉁불퉁한 지형에서도 로봇이 스스로 발을 어디에 놓을지 결정하며 올라갔습니다.

💡 요약하자면

이 논문은 로봇에게 **"완벽한 지도 (악보)"**를 주는 대신, **"방향 감각 (지휘자)"**과 **"신체 조절 능력 (계산기)"**을 함께 가르쳤습니다.

그 결과 로봇은 더 이상 기계처럼 딱딱하게 걷는 것이 아니라, 생물처럼 유연하고 똑똑하게 환경을 적응하며 이동할 수 있게 되었습니다. 이는 앞으로 재난 현장, 우주 탐사, 혹은 우리 집 안에서도 로봇이 넘어지지 않고 자유롭게 돌아다니는 시대를 앞당기는 중요한 한 걸음입니다.