Cybo-Waiter: A Physical Agentic Framework for Humanoid Whole-Body Locomotion-Manipulation

이 논문은 인간형 로봇이 자연어 명령을 수행할 때Locomotion과 Manipulation의 긴밀한 연계를 해결하기 위해, VLM 기반의 계획과 3D 기하학적 감시를 결합하여 서브태스크의 검증 및 재계획을 가능하게 하는 'Cybo-Waiter' 프레임워크를 제안합니다.

Peng Ren, Haoyang Ge, Chuan Qi, Cong Huang, Hong Li, Jiang Zhao, Pei Chi, Kai Chen

게시일 2026-03-12
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제: 로봇이 왜 자꾸 실수할까?

기존의 로봇들은 "책상 정리해 줘"라고 말하면, 대충 책상 위에 있는 물건을 집어서 어디론가 던지는 식으로 행동했습니다. 마치 눈을 감고 요리하는 요리사처럼요.

  • 문제점: 로봇이 물건을 집으려다 넘어지거나, 물건을 놓아야 할 곳을 잘못 파악하거나, "이건 이미 정리된 거야"라고 착각하는 경우가 많았습니다. 특히 인간처럼 두 다리로 서서 움직이는 로봇은 균형을 잃기 쉽고, 한 번 넘어지면 다시 일어서기까지 시간이 오래 걸립니다.

2. 해결책: Cybo-Waiter 의 세 가지 핵심 역할

이 시스템은 세 가지 역할을 명확히 나누어 협업합니다.

① 지시자 (VLM Planner): "요리 레시피"를 만드는 사람

  • 역할: 로봇에게 "책상 정리해 줘"라는 명령을 받으면, 이를 구체적인 요리 레시피로 바꿉니다.
  • 작동 방식: 단순히 "정리해"라고 하는 게 아니라, "1. 컵을 찾아라, 2. 컵이 테이블 위에 있는지 확인해라, 3. 컵을 집어 트레이에 올려라"처럼 단계별로 나누고, 각 단계마다 '조건'을 정해줍니다.
    • 예시: "컵을 집기 전에, 컵이 내 손에 닿을 수 있는 거리에 있어야 해 (조건)."

② 감시자 (Supervisor): "꼼꼼한 주방장"

  • 역할: 요리사가 레시피대로 일을 하고 있는지, 실제 상황을 계속 점검하는 사람입니다.
  • 작동 방식: 로봇이 컵을 집으려 할 때, 카메라 (RGB-D) 와 AI(SAM3) 를 이용해 컵의 위치, 크기, 모양을 3 차원 공간에서 정확히 파악합니다.
    • 중요한 특징: 로봇이 "커피가 다 마셨네"라고 생각할 때, 감시자는 "잠깐, 컵이 흔들리고 있네? 아직 안정적이지 않아. 다시 확인해 봐"라고 말합니다.
    • 시간의 안정성: 한 번의 깜빡임 (노이즈) 으로 판단하지 않고, 몇 초 동안이나 그 상태가 유지되는지 확인합니다. 마치 요리사가 "이 소스가 정말 끓고 있는 건가? 3 초 동안 거품이 일고 있나?"를 확인하는 것과 같습니다.

③ 실행자 (Execution Layer): "몸을 움직이는 요리사"

  • 역할: 레시피와 감시자의 지시를 받아 실제로 다리를 움직이고 (이동), 팔을 움직여 (조작) 일을 수행합니다.
  • 작동 방식: 로봇이 넘어지지 않도록 균형을 잡는 기술과 물건을 잡는 기술을 동시에 사용합니다. 감시자가 "위험해!"라고 신호를 보내면, 로봇은 즉시 멈추거나 자세를 고칩니다.

3. 이 시스템이 특별한 이유: "실수하면 다시 시작하지 않고, 바로 고친다"

기존 로봇들은 실수가 생기면 "아, 실패했네. 처음부터 다시 해보자"라고 하며 전체 작업을 취소하고 다시 시작했습니다. 이는 마치 요리하다가 계란을 떨어뜨리면, 모든 요리를 버리고 다시 시작하는 것과 같습니다.

하지만 Cybo-Waiter는 다릅니다.

  1. 정밀한 진단: "아, 컵이 너무 멀리 있구나" 또는 "균형을 잃고 있구나"라고 구체적인 이유를 파악합니다.
  2. 맞춤형 복구: 전체를 다시 시작하는 게 아니라, "조금 더 앞으로 걸어보자"거나 "손을 살짝 움직여보자"처럼 부분만 수정합니다.
  3. 결과: 복잡한 일 (책상 정리, 음료 가져오기 등) 을 할 때, 실수가 발생해도 작업을 멈추지 않고 원활하게 계속 진행할 수 있습니다.

4. 실제 실험 결과

연구진은 실제 사무실 환경에서 이 로봇을 테스트했습니다.

  • 테스트 내용: "책상 정리해 줘", "나 음료 가져와 줘" 같은 복잡한 명령을 수행하게 했습니다.
  • 결과: 감시자 시스템이 없는 로봇은 10 번 중 56 번만 성공했지만, **Cybo-Waiter(감시자 포함) 는 10 번 중 79 번을 성공**했습니다. 특히 물건을 여러 번 집고 옮기는 긴 작업일수록 그 차이가 더 컸습니다.

5. 한 줄 요약

"Cybo-Waiter 는 로봇에게 '눈을 감고 일하는 것'을 멈추게 하고, '꼼꼼한 주방장'이 옆에서 상황을 계속 확인하며, 실수가 나면 전체를 다시 시작하지 않고 '부분만 고쳐서' 일을 완성하게 해주는 시스템입니다."

이 기술 덕분에 앞으로 우리 집이나 사무실에서 로봇이 더 안전하고 똑똑하게, 인간처럼 자연스러운 일을 도와줄 수 있을 것으로 기대됩니다.