RACAS: Controlling Diverse Robots With a Single Agentic System

이 논문은 자연어 기반의 협력적 에이전트 아키텍처인 RACAS 를 제안하여, 소스 코드나 모델 재학습 없이 다양한 로봇 플랫폼 간에 고수준 자율 행동을 가능하게 함으로써 로봇 프로토타이핑의 장벽을 획기적으로 낮췄음을 보여줍니다.

Dylan R. Ashley, Jan Przepióra, Yimeng Chen, Ali Abualsaud, Nurzhan Yesmagambet, Shinkyu Park, Eric Feron, Jürgen Schmidhuber

게시일 Mon, 09 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 기존 문제: "로봇마다 다른 언어를 쓰는 사투리"

지금까지 로봇을 다룰 때는 매우 번거로웠습니다.

  • 바퀴 달린 로봇을 조종하려면 바퀴 공학 전문가가 필요했고,
  • 물속 로봇을 조종하려면 해양 공학 전문가가 필요했습니다.
  • 팔이 달린 로봇은 또 다른 전문가가 필요했죠.

마치 각기 다른 사투리를 쓰는 마을에 사는 사람들처럼, 로봇마다 제어하는 방식 (API) 이 다르고, 새로운 로봇을 도입할 때마다 처음부터 다시 코딩하고 학습시켜야 했습니다. "이 로봇은 앞으로 가려면 A 버튼을 누르고, 저 로봇은 B 명령어를 써야 해"라고 매번 새로 배우는 셈입니다.

2. RACAS 의 등장: "만능 통역사 팀"

이 논문은 **"로봇의 종류를 신경 쓰지 말고, 그냥 말로 지시하면 알아서 해주는 시스템"**을 만들었습니다. 이를 RACAS라고 부릅니다.

이 시스템은 3 명의 AI 팀원이 자연어로 대화하며 로봇을 조종합니다. 마치 한 팀의 스태프가 지휘하는 것과 같습니다.

  1. 코치 (Controller):
    • 역할: 전체 상황을 파악하고 "지금 뭐 해야 해?"라고 결정하는 지휘관입니다.
    • 비유: 미팅을 주재하는 팀장님. "우리는 저기 있는 소화기를 찾아야 해. 지금 어디쯤일까?"라고 생각하며 다음 행동을 정합니다.
  2. 감시관 (Monitors):
    • 역할: 로봇의 카메라 (눈) 를 통해 주변을 보고 코치에게 설명하는 사람들입니다.
    • 비유: 현장에 나가서 상황을 보고 팀장에게 "팀장님, 오른쪽에 빨간 소화기가 보이네요"라고 보고하는 현장 스태프.
  3. 기록관 (Memory Curator):
    • 역할: 지금까지의 대화와 경험을 정리해서 기억해 두는 사람입니다.
    • 비유: 회의록을 작성하고 "어제 여기 왔을 때 장애물이 있었어, 오늘 다시 가면 피해야 해"라고 과거의 경험을 정리해 주는 비서.

3. 어떻게 작동할까? "자연어라는 공통 언어"

이 시스템의 가장 놀라운 점은 로봇의 하드웨어 (몸체) 를 전혀 수정하지 않는다는 것입니다.

  • 기존 방식: 로봇을 바꾸면 코드를 다시 짜고, 모델을 다시 학습시켜야 함. (새로운 로봇을 위해 새로운 언어를 배워야 함)
  • RACAS 방식: 로봇에 대해 **"나는 4 개의 바퀴가 있고, 앞으로 갈 수 있고, 카메라가 하나 있어"**라고 사람 말 (자연어) 로 설명해주고, **"불을 끄는 소화기를 찾아라"**라고 목표를 말해주기만 하면 됩니다.

그럼 AI 팀원들이 서로 대화하며:

"코치: 소화기가 어디 있지?"
"감시관: 왼쪽 카메라에 안 보이는데, 오른쪽으로 좀 더 가볼까?"
"코치: 좋아, 오른쪽으로 가자."
"기록관: 알았어, 오른쪽으로 갔더니 더 가까워졌네. 기억해 둬야지."

이렇게 자연어로만 소통하며 로봇을 움직입니다. 로봇이 물고기처럼 물속을 헤엄쳐도, 바퀴로 굴러가도, 팔을 움직여도 상관없습니다. AI 가 로봇의 '몸'을 이해할 필요 없이, 로봇이 제공하는 '기능 (앞으로 가기, 회전하기 등)'을 언어로만 설명받으면 되니까요.

4. 실험 결과: "완전히 다른 세 가지 로봇을 한 번에 성공"

연구진은 이 시스템을 세 가지 완전히 다른 로봇에 적용해 보았습니다.

  1. 바퀴 달린 지상 로봇 (Dingo): 공장이나 사무실 바닥을 굴러가는 로봇.
  2. 물속 로봇 (BlueROV2): 바다나 수영장 아래를 헤엄치는 로봇.
  3. 새로운 로봇 팔 (Alhakami Limb): 아예 AI 가 한 번도 본 적 없는 최신형 로봇 팔.

결과:

  • 학습이나 재코딩 없이 세 로봇 모두 성공적으로 임무를 수행했습니다.
  • 소화기를 찾거나, 목표 지점에 도달하는 등의 과제를 해결했습니다.
  • 특히, AI 가 전혀 모르는 새로운 로봇 팔을 처음 봤는데도, 설명만 듣고 바로 작동시켰습니다.

5. 왜 이것이 중요한가?

이 기술은 로봇을 개발하는 문턱을 엄청나게 낮춥니다.

  • 과거: 로봇을 한 대 더 사려면, 그 로봇에 맞는 전문가를 고용하고 수개월을 코딩해야 함.
  • 미래 (RACAS): "이 로봇은 이런 기능이 있어. 목표는 저거야."라고 말만 하면, AI 가 알아서 로봇을 조종함.

마치 스마트폰 앱처럼, 로봇이라는 '하드웨어'는 다양해도 그 위에 깔리는 '앱 (RACAS)'은 하나면 모든 로봇을 다 조종할 수 있게 되는 것입니다.

요약

RACAS는 로봇 공학의 장벽을 허무는 만능 통역사입니다.
어떤 로봇이든, 그 로봇의 몸이 어떻게 생겼는지, 어떤 센서를 달았는지 기술적인 지식이 없어도 단순히 "이렇게 해줘"라고 말하기만 하면, AI 가 로봇과 대화하며 스스로 길을 찾고 목표를 달성하게 해줍니다. 이는 로봇을 더 쉽고 빠르게 우리 삶에 도입할 수 있는 큰 전환점이 될 것입니다.