RADAR: Closed-Loop Robotic Data Generation via Semantic Planning and Autonomous Causal Environment Reset

이 논문은 인간의 개입 없이 비전 - 언어 모델, 그래프 신경망 정책, 자동 성공 평가 및 비동기적 환경 재설정 메커니즘을 통합하여 로봇 학습을 위한 대규모 물리적 상호작용 데이터를 자율적으로 생성하는 폐루프 시스템 'RADAR'를 제안합니다.

Yongzhong Wang, Keyu Zhu, Yong Zhong, Liqiong Wang, Jinyu Yang, Feng Zheng

게시일 2026-03-13
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🤖 RADAR: 로봇이 스스로 배우는 '자율 데이터 공장'

이 논문은 로봇이 인간 없이도 스스로 데이터를 모으고 학습할 수 있는 새로운 시스템, RADAR을 소개합니다. 기존에는 로봇을 가르치기 위해 인간이 직접 로봇을 조종하거나 시뮬레이션에서 가상 데이터를 만들어야 했는데, 이 방식은 비용이 너무 비싸거나 현실과 동떨어진 문제가 있었습니다.

RADAR 는 이 모든 문제를 해결하기 위해 **'로봇의 뇌와 소뇌가 완벽하게 협력하는 공장'**을 만들었습니다.


🏭 1. 핵심 개념: "로봇 공장"의 두 가지 역할

RADAR 시스템은 크게 두 부분으로 나뉩니다. 마치 인간이 **의사 (뇌)**와 **운동 신경 (소뇌)**을 가지고 있는 것처럼요.

  • 🧠 '의사' (시각 - 언어 모델, VLM):

    • 역할: "지금 뭐가 필요하지?", "어떻게 해야 성공할까?", "실패했나?"를 판단합니다.
    • 비유: 마치 요리사의 메뉴판과 레시피를 만드는 역할입니다. "레몬을 박스에 넣으세요"라는 명령을 듣고, "아, 레몬은 타원형이니까 공을 잡는 동작을 참고해야겠네"라고 생각하며 계획을 세웁니다.
    • 특징: 2D 이미지로 추측하는 게 아니라, 3D 공간감을 이해하고 인간이 몇 번만 보여준 동작 (2~5 회) 을 바탕으로 계획을 짭니다.
  • 🦾 '운동 신경' (그래프 신경망, GNN):

    • 역할: '의사'가 세운 계획을 실제 손 (로봇 팔) 으로 움직입니다.
    • 비유: 요리사의 손과 팔입니다. 레시피를 보고 실제로 칼질을 하거나 재료를 섞는 정교한 동작을 수행합니다.
    • 특징: 인간의 동작을 그대로 따라 하며, 밀리미터 단위의 정밀한 움직임을 만들어냅니다.

🔄 2. 작동 원리: "되돌리기 (Reset)"가 핵심입니다

가장 혁신적인 점은 로봇이 일을 마친 후, 스스로 환경을 원래대로 되돌린다는 것입니다.

  • 기존의 문제: 로봇이 장난감을 치우면, 다음 실험을 위해 사람이 다시 장난감을 원래 위치로 돌려놓아야 했습니다. (인간이 계속 개입해야 함)
  • RADAR 의 해결책:
    1. 앞으로 가기 (Forward): 로봇이 "상자를 닫고, 블록을 쌓는다"는 작업을 합니다.
    2. 뒤로 가기 (Reverse): 로봇은 "마지막에 한 일을 가장 먼저 되돌리는 (LIFO)" 원리로 스스로 환경을 초기화합니다.
      • 예: "블록을 쌓았다" → "블록을 다시 내려놓는다" → "상자를 다시 연다".
    • 비유: 마치 비디오 테이프를 되감는 것처럼, 로봇이 스스로 일을 되돌려서 다음 실험을 위한 깨끗한 환경을 만듭니다.

🛠️ 3. 시스템의 4 단계 프로세스

이 공장은 4 단계로 돌아가며 끊임없이 데이터를 생산합니다.

  1. 작업 계획 세우기 (Task Planning):
    • 로봇이 주변을 보고 "오늘은 수건을 접어보자"라고 결정합니다. 이때 방해되는 물건 (딸기, 주사위 등) 은 무시하고 목표물 (수건) 만 집중합니다.
  2. 실제 실행 (Execution):
    • 계획대로 로봇 팔이 움직여 수건을 접습니다. 이때 인간이 몇 번만 보여준 동작을 참고합니다.
  3. 성공 여부 확인 (Evaluation):
    • '의사'가 카메라로 결과를 확인합니다. "수건이 잘 접혔나?"를 물어보고, 실패하면 그 데이터는 버립니다.
  4. 환경 되돌리기 (Reset):
    • 성공하면, 로봇이 앞서 설명한 '되감기' 방식으로 수건을 펴고 원래 위치로 돌려놓습니다. 이제 다시 새로운 작업을 시작할 준비가 됩니다.

🌟 4. 왜 이것이 중요한가요? (결과)

  • 인간 개입 제로 (Human-out-of-the-loop): 한 번만 설정하면, 로봇은 밤낮없이 스스로 실패와 성공을 반복하며 데이터를 모읍니다.
  • 높은 성공률: 복잡한 시뮬레이션 작업에서 90% 이상의 성공률을 보였습니다. 기존 방식은 긴 작업 (예: 블록 쌓기) 에서 거의 실패했지만, RADAR 는 잘 해냈습니다.
  • 실제 로봇에서도 가능: 실제 로봇 팔에서도 타월 접기, 딸기 잡기 같은 복잡한 작업을 **한 번만 보여주고 (Few-shot)**도 성공적으로 수행했습니다.

💡 요약: 한 마디로 설명하면?

RADAR 는 **"로봇이 스스로 일을 하고, 스스로 실수를 고치고, 스스로 환경을 정리해서 다음 일을 준비하는, 인간이 필요 없는 완전 자동화된 로봇 학습 공장"**입니다.

이 기술이 발전하면, 앞으로 우리가 로봇에게 복잡한 일을 가르칠 때 더 이상 직접 조종할 필요 없이, 로봇이 스스로 수천 번의 연습을 통해 전문가가 될 수 있게 될 것입니다.