PRISM: Personalized Refinement of Imitation Skills for Manipulation via Human Instructions

이 논문은 자연어 지시와 인간 피드백을 활용하여 시뮬레이션된 조작 작업에서 모방 학습 정책을 강화 학습으로 정제하는 'PRISM' 프레임워크를 제안함으로써, 새로운 목표와 제약 조건에 대한 정책의 재사용성과 데이터 효율성을 높이고 배포 강건성을 개선하는 방법을 제시합니다.

Arnau Boix-Granell, Alberto San-Miguel-Tello, Magí Dalmau-Moreno, Néstor García

게시일 2026-03-09
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 로봇이 인간의 손놀림을 배우고, 그다음에 우리의 말 한마디와 작은 지적을 통해 더 똑똑해지도록 돕는 새로운 방법론인 PRISM을 소개합니다.

이 복잡한 기술을 일상적인 비유로 설명해 드리겠습니다.

🤖 PRISM: 로봇을 위한 '맞춤형 요리 교실'

상상해 보세요. 로봇이 요리를 배운다고 가정합시다.

1. 첫 단계: 요리사 견습생 (모방 학습, Imitation Learning)
먼저, 로봇은 초보 요리사 견습생입니다. 이 로봇은 인간이 직접 조종봉 (텔레오퍼레이션) 을 잡고 요리를 하는 모습을 50 번 정도 지켜보고 따라 합니다.

  • 비유: 마치 요리 학교에서 셰프가 "이렇게 소스를 붓고, 이렇게 뒤집어라"라고 시범을 보이면, 학생이 그 동작을 그대로 따라 하는 것과 같습니다.
  • 문제점: 학생은 셰프가 보여준 대로만 할 줄 압니다. 만약 셰프가 보여주지 않은 상황에서 (예: 냄비가 조금 기울었을 때) 문제가 생기면, 학생은 당황해서 실패하거나 넘어집니다.

2. 두 번째 단계: 실전 훈련과 보상 (강화 학습, Reinforcement Learning)
이제 로봇은 혼자서 실전 훈련을 시작합니다. 하지만 처음부터 모든 걸 새로 배우는 건 너무 느리고 위험합니다. 그래서 로봇은 이전에 배운 요리 실력 (모방 학습) 을 기본 베이스로 삼습니다.

  • 비유: 이제 학생은 혼자서 요리를 해보지만, 실패하면 "아, 이건 너무 세게 뒤집었네"라고 스스로 깨닫고 다시 시도합니다. 이때 로봇은 "성공하면 점수 +1, 실패하면 점수 -1"이라는 점수 시스템 (보상) 을 받으며 학습합니다.

3. 핵심 아이디어: "AI 요리 컨설턴트"와 "사용자의 한 마디" (PRISM 의 혁신)
여기서 PRISM 이 특별한 점이 나옵니다. 로봇이 스스로 점수를 매기는 것만으로는 부족할 때가 있습니다. 로봇이 "소스를 너무 많이 넣었어"라고 생각할지, "소스가 적당해"라고 생각할지 알 수 없기 때문입니다.

PRISM 은 두 가지 도구를 사용합니다:

  • AI 요리 컨설턴트 (LLM, Eureka): 로봇이 "이제 소스를 더 적게 넣어야 해"라고 말하면, AI 컨설턴트가 이를 구체적인 점수 규칙 (보상 함수) 으로 바꿔줍니다.
  • 사용자의 한 마디 (Human Feedback): 로봇이 요리를 해보는데, "아, 그릇을 너무 세게 잡아서 깨질 뻔했어"라고 사용자가 한마디 하면, 로봇은 그 부분을 즉시 수정합니다.

🌟 PRISM 의 마법: "새로운 주문"에 맞춰 로봇을 바꾼다
이제 가장 중요한 부분입니다.

  • 기존 상황: 로봇은 "상자를 들고 쓰레기통에 던져라"는 명령을 배웠습니다.
  • 새로운 주문: 사용자가 "아니, 상자를 부드럽게 테이블 위에 올려놓아라"라고 말합니다.
  • PRISM 의 작동: 로봇은 "던지는" 행동을 배운 기본 실력을 유지한 채, 사용자의 새로운 말 ("부드럽게 올려놓아라") 과 "상자가 기울지 않게 해라"라는 추가 지시를 듣고, AI 컨설턴트와 함께 몇 번의 시도만으로 새로운 행동을 완성합니다.

💡 왜 이것이 중요한가요?

  1. 시간과 노력 절약: 로봇이 처음부터 모든 걸 새로 배우는 게 아니라, 이미 배운 실력을 바탕으로 조금만 수정하면 되므로 훨씬 빠릅니다. (데이터 효율성)
  2. 사용자 맞춤: 로봇이 사용자의 성향 (예: "조금 더 천천히 움직여줘", "손잡이를 더 단단히 잡아줘") 을 쉽게 받아들입니다.
  3. 안전함: 처음부터 무작정 실험하는 대신, 인간이 배운 안전한 기본기를 바탕으로 학습하므로 위험한 실수를 줄입니다.

📝 결론

이 논문은 **"로봇에게 일을 가르칠 때, 처음에는 사람이 시범을 보이고, 그다음에는 로봇이 스스로 연습하되, 사용자가 '여기 좀 고쳐줘'라고 말하면 AI 가 그 말을 번역해서 로봇이 바로 고쳐주게 하자"**는 아이디어입니다.

이 방식 덕분에 로봇은 전문적인 기술자 없이도 일반인이 쉽게 원하는 대로 맞춤형 작업을 수행할 수 있게 되었습니다. 마치 요리 학교를 졸업한 견습생이, 고객의 취향에 맞춰 메뉴를 즉석에서 변형해 낼 수 있는 마스터 셰프가 되는 것과 같습니다.