See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation

이 논문은 작업 진행 상황을 명시적인 마일스톤으로 감지하고 실패 시 복구하는 'See, Plan, Rewind (SPR)' 프레임워크를 제안하여, 추가 학습 없이도 LIBERO 및 LIBERO-Plus 벤치마크에서 기존 모델보다 뛰어난 강건성과 일반화 성능을 달성함을 보여줍니다.

Tingjun Dai, Mingfei Han, Tingwen Du, Zhiheng Liu, Zhihui Li, Salman Khan, Jun Yu, Xiaojun Chang

게시일 Wed, 11 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 로봇이 일을 할 때 **"지금 어디까지 했는지, 그리고 실수하면 어떻게 다시 시작할지"**를 스스로 파악하게 만드는 새로운 방법, **SPR(See, Plan, Rewind)**을 소개합니다.

기존의 로봇들은 "상자를 치워라"라는 명령을 받으면, 막상 상자를 잡으려다 떨어뜨리거나 물건을 밀어내도 "아, 내가 실수했구나"라고 생각하지 못하고 같은 실수를 반복하거나 멈춰버리는 경우가 많았습니다. 마치 길을 잃었는데도 계속 같은 방향을 향해 걷는 것과 비슷하죠.

이 논문은 로봇에게 인간처럼 '단계별 목표'를 세우고, 길을 잃으면 '되돌아가서' 다시 시도하는 능력을 심어주었습니다.


🤖 SPR: 로봇의 '3 단계 생존 전략'

이 시스템은 세 가지 핵심 동작을 반복하며 로봇을 운영합니다.

1. See (보다): "지금 내가 어디까지 왔지?"

  • 비유: 요리사가 "스테이크를 구워라"라는 명령을 받으면, 단순히 "불에 대고 구워"라고 생각하지 않습니다. "1. 고기 꺼내기, 2. 팬 데우기, 3. 구워지기, 4. 접시에 담기"처럼 작은 단계들로 나누어 생각합니다.
  • SPR 의 역할: 로봇은 명령을 받자마자 "아, 이 일은 3 단계로 나뉘네. 지금 1 단계인 '물건 잡기'를 하고 있구나"라고 스스로 파악합니다. 단순히 "목표"만 보는 게 아니라, **"다음 단계의 구체적인 위치 (2D 좌표)"**를 미리 그려봅니다.

2. Plan (계획하기): "다음 발걸음을 어디로?"

  • 비유: 등산객이 정상까지 가는 길에서, "정상"이라는 거대한 목표만 보고 가면 길을 잃기 쉽습니다. 대신 "다음 100m 지점의 큰 바위", "그다음 나무"처럼 작은 이정표를 하나씩 찍어가며 걷는 것이 안전합니다.
  • SPR 의 역할: 로봇은 다음 단계인 '물건 잡기'를 위해 손끝 (그리퍼) 이 어디로 움직여야 하는지 정확한 경로를 2D 지도 위에 그립니다. 큰 목표가 아니라, 지금 당장 도달해야 할 작은 목표로만 계획을 세우기 때문에 훨씬 정확해집니다.

3. Rewind (되감기): "아, 실수했어! 다시 시작하자"

  • 비유: 비디오를 보다가 중요한 장면을 놓치거나, 게임에서 캐릭터가 함정에 빠지면 우리는 "되감기 (Rewind)" 버튼을 눌러 이전 상태로 돌아갑니다. 로봇도 마찬가지입니다.
  • SPR 의 역할: 로봇이 일을 하다가 "오래 걸렸는데도 진전이 없다"거나 "단계 수가 오히려 늘었다"는 이상 신호를 감지하면, 스스로 "아, 내가 엉망이네"라고 판단합니다. 그리고는 과거의 안전한 상태 (시작 위치) 로 되감기를 합니다.
  • 중요한 점: 이 과정은 로봇이 새로운 데이터를 배우거나, 다른 AI 를 부르는 것 없이, 이미 가진 능력만으로 스스로 오류를 수정합니다.

🌟 왜 이 기술이 혁명적인가요?

기존의 로봇들은 "실수"를 처리하는 데 매우 약했습니다. 물건을 떨어뜨리면 그 자리에서 멈추거나, 인간이 와서 다시 시작시켜야 했습니다. 하지만 SPR 은 다음과 같은 장점이 있습니다.

  1. 실수해도 당황하지 않음: 로봇이 길을 잃거나 물건을 놓치면, "되감기" 버튼을 눌러 다시 시도합니다. 마치 게임에서 '체크포인트'로 돌아가는 것과 같습니다.
  2. 예상치 못한 상황에도 강함: 실험 결과, 배경이 바뀌거나 로봇의 시작 위치가 달라지는 등 **생각지도 못한 상황 (Out-of-Distribution)**에서도 기존 로봇들보다 훨씬 잘 견디고 성공했습니다.
  3. 추가 학습 불필요: 실수를 고치기 위해 수천 번의 실패 데이터를 모으거나, 복잡한 추가 모델을 만들 필요가 없습니다. 기존 데이터를 활용하여 '되감기' 능력을 자연스럽게 학습시켰습니다.

📝 요약: 로봇의 새로운 사고방식

이 논문은 로봇에게 **"무조건 끝까지 가라"가 아니라, "단계별로 확인하고, 틀리면 되돌아가라"**는 사고방식을 심어주었습니다.

  • 기존 로봇: "상자를 치워라!" → (실수) → "상자를 치워라!" → (계속 실수) → 멈춤
  • SPR 로봇: "상자를 치워라!" → (단계 1: 잡기) → (실수) → "아, 안 잡혔네! 되감기" → (시작 위치로 복귀) → (다시 잡기) → 성공

이 기술은 로봇이 집안일, 공장 작업 등 복잡한 현실 세계에서도 스스로 문제를 해결하며 일할 수 있는 튼튼한 기반을 마련해 줍니다. 마치 길을 잃으면 지도를 보고 다시 길을 찾는 똑똑한 여행객처럼 말이죠.