See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation

Each language version is independently generated for its own context, not a direct translation.

이 논문은 로봇이 일을 할 때 **"지금 어디까지 했는지, 그리고 실수하면 어떻게 다시 시작할지"**를 스스로 파악하게 만드는 새로운 방법, **SPR(See, Plan, Rewind)**을 소개합니다.

기존의 로봇들은 "상자를 치워라"라는 명령을 받으면, 막상 상자를 잡으려다 떨어뜨리거나 물건을 밀어내도 "아, 내가 실수했구나"라고 생각하지 못하고 같은 실수를 반복하거나 멈춰버리는 경우가 많았습니다. 마치 길을 잃었는데도 계속 같은 방향을 향해 걷는 것과 비슷하죠.

이 논문은 로봇에게 인간처럼 '단계별 목표'를 세우고, 길을 잃으면 '되돌아가서' 다시 시도하는 능력을 심어주었습니다.

🤖 SPR: 로봇의 '3 단계 생존 전략'

이 시스템은 세 가지 핵심 동작을 반복하며 로봇을 운영합니다.

1. See (보다): "지금 내가 어디까지 왔지?"

비유: 요리사가 "스테이크를 구워라"라는 명령을 받으면, 단순히 "불에 대고 구워"라고 생각하지 않습니다. "1. 고기 꺼내기, 2. 팬 데우기, 3. 구워지기, 4. 접시에 담기"처럼 작은 단계들로 나누어 생각합니다.
SPR 의 역할: 로봇은 명령을 받자마자 "아, 이 일은 3 단계로 나뉘네. 지금 1 단계인 '물건 잡기'를 하고 있구나"라고 스스로 파악합니다. 단순히 "목표"만 보는 게 아니라, **"다음 단계의 구체적인 위치 (2D 좌표)"**를 미리 그려봅니다.

2. Plan (계획하기): "다음 발걸음을 어디로?"

비유: 등산객이 정상까지 가는 길에서, "정상"이라는 거대한 목표만 보고 가면 길을 잃기 쉽습니다. 대신 "다음 100m 지점의 큰 바위", "그다음 나무"처럼 작은 이정표를 하나씩 찍어가며 걷는 것이 안전합니다.
SPR 의 역할: 로봇은 다음 단계인 '물건 잡기'를 위해 손끝 (그리퍼) 이 어디로 움직여야 하는지 정확한 경로를 2D 지도 위에 그립니다. 큰 목표가 아니라, 지금 당장 도달해야 할 작은 목표로만 계획을 세우기 때문에 훨씬 정확해집니다.

3. Rewind (되감기): "아, 실수했어! 다시 시작하자"

비유: 비디오를 보다가 중요한 장면을 놓치거나, 게임에서 캐릭터가 함정에 빠지면 우리는 "되감기 (Rewind)" 버튼을 눌러 이전 상태로 돌아갑니다. 로봇도 마찬가지입니다.
SPR 의 역할: 로봇이 일을 하다가 "오래 걸렸는데도 진전이 없다"거나 "단계 수가 오히려 늘었다"는 이상 신호를 감지하면, 스스로 "아, 내가 엉망이네"라고 판단합니다. 그리고는 과거의 안전한 상태 (시작 위치) 로 되감기를 합니다.
중요한 점: 이 과정은 로봇이 새로운 데이터를 배우거나, 다른 AI 를 부르는 것 없이, 이미 가진 능력만으로 스스로 오류를 수정합니다.

🌟 왜 이 기술이 혁명적인가요?

기존의 로봇들은 "실수"를 처리하는 데 매우 약했습니다. 물건을 떨어뜨리면 그 자리에서 멈추거나, 인간이 와서 다시 시작시켜야 했습니다. 하지만 SPR 은 다음과 같은 장점이 있습니다.

실수해도 당황하지 않음: 로봇이 길을 잃거나 물건을 놓치면, "되감기" 버튼을 눌러 다시 시도합니다. 마치 게임에서 '체크포인트'로 돌아가는 것과 같습니다.
예상치 못한 상황에도 강함: 실험 결과, 배경이 바뀌거나 로봇의 시작 위치가 달라지는 등 **생각지도 못한 상황 (Out-of-Distribution)**에서도 기존 로봇들보다 훨씬 잘 견디고 성공했습니다.
추가 학습 불필요: 실수를 고치기 위해 수천 번의 실패 데이터를 모으거나, 복잡한 추가 모델을 만들 필요가 없습니다. 기존 데이터를 활용하여 '되감기' 능력을 자연스럽게 학습시켰습니다.

📝 요약: 로봇의 새로운 사고방식

이 논문은 로봇에게 **"무조건 끝까지 가라"가 아니라, "단계별로 확인하고, 틀리면 되돌아가라"**는 사고방식을 심어주었습니다.

기존 로봇: "상자를 치워라!" → (실수) → "상자를 치워라!" → (계속 실수) → 멈춤
SPR 로봇: "상자를 치워라!" → (단계 1: 잡기) → (실수) → "아, 안 잡혔네! 되감기" → (시작 위치로 복귀) → (다시 잡기) → 성공

이 기술은 로봇이 집안일, 공장 작업 등 복잡한 현실 세계에서도 스스로 문제를 해결하며 일할 수 있는 튼튼한 기반을 마련해 줍니다. 마치 길을 잃으면 지도를 보고 다시 길을 찾는 똑똑한 여행객처럼 말이죠.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

기존의 비전 - 언어 - 행동 (Vision-Language-Action, VLA) 모델들은 복잡한 로봇 조작 작업을 수행할 수 있지만, **작업 진행 상황에 대한 명시적이고 실행 가능한 인식 (Progress Awareness)**이 부족하다는 한계가 있습니다.

진행 상황 인식 부재: 기존 모델들은 추상적인 언어적 계획이나 이진 (성공/실패) 플래그에 의존하여, 작업이 어느 단계에 도달했는지 정량적으로 파악하지 못합니다.
오류 누적 및 복구 실패: 중간 단계에서 실패가 발생하거나 로봇이 환경적 제약 (충돌, 정렬 불량 등) 으로 인해 진행이 멈췄을 때, 이를 감지하고 자동으로 복구하는 메커니즘이 부재합니다.
데이터 의존성: 기존 복구 방법론들은 방대한 실패 데이터 수집이나 추가적인 보조 모델, 복잡한 프롬프트 엔지니어링에 의존하여 비용이 많이 들거나 일반화 능력이 떨어집니다.

2. 방법론 (Methodology: SPR Framework)

저자들은 **See, Plan, Rewind (SPR)**라는 새로운 프레임워크를 제안합니다. 이는 VLA 모델에 구체적인 공간적 하위 목표 (Spatial Subgoals) 를 통해 작업 진행 상황을 인식하고, 오류 발생 시 자동으로 복구하는 능력을 부여합니다.

A. 핵심 사이클 (Continuous Core Cycle)

SPR 은 다음 세 가지 단계를 순환적으로 수행합니다:

See (관찰 및 인식):
- 현재 상태와 남은 하위 작업 (Subtasks) 수를 파악합니다.
- 각 하위 작업에 대한 **의미론적 설명 (Semantic Description)**과 **2D 공간 좌표 (2D Coordinates)**를 생성합니다.
- 이를 통해 추상적인 목표를 로봇이 실행 가능한 구체적인 지점 (Waypoints) 으로 변환합니다.
Plan (계획):
- 현재 그리퍼 위치에서 다음 하위 목표 지점까지의 **2D 궤적 (Trajectory)**을 계획합니다 (최대 5 개의 웨이포인트).
- 최종 목표가 아닌 '다음 단계'를 목표로 삼아 장기 작업 (Long-horizon tasks) 에서의 계획 오류를 줄입니다.
Rewind (되감기/복구):
- 진행 상황 모니터링: 'State Recorder'를 통해 예측된 하위 작업 수와 계획된 궤적을 지속적으로 추적합니다.
- 이상 감지: 하위 작업 수가 증가하거나 (실패 반복), 궤적이 장기간 변하지 않을 때 (진행 정지) 비정상 (Anomaly) 으로 판단합니다.
- 복구 실행: 비정상이 감지되면 로봇에게 "초기 위치로 돌아가라"는 명령을 내리고 $N$ 단계 동안 되감기 (Rewind) 동작을 수행하여 안정적인 상태로 복귀시킨 후 작업을 재개합니다.

B. 데이터 구축 파이프라인 (Data Curation)

추가적인 인간 주석이나 보조 모델 없이 기존 데모 데이터에서 자동으로 학습 데이터를 생성합니다.

하위 작업 분할:
- 픽 - 앤 - 플레이스 작업: 그리퍼의 열림/닫힘 상태 전환을 기준으로 분할.
- 기타 작업 (밀기 등): Gemini-3 와 같은 비디오 - 언어 모델을 사용하여 프레임 범위와 의미론적 설명을 자동 주석.
공간 좌표 추출: DINOv3 와 SAM 을 결합하여 그리퍼의 2D 위치를 정밀하게 추출하고 궤적을 생성합니다.
되감기 데이터 생성: 성공적인 데모 데이터를 시간적으로 역순으로 뒤집고, 액션 토큰을 반전시켜 '초기 위치로 복귀'하는 데이터를 자동으로 생성합니다.

3. 주요 기여 (Key Contributions)

공간 하위 작업을 통한 진행 상황 인식: 추상적인 계획 대신 검증 가능한 2D 공간 지점을 사용하여 로봇이 실행 가능한 세밀한 진행 추적을 가능하게 했습니다.
진행 기반 오류 복구 정책: 추가 데이터나 모델 없이, 진행 상황 모니터링을 통해 비정상을 감지하고 로봇을 분포 내 (In-distribution) 상태로 되돌리는 실행 가능한 복구 정책을 제안했습니다.
OOD (Out-of-Distribution) 강건성: 기존 방법론보다 훨씬 뛰어난 일반화 능력을 입증했습니다.

4. 실험 결과 (Results)

SPR 은 시뮬레이션 (LIBERO, LIBERO-Plus) 및 실제 로봇 (Real-robot) 환경에서 광범위한 실험을 수행했습니다.

LIBERO 벤치마크:
- 기존 최강 베이스라인인 MolmoAct 대비 5% 향상된 성공률을 기록했습니다.
- 특히 복잡한 장기 작업 (Long-horizon) 에서 큰 성능 향상을 보였습니다.
LIBERO-Plus (OOD 강건성):
- 배경, 로봇 초기 상태, 언어 표현, 객체 배치, 조명 등 5 가지 변형이 가해진 6,800 개 이상의 테스트 변형에서 평가되었습니다.
- 성능 저하 폭이 가장 작았습니다 (평균 18.8% 감소).
- OpenVLA-OFT (27.0% 감소) 및 UniVLA (37.5% 감소) 보다 월등히 우수한 분포 외 (OOD) 강건성을 입증했습니다.
실제 로봇 작업:
- Pick up: 70% 성공률 (MolmoAct 50%).
- Tidy up (복잡한 정리 작업): 30% 성공률 (MolmoAct 0% - 완전 실패).
- Push-T (연속 접촉 조작): 40% 성공률 (MolmoAct 0%).
- 객체 수가 증가할수록 SPR 의 성능 저하는 완만하게 일어나는 반면, 베이스라인은 급격히 무너졌습니다.

5. 의의 및 결론 (Significance)

이 논문은 로봇 조작의 **강건성 (Robustness)**을 확보하기 위해 '진행 상황 인식'이 필수적임을 강조합니다.

데이터 효율성: 별도의 실패 데이터 수집 없이 기존 성공 데모를 역이용하여 복구 능력을 학습시켰습니다.
실용성: 추가적인 추론 모델이나 복잡한 시스템 없이 단일 VLA 모델 내에서 폐쇄 루프 (Closed-loop) 오류 복구가 가능합니다.
일반화: 예측 불가능한 환경 변화나 초기 조건 변화에서도 로봇이 스스로 상태를 진단하고 복구하여 작업을 완수할 수 있는 새로운 패러다임을 제시했습니다.

결론적으로, SPR 은 로봇이 인간처럼 작업을 단계별로 분해하고, 실패 시 '되감기'를 통해 다시 시도하는 능력을 갖추게 함으로써, 실제 세계의 동적이고 불확실한 환경에서 로봇을 안정적으로 작동시키는 핵심 기술을 제공합니다.