See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation
이 논문은 작업 진행 상황을 명시적인 마일스톤으로 감지하고 실패 시 복구하는 'See, Plan, Rewind (SPR)' 프레임워크를 제안하여, 추가 학습 없이도 LIBERO 및 LIBERO-Plus 벤치마크에서 기존 모델보다 뛰어난 강건성과 일반화 성능을 달성함을 보여줍니다.