See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation
Il paper introduce SPR, un framework visione-linguaggio-azione che migliora la robustezza della manipolazione robotica attraverso un ciclo continuo di osservazione, pianificazione e riavvio basato sul monitoraggio esplicito del progresso del compito, ottenendo risultati superiori rispetto agli stati dell'arte su benchmark complessi.