See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation
Le papier présente SPR, un cadre vision-langage-action progressif qui améliore la robustesse de la manipulation robotique en ancrant les instructions dans des sous-objectifs spatiaux et en permettant une récupération automatique des échecs via un cycle de rétroaction, surpassant ainsi les méthodes de référence sur les benchmarks LIBERO.