On Robustness of Vision-Language-Action Model against Multi-Modal Perturbations
Questo lavoro presenta RobustVLA, un metodo che migliora la robustezza dei modelli Vision-Language-Action contro perturbazioni multi-modali attraverso l'ottimizzazione offline del rumore nelle azioni e la formulazione della robustezza come problema di bandit multi-braccio, ottenendo significativi guadagni nelle prestazioni sia in simulazione che su robot reali.