On Robustness of Vision-Language-Action Model against Multi-Modal Perturbations
Die Arbeit stellt RobustVLA vor, ein Framework, das Vision-Language-Action-Modelle durch eine Kombination aus adversärem Training für die Ausgabe und konsistenter Aktionsgenerierung für die Eingabe sowie einem Multi-Armed-Bandit-Ansatz zur automatischen Identifizierung kritischer Störungen gegen eine Vielzahl multimodaler Perturbationen robust macht und dabei auf Benchmarks sowie realen Robotern signifikante Verbesserungen gegenüber bestehenden Modellen erzielt.