Restoring Linguistic Grounding in VLA Models via Train-Free Attention Recalibration
Cet article présente IGAR, une méthode d'inférence sans réentraînement qui corrige la « cécité linguistique » des modèles VLA en recalibrant leur attention pour rétablir la primauté des instructions textuelles sur les biais visuels lors de la génération d'actions robotiques.