Restoring Linguistic Grounding in VLA Models via Train-Free Attention Recalibration
Diese Arbeit stellt das diagnostische Benchmark ICBench vor, um das Phänomen der „linguistischen Blindheit" in Vision-Language-Action-Modellen aufzudecken, und schlägt mit IGAR eine trainingsfreie Methode zur Nachkalibrierung der Aufmerksamkeit vor, die die Zuverlässigkeit bei widersprüchlichen Sprachanweisungen ohne Architekturänderungen wiederherstellt.