IAG: Input-aware Backdoor Attack on VLM-based Visual Grounding
Il paper introduce IAG, il primo attacco backdoor multi-obiettivo per la grounding visuale basato su modelli visione-linguaggio, che genera trigger dinamici e impercettibili guidati dal testo per reindirizzare l'attenzione verso oggetti target specifici senza compromettere le prestazioni su campioni benigni.