Dyslexify: A Mechanistic Defense Against Typographic Attacks in CLIP
Il lavoro presenta Dyslexify, un metodo di difesa senza riaddestramento per i modelli CLIP che, identificando e disattivando selettivamente i circuiti attentivi responsabili dell'estrazione di informazioni tipografiche, protegge efficacemente da attacchi basati sul testo mantenendo al contempo le prestazioni standard.