Dyslexify: A Mechanistic Defense Against Typographic Attacks in CLIP
O artigo apresenta o Dyslexify, um método de defesa sem necessidade de ajuste fino que protege modelos CLIP contra ataques tipográficos ao ablatar seletivamente circuitos de atenção específicos, melhorando significativamente a robustez sem comprometer a precisão padrão.