Dyslexify: A Mechanistic Defense Against Typographic Attacks in CLIP

Each language version is independently generated for its own context, not a direct translation.

🛡️ Dyslexify : Le "Bouchon" qui protège les yeux de l'IA

Imaginez que vous avez un ami très intelligent nommé CLIP. C'est une intelligence artificielle capable de regarder une photo et de dire exactement ce qu'elle voit (un chien, une pomme, une voiture). C'est comme un détective visuel ultra-performant.

Mais CLIP a un défaut de naissance : il est trop confiant avec le texte.

1. Le Problème : L'arnaque du "Post-it" 📝

Les pirates informatiques ont découvert une astuce simple pour tromper CLIP. Ils prennent une photo d'un banane, et ils écrivent dessus, en gros, le mot "FUSIL" avec un marqueur rouge.

Ce qui se passe normalement : CLIP regarde la photo. Il voit la forme de la banane, mais il lit aussi le mot "FUSIL". Comme il est trop influencé par le texte, il crie : "C'EST UN FUSIL !" et classe la banane comme une arme.
Le danger : Cela peut être utilisé pour faire dire à une IA qu'un médicament est toxique, ou pour tromper des systèmes de sécurité. C'est comme si quelqu'un collait un faux panneau "SORTIE" sur une porte de secours pour vous faire sortir par la mauvaise issue.

2. L'Enquête : Où est le cerveau de CLIP ? 🕵️‍♂️

Les chercheurs de cet article (Lorenz Hufe et son équipe) ont décidé de faire une autopsie du cerveau de CLIP pour comprendre pourquoi il tombe dans ce piège.

Ils ont découvert que le cerveau de CLIP est comme une usine avec plusieurs étages (des couches).

Au début, l'IA regarde les formes (la courbe de la banane).
Mais vers la fin de l'usine, il y a un petit groupe d'ouvriers spéciaux (qu'ils appellent des "têtes d'attention") qui sont obsédés par le texte. Dès qu'ils voient des lettres, ils crient très fort : "REGARDEZ LE MOT !" et ils envoient cette information au chef de l'usine (le token cls), qui prend la décision finale.

Ces ouvriers sont si bruyants qu'ils étouffent le message des autres ouvriers qui disent : "Non, c'est juste une banane !"

3. La Solution : Dyslexify (Le "Bouchon" de sécurité) 🚧

Au lieu de réapprendre à CLIP à ne pas lire (ce qui prendrait des mois et des ordinateurs géants), les chercheurs ont inventé Dyslexify.

Imaginez que vous pouvez entrer dans l'usine de CLIP et boucher les oreilles de ces ouvriers obsédés par le texte.

Comment ? Ils identifient exactement quels ouvriers (quelles "têtes") écoutent trop le texte.
L'action : Ils les "abattent" (les désactivent) temporairement.
Le résultat : CLIP devient un peu "dyslexique" (il ne lit plus bien les mots sur les images), mais il redevient un excellent détective visuel.

Quand on lui montre la photo de la banane avec le mot "FUSIL", les ouvriers du texte sont muets. Le chef de l'usine écoute donc les ouvriers visuels qui disent : "C'est une banane !" et il a raison.

4. Pourquoi c'est génial ? 🌟

Pas de réapprentissage : On n'a pas besoin de lui faire étudier des milliers de livres. On change juste un petit bouton dans son cerveau. C'est rapide et peu coûteux.
Sécurité médicale : Les chercheurs l'ont testé sur un IA qui aide à diagnostiquer le cancer de la peau. Si quelqu'un écrit "C'est bénin" sur une photo de tumeur maligne, l'IA normale pourrait se tromper et sauver la vie du patient. Avec Dyslexify, l'IA ignore le faux texte et regarde la tumeur réelle.
Le compromis : Oui, cette nouvelle version de CLIP ne sait plus très bien lire les panneaux de signalisation ou les mots sur les photos. Mais pour des applications de sécurité (comme reconnaître une arme ou un cancer), c'est un petit prix à payer pour ne plus se faire avoir par des faux textes.

En résumé 🎯

Dyslexify, c'est comme donner des bouchons d'oreilles à une IA pour qu'elle ne se laisse plus distraire par des faux panneaux. Elle devient moins "lettrée", mais beaucoup plus sûre et fiable pour voir la réalité telle qu'elle est, sans se faire piéger par des mots écrits sur les images.

C'est une façon intelligente de dire : "Parfois, pour mieux voir, il faut savoir fermer les yeux sur le texte." 👁️🚫📝

Each language version is independently generated for its own context, not a direct translation.

1. Le Problème : Les Attaques Typographiques sur CLIP

Les modèles CLIP (Contrastive Language-Image Pre-training) sont devenus des représentations vision-langage omniprésentes, utilisées dans la classification zéro-shot, la génération d'images et les modèles de langage-vision (VLM). Cependant, ils présentent une vulnérabilité critique aux attaques typographiques.

Mécanisme de l'attaque : Il s'agit d'insérer du texte (souvent sous forme d'adversarial text) dans une image. Ce texte peut dominer la représentation du modèle, entraînant des erreurs de classification ciblées, la génération de contenu malveillant ou même le "jailbreak" (contournement des filtres de sécurité) des systèmes multimodaux.
Limites des défenses existantes : Les méthodes actuelles pour contrer ces attaques reposent principalement sur le fine-tuning (réentraînement) du modèle ou l'optimisation basée sur des gradients (ex: Defense-Prefix). Ces approches sont coûteuses en calcul, manquent d'interprétabilité sur les mécanismes internes du modèle et ne s'adaptent pas facilement aux modèles de très grande taille (milliards de paramètres) sans ressources massives.

2. Méthodologie : Dyslexify

L'article propose Dyslexify, une défense sans gradient (gradient-free) qui intervient directement sur l'architecture du modèle via une approche d'interprétabilité mécaniste. Au lieu de réentraîner le modèle, Dyslexify identifie et désactive (ablation) les circuits neuronaux spécifiques responsables de la vulnérabilité aux textes.

A. Analyse Mécaniste et Identification du Circuit

Les auteurs ont d'abord analysé le comportement des encodeurs visuels de CLIP face aux attaques typographiques :

Émergence tardive : L'information typographique n'est pas traitée dès les premières couches, mais émerge brusquement dans la seconde moitié des couches du modèle.
Rôle des têtes d'attention : Contrairement aux blocs MLP qui tendent à compresser l'information, les couches d'attention ajoutent des informations décodables linéairement au token cls.
Score d'Attention Typographique ( $T_{i,\ell}$ ) : Pour localiser précisément les composants vulnérables, les auteurs introduisent un score mesurant l'attention spatiale d'une tête $H_{i,\ell}$ sur les zones contenant du texte. Ils constatent qu'un petit sous-ensemble de têtes d'attention (souvent dans les dernières couches) présente un biais spatial fort vers le contenu typographique.

B. Construction du Circuit et Ablation

La méthode consiste à construire un "circuit typographique" $C$ composé de ces têtes d'attention spécifiques, puis à les ablater (mettre à zéro leur contribution au token cls).

Classement : Toutes les têtes d'attention sont classées par leur score $T_{i,\ell}$ .
Sélection itérative : Les têtes sont ajoutées au circuit $C$ par ordre décroissant de score.
Contrôle de compromis : À chaque ajout, l'exactitude sur un benchmark non typographique ( $D_{img}$ ) est surveillée. Si la perte d'exactitude dépasse un seuil $\epsilon$ (par exemple 1%), l'ajout est stoppé.
Résultat : On obtient un modèle "dyslexique" ( $M_C$ ) où le flux résiduel du token cls ne reçoit plus les informations provenant des têtes sensibles au texte, tout en conservant la capacité de reconnaître les objets visuels.

3. Contributions Clés

Compréhension Mécaniste : Identification et validation causale d'un circuit d'attention spécifique responsable des attaques typographiques dans CLIP. Les auteurs démontrent que ces têtes agissent comme des "sinks" (puits) d'attention pour le token cls en présence de texte.
Défense Sans Gradient : Une méthode efficace qui ne nécessite ni réentraînement ni optimisation de gradients. Elle est applicable aux modèles de plusieurs milliards de paramètres sur du matériel grand public.
Validation Empirique : Démonstration que la suppression de ce circuit améliore la robustesse sans dégrader significativement les performances générales.
Cas d'Usage Médical : Application du modèle à la détection de mélanome, montrant que les attaques typographiques peuvent fausser des diagnostics médicaux et que Dyslexify mitige ce risque.
Libération de Modèles : Mise à disposition d'une famille de modèles CLIP "dyslexiques" prêts à l'emploi pour des applications critiques.

4. Résultats Expérimentaux

Les expériences ont été menées sur plusieurs tailles de modèles OpenCLIP (ViT-B, L, H, G, BigG) et divers benchmarks.

Robustesse aux attaques : Dyslexify améliore la précision sur des variantes typographiques d'ImageNet-100 de jusqu'à 22,06 % (et jusqu'à +31 % sur certains jeux de données synthétiques).
Préservation des performances générales : La perte de précision sur les benchmarks standards (ImageNet-100, Aircraft, Food-101) est inférieure à 1 % dans la quasi-totalité des cas, respectant le seuil de tolérance $\epsilon$ .
Comparaison avec l'état de l'art : Dyslexify surpasse ou égale la méthode Defense-Prefix (qui utilise un token préfixe apprenable) sur les benchmarks typographiques, tout en étant plus rapide à déployer et ne nécessitant pas de fine-tuning.
Efficacité computationnelle : Dyslexify est jusqu'à 3,8 fois plus rapide que les méthodes basées sur l'optimisation de préfixe (Defense-Prefix) lors de la phase de configuration, car il ne nécessite que des passes avant (forward passes).
Impact sur la reconnaissance de texte (OCR) : Comme attendu, la robustesse aux attaques typographiques se fait au détriment de la capacité OCR. Les modèles dyslexiques voient leur performance sur IIIT5K chuter de 8 à 30 points. Cela confirme qu'ils sont conçus pour des scénarios où la sécurité prime sur la reconnaissance de texte.

5. Signification et Conclusion

Ce travail marque une avancée significative dans la sécurité des modèles multimodaux en passant d'une approche de "boîte noire" (réentraînement) à une approche mécaniste et interprétable.

Sécurité Critique : La méthode offre une solution pratique pour sécuriser des applications sensibles (comme le diagnostic médical) contre la manipulation par le texte, sans modifier les données d'entrée ni réentraîner le modèle.
Contrôle Fin : Elle démontre qu'il est possible de contrôler les capacités d'un modèle (ici, supprimer la sensibilité au texte) par des interventions architecturales ciblées (ablation de têtes d'attention) sans retraining.
Limites : La méthode cible spécifiquement le token cls. Pour les architectures VLM avancées (comme LLaVA) qui utilisent également des tokens spatiaux pour des tâches en aval, l'efficacité pourrait être limitée, nécessitant de futures recherches sur la généralisation à ces architectures.

En résumé, Dyslexify propose une défense robuste, interprétable et économe en calcul contre les attaques typographiques, en transformant les modèles CLIP en versions "dyslexiques" incapables d'être trompées par du texte inséré dans les images, tout en conservant leur intelligence visuelle.