TTP: Test-Time Padding for Adversarial Detection and Robust Adaptation on Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous avez un détective très intelligent, nommé CLIP, capable de reconnaître n'importe quel objet sur une photo (un chien, une voiture, une fleur) en se basant sur ce qu'il a appris en lisant des millions de livres et de photos. C'est un génie, mais il a un gros défaut : il est très facilement trompé par des tricheurs invisibles.

Ces tricheurs sont des "attaques adverses". Ce sont des modifications minuscules, presque invisibles à l'œil humain, ajoutées à une photo pour faire croire au détective qu'un chat est un avion, ou qu'un chien est une tasse de thé.

Jusqu'à présent, pour protéger ce détective, on devait le réentraîner de zéro avec des exemples de tricheurs, ce qui coûtait une fortune en temps et en énergie. Ou alors, on essayait de le protéger à la volée, mais c'était comme mettre un parapluie sur tout le monde, même ceux qui n'ont pas besoin de pluie, ce qui gâchait sa capacité à voir les choses normales.

Voici la solution proposée dans cet article : TTP (Test-Time Padding), ou "Rembourrage à l'Examen".

L'Analogie du Tableau Noir et de la Chaise

Imaginez que le détective (CLIP) regarde une photo posée sur une table.

L'attaque est comme si quelqu'un avait glissé un petit bout de papier collant (le bruit) sur la photo, juste assez pour que le détective se trompe de chaise et regarde le mur au lieu du sujet.
La méthode TTP consiste à faire deux choses simples :

1. Le Détecteur de Triche (La "Poussière de Poussière")

Avant de décider quoi faire, TTP fait un petit test. Il prend la photo et ajoute un cadre blanc (ou noir) autour, comme si on encadrait le tableau.

Si la photo est normale, ajouter un cadre ne change presque rien à ce que le détective voit. Il dit : "Ah, c'est toujours un chien".
Si la photo est tricheuse, le détective est déjà confus à cause du petit papier collant. Quand on ajoute le cadre, sa confusion explose. Il dit : "Attends, avant j'étais sûr que c'était un chien, maintenant je ne sais plus !".

C'est ce changement soudain (ce "choc" dans la confiance) qui permet à TTP de dire : "Aha ! C'est une photo truquée !". C'est comme si le tricheur trébuchait dès qu'on lui demande de faire un pas de côté.

2. Le Rembourrage Intelligent (Le "Massage" de l'Image)

Une fois que TTP a repéré la photo truquée, il ne la rejette pas. Il la soigne.

Au lieu de simplement ajouter un cadre fixe, il va ajuster dynamiquement ce cadre. Il va "masser" les bords de l'image pour repousser le petit papier collant invisible et remettre le détective sur la bonne voie.
Il essaie plusieurs angles, plusieurs tailles de cadres, et choisit celui qui permet au détective de retrouver sa concentration.
Ensuite, il fait une vote de confiance : il regarde toutes les versions de l'image "soignée" et dit : "Celui-ci ressemble le plus à la vérité, on va suivre son avis".

Pourquoi c'est génial ?

Pas de réentraînement coûteux : On n'a pas besoin de réapprendre au détective tout ce qu'il sait. On lui donne juste un petit coup de pouce à la dernière minute, au moment où il regarde la photo.
On ne gâche rien : Si la photo est normale, TTP ne la touche pas. Le détective garde sa vitesse et sa précision habituelles. C'est comme si vous ne mettiez un casque de protection que si vous roulez sur une route dangereuse, mais pas sur une route calme.
C'est universel : Ça marche aussi bien sur un petit détective que sur un géant, et sur n'importe quel type de photo (animaux, voitures, fleurs).

En résumé

Le papier propose une astuce simple mais brillante : ajouter un cadre autour de l'image pour voir si le détective panique.

S'il panique -> C'est une attaque ! On ajuste le cadre pour le calmer et le remettre sur la bonne voie.
S'il reste calme -> C'est une photo normale. On la laisse telle quelle.

C'est une méthode légère, rapide et très efficace pour protéger l'intelligence artificielle contre les tricheurs, sans avoir besoin de la rééduquer de fond en comble. C'est comme donner un bouclier magique au détective juste au moment du combat.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles Vision-Language (VLM), tels que CLIP, ont démontré des performances exceptionnelles en reconnaissance zero-shot grâce à leur pré-entraînement sur de vastes ensembles de données image-texte. Cependant, ils restent extrêmement vulnérables aux perturbations adverses (adversarial perturbations), qui peuvent dégrader drastiquement leurs performances dans des scénarios critiques pour la sécurité.

Les solutions existantes présentent des limitations majeures :

Défenses au moment de l'entraînement (Training-time) : Elles reposent souvent sur un fine-tuning adversarial, nécessitant des données étiquetées et un réentraînement coûteux en calcul, ce qui est prohibitif pour les modèles à grande échelle.
Défenses au moment du test (Test-time) : Les méthodes actuelles appliquent souvent une adaptation uniforme à toutes les entrées, ce qui compromet l'exactitude sur les données propres (clean accuracy) ou échoue à distinguer efficacement les entrées adverses des données propres. Des méthodes récentes comme TTC (Test-Time Counterattack) souffrent d'une faible précision de détection et d'une mauvaise généralisation entre différents jeux de données et architectures.

L'objectif est donc de développer une défense légère, ne nécessitant pas de réentraînement, capable de détecter avec fiabilité les attaques et d'adapter le modèle uniquement lorsque nécessaire, sans sacrifier la précision sur les données non perturbées.

2. Méthodologie : Test-Time Padding (TTP)

L'article propose TTP, un cadre de défense léger opérant entièrement dans l'espace d'entrée (pixels), sans modifier les poids du modèle pré-entraîné ni les prompts textuels. Le fonctionnement repose sur trois étapes clés :

A. Détection Adverse par Décalage de Similarité

L'observation centrale est que l'ajout d'un remplissage spatial (padding) à une image perturbe différemment les caractéristiques (embeddings) d'une image propre par rapport à une image attaquée.

Mécanisme : On compare l'embedding visuel d'une image $x$ et celui de la même image après application d'un remplissage fixe $P_{fix}(x)$ .
Critère : On calcule la similarité cosinus entre ces deux embeddings.
- Pour les images propres, la similarité reste élevée (peu de changement).
- Pour les images adverses, la similarité chute significativement car l'attaque a déjà déplacé l'attention du modèle, et le padding accentue ce décalage.
Résultat : Un seuil universel de similarité cosinus (ex: $\tau = 0.8$ ) permet de distinguer les deux types d'entrées avec une précision quasi-parfaite, indépendamment du jeu de données ou de l'architecture (ViT-B/16, ViT-L/14, etc.).

B. Adaptation Ciblée (Padding Entraînable)

Une fois une entrée identifiée comme adverse, TTP active une stratégie d'adaptation spécifique :

Génération de vues augmentées : Plusieurs vues de l'image sont créées via des transformations stochastiques.
Optimisation en une étape : Au lieu d'ajuster les prompts textuels, TTP optimise les paramètres d'un module de padding entraînable ( $P_\theta$ ) pour restaurer les motifs d'attention perturbés.
Objectif : Minimiser l'entropie de prédiction sur les vues augmentées à forte confiance. Cela permet au modèle de "retrouver" le focus sur les régions pertinentes de l'image.

C. Ensemble Sensible à la Similarité

Pour la prédiction finale, TTP n'utilise pas une moyenne simple. Il pondère les prédictions des différentes vues augmentées en fonction de leur similarité :

On mesure la similarité entre la vue paddingée et l'embedding paddingé de l'attaque originale, ainsi que par rapport à l'embedding original.
Une stratégie d'ensemble attribue des poids adaptatifs aux vues les plus fiables (celles qui s'éloignent le plus de l'embedding adversarial tout en restant proches de l'embedding paddingé "sain"), maximisant ainsi la robustesse de la prédiction finale.

Pour les entrées détectées comme propres, TTP les laisse inchangées (ou peut les combiner avec d'autres techniques d'adaptation) pour préserver l'exactitude zero-shot originale.

3. Contributions Clés

Détection Universelle : Démonstration que le remplissage spatial induit un décalage de similarité caractéristique, permettant une détection adverse fiable et généralisable sans réentraînement.
Adaptation par Padding : Introduction d'un mécanisme de padding entraînable en temps réel (test-time) pour restaurer l'attention du modèle, couplé à une stratégie d'ensemble intelligente.
Cadre "Detect-then-Adapt" : Une approche en deux étapes qui sépare strictement les flux de données propres et adverses, garantissant une amélioration de la robustesse sans dégradation de la précision sur les données propres.

4. Résultats Expérimentaux

Les expériences ont été menées sur huit jeux de données de classification fine (Caltech101, OxfordPets, Flowers102, etc.) avec trois architectures CLIP (ViT-B/32, ViT-B/16, ViT-L/14) sous des attaques PGD ( $\epsilon=4.0$ ).

Robustesse : TTP surpasse systématiquement les méthodes de l'état de l'art (TTC, R-TPT, MTA). Par exemple, sur CLIP ViT-B/32, il atteint une précision moyenne de 39,7 % contre les attaques, soit une amélioration de 4,4 % par rapport à R-TPT (le précédent leader).
Précision sur données propres : Grâce à sa détection précise, TTP préserve l'exactitude des données propres (proche de celle de CLIP vanilla), contrairement aux méthodes d'adaptation uniforme qui dégradent souvent les performances sur les données non attaquées.
Généralisation : La méthode fonctionne efficacement sur différentes architectures et jeux de données avec un seul seuil de détection, prouvant sa robustesse face aux variations de domaine.
Résistance à divers types d'attaques : TTP maintient une performance supérieure face à d'autres attaques (CW, DeepFool, FGSM).
Ablation : Les études montrent que la taille du padding doit être modérée pour optimiser la restauration de l'attention sans détruire le contexte spatial, et que chaque composant (détection, minimisation d'entropie, ensemble) contribue significativement aux performances finales.

5. Signification et Impact

TTP représente une avancée significative pour la sécurité des VLMs :

Efficacité et Légereté : Il ne nécessite aucun réentraînement, ni accès aux données d'entraînement, ni modification de l'architecture du modèle. C'est une solution "plug-and-play".
Paradigme de Défense : Il valide l'approche "Détecter puis Adapter", démontrant qu'une séparation stricte entre données propres et adverses est cruciale pour optimiser simultanément la robustesse et la précision.
Applicabilité : En opérant directement dans l'espace des pixels via le padding, TTP offre une défense agnostique au modèle, applicable à n'importe quel VLM basé sur CLIP, ce qui en fait une solution pratique pour des déploiements réels dans des environnements sensibles.

En résumé, TTP résout le dilemme classique entre robustesse et précision en utilisant une astuce géométrique simple (le padding) pour identifier et corriger les attaques adverses de manière ciblée et efficace.