Laundering AI Authority with Adversarial Examples

Auteurs originaux : Jie Zhang, Pura Peetathawatchai, Florian Tramèr, Avital Shafran

Publié 2026-05-07

📖 5 min de lecture🧠 Analyse approfondie

Auteurs originaux : Jie Zhang, Pura Peetathawatchai, Florian Tramèr, Avital Shafran

Article original sous licence CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Ceci est une explication générée par l'IA de l'article ci-dessous. Elle n'a pas été rédigée ni approuvée par les auteurs. Pour une précision technique, consultez l'article original. Lire la clause de non-responsabilité complète

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous avez un bibliothécaire très intelligent et hautement fiable qui ne ment jamais. Vous lui faites entièrement confiance pour vous dire ce qu'il y a dans un livre, ce que représente un tableau, ou si un produit est bon. Vous supposez que si vous lui remettez une photo d'un chat, il vous dira : « C'est un chat. »

Ce papier révèle un tour effrayant : Vous pouvez tromper ce bibliothécaire pour qu'il voie un animal complètement différent, même si la photo vous semble exactement identique.

Les chercheurs appellent cela « le blanchiment de l'autorité de l'IA ». Voici comment cela fonctionne, décomposé en concepts simples :

L'astuce principale : le « filtre magique »

Imaginez que le modèle d'IA possède deux paires de lunettes différentes :

Vos lunettes : Quand vous regardez l'image, vous voyez une image normale (par exemple, un flacon de Tylenol).
Les lunettes de l'IA : L'IA voit une version cachée et légèrement altérée de cette image (par exemple, un flacon de médicament dangereux contre l'acné).

Les chercheurs ont trouvé un moyen d'ajouter un « bruit » invisible à une image — comme un léger grésillement statique imperceptible — qui modifie ce que l'IA voit, mais laisse l'image parfaitement normale aux yeux humains.

Pourquoi est-ce dangereux ? (La partie « blanchiment »)

Habituellement, quand nous nous inquiétons de l'IA, nous pensons à des gens qui tentent de la « faire jailbreaker » — la forcer à enfreindre ses règles ou à dire des méchancetés. Ce papier montre quelque chose de différent.

L'IA n'est pas forcée d'enfreindre les règles. Elle est trompée pour suivre ses règles parfaitement, mais à propos de la mauvaise chose.

Le scénario : Vous demandez à l'IA : « Ce médicament est-il sûr pour une femme enceinte ? »
L'astuce : Vous lui montrez une photo de Tylenol (sûr), mais les « lunettes » de l'IA lui font voir du Roaccutane (dangereux).
Le résultat : L'IA dit honnêtement et poliment : « Non, c'est dangereux ! » parce qu'elle pense regarder le médicament dangereux.
Le blanchiment : La réputation de l'IA d'être « honnête et sûre » est utilisée pour blanchir un mensonge. L'utilisateur fait confiance à l'autorité de l'IA, il croit donc le faux avertissement, même si l'IA fait simplement son travail sur une réalité falsifiée.

Qu'ont fait les chercheurs exactement ?

Ils ont testé cela sur les systèmes d'IA les plus avancés disponibles aujourd'hui (comme GPT-5.4, Claude, Gemini et Grok). Ils n'ont pas eu besoin d'inventer de nouveaux outils de piratage super complexes ; ils ont utilisé des techniques de base connues depuis plus d'une décennie.

Voici les quatre principales façons dont ils ont brisé la confiance :

Diffuser de fausses nouvelles (Le théoricien du complot) :
- Ils ont pris une photo célèbre de l'atterrissage sur la Lune ou des attaques du 11 septembre.
- Ils ont ajouté le « bruit » invisible.
- L'IA l'a regardé et a déclaré avec assurance : « Ce sont de fausses nouvelles » ou « Cet événement n'a jamais eu lieu », validant ainsi efficacement les théories du complot.
Souiller les noms des gens (Le voleur d'identité) :
- Ils ont pris une photo d'une célébrité (comme Elon Musk).
- Ils ont fait voir à l'IA une autre personne (comme un criminel ou une personne en surpoids).
- Lorsqu'on lui a demandé d'identifier la personne, l'IA a dit avec assurance : « C'est [Mauvaise Personne] », nuisant à la réputation de la vraie personne.
Contourner les filtres de sécurité (La carte « Sortie de prison gratuite ») :
- Les plateformes bloquent généralement l'IA pour qu'elle ne génère ou ne discute pas de contenu inapproprié (comme la nudité ou la violence).
- Les chercheurs ont pris une image « interdite » et ont fait voir à l'IA un jouet inoffensif (comme un ours en peluche).
- L'IA, pensant regarder un ours en peluche, a accepté joyeusement de traiter l'image ou de générer une version dessinée, contournant ainsi efficacement les garde-fous de sécurité.
Arnaquer les acheteurs (La fausse critique) :
- Ils ont montré à l'IA une photo d'une montre bon marché et de mauvaise qualité.
- Ils ont fait voir à l'IA une photo d'un Rolex cher.
- Lorsqu'on lui a demandé un conseil, l'IA a recommandé d'acheter la montre bon marché, pensant qu'il s'agissait de la marque de luxe.

La grande conclusion

La partie effrayante n'est pas que l'IA soit « cassée » ou « méchante ». La partie effrayante est que l'IA fonctionne exactement comme prévu. Elle est honnête, utile et sûre, mais elle regarde une réalité que l'attaquant a secrètement modifiée.

Parce que l'IA est si fiable, son erreur « honnête » devient une arme puissante. Le papier conclut que tant que nous ne pouvons pas corriger ce « point aveugle » dans la façon dont l'IA voit les images, nous devrions être très sceptiques à l'égard de toute IA qui prétend vérifier des images ou vérifier les faits dans le monde.

En bref : L'IA est comme un témoin très honnête dans une salle d'audience. Les chercheurs n'ont pas soudoyé le témoin ; ils ont simplement échangé la photo de preuve devant les yeux du témoin. Le témoin dit toujours la vérité, mais la vérité porte désormais sur la mauvaise photo.

Each language version is independently generated for its own context, not a direct translation.

Résumé technique : Blanchiment de l'autorité de l'IA par des exemples adverses

Définition du problème
L'article traite d'une vulnérabilité critique dans le déploiement des modèles vision-langage (VLM) en tant qu'« autorités de confiance » au sein des écosystèmes en ligne (par exemple, vérification des faits sur les réseaux sociaux, recommandation de produits, modération de contenu). Alors que les utilisateurs font implicitement confiance au fait que ces systèmes perçoivent le contenu visuel comme ils le font, les auteurs démontrent que des exemples adverses peuvent briser cette hypothèse. Ils introduisent un modèle de menace appelé blanchiment de l'autorité de l'IA : un attaquant perturbe subtilement une image afin que le VLM produise des réponses confiantes et autoritaires concernant une réalité sémantique choisie par l'attaquant, plutôt que l'image perçue par l'observateur humain.

Contrairement aux « jailbreaks » ou aux « injections de prompts », qui subvertissent l'alignement ou les instructions d'un modèle, le blanchiment de l'autorité opère entièrement au niveau perceptif. Le modèle reste « aligné » : il répond de manière utile, inoffensive et honnête à ce qu'il perçoit incorrectement. Par conséquent, les défenses standard basées sur l'alignement (ajustement fin de sécurité, entraînement au refus) sont inefficaces contre cette menace. Le problème central réside dans l'absence de robustesse aux attaques visuelles adverses dans les VLM de production.

Méthodologie
Les auteurs proposent un pipeline d'attaque en deux étapes pour approximer un « Oracle de perception » idéalisé, où un adversaire contrôle à la fois l'image vue par le modèle (cible) et l'image vue par l'observateur humain (source).

Étape 1 : Conception de l'attaque Oracle : L'adversaire sélectionne une image source ( $img_{src}$ ) qui apparaît bénigne à l'observateur et une image ou un concept cible ($target$) qui, lorsqu'ils sont traités par un VLM aligné, produisent une sortie adverse souhaitée (par exemple, un faux fait, une violation de politique rejetée). Cette étape définit l'objectif de l'attaque à travers quatre familles :
- Manipulation narrative : Induction de fausses affirmations sur des événements (par exemple, théories du complot).
- Manipulation d'identité : Mauvaise identification de personnalités publiques pour propager de la désinformation ou nuire à des réputations.
- Fraude commerciale : Manipulation des recommandations de produits.
- Évasion des filtres de sécurité : Contournement de la modération de contenu (NSFW, protections des personnalités publiques).
Étape 2 : Instantiation adverse : Les auteurs instancient l'oracle en utilisant des techniques adverses standard. Ils optimisent une seule image ( $img_{adv}$ ) pour minimiser la distance entre son embedding de l'encodeur visuel et l'embedding de la cible, sous réserve d'une contrainte qui la maintient proche de l'image source selon une norme $L_\infty$ ( $\|x - img_{src}\|_\infty \le \epsilon$ ).
- Transférabilité : L'attaque utilise une descente de gradient projetée (PGD) vanilla contre un ensemble de modèles CLIP publiquement disponibles (surrogates open-source).
- Cible en boîte noire : Ces perturbations sont transférées vers des VLM de production aux architectures et poids inconnus, notamment GPT 5.4, Claude Opus 4.6, Gemini 3 et Grok 4.2.
- Aucun algorithme nouveau : Les auteurs évitent délibérément les algorithmes d'attaque novateurs pour établir une borne inférieure sur la capacité de l'attaquant, démontrant que des techniques connues depuis plus d'une décennie suffisent.

Contributions clés

Définition du modèle de menace : Définit formellement le « blanchiment de l'autorité de l'IA », le distinguant des attaques brisant l'alignement en se concentrant sur les écarts perceptifs. Il catégorise les attaques en manipulation épistémique (désinformation) et blanchiment de conformité (évasion de filtres).
Évaluation systématique : Réalise des évaluations approfondies sur six VLM de production et sept études de cas, démontrant des vecteurs d'attaque pratiques aux conséquences étendues.
Démonstration d'une barrière d'attaque faible : Montre que des techniques adverses de base, hors rayon, contre des surrogates open-source suffisent à manipuler systématiquement les VLM de pointe, prouvant que la robustesse visuelle est un problème de sécurité pratique non résolu.

Résultats
Les auteurs rapportent des taux de réussite élevés sur quatre surfaces d'attaque :

Manipulation narrative : La perturbation d'images d'événements historiques (par exemple, Apollo 11, le 11 septembre) pour correspondre à l'embedding textuel de « fausses nouvelles » a amené des modèles comme ChatGPT 5.4 et Grok 4.2 à valider avec confiance des théories du complot. Les taux de réussite variaient de 22 % à 100 % selon les modèles.
Manipulation d'identité : Dans des attaques croisées d'identité (10 personnalités publiques, 90 paires adverses), les modèles ont échoué à identifier l'identité source dans 84 % à 96 % des cas. Le succès ciblé (identification de la cible choisie par l'attaquant) a atteint 54,4 % pour Grok 4.2. Ces manipulations se sont propagées avec succès vers des tâches en aval telles que la recherche d'image inversée et la génération d'images.
Évasion des filtres de sécurité :
- Évasion NSFW : La perturbation d'images explicites pour correspondre à l'embedding de jouets (poupées/ours) leur a permis de contourner les détecteurs commerciaux NSFW et d'être acceptées par des VLM de génération d'images (par exemple, GPT 5.4 Image 2) avec des taux d'acceptation de 70 à 100 %.
- Évasion asymétrique de la politique : La perturbation d'images de femmes pour correspondre à des embeddings masculins a permis de contourner les filtres de contenu spécifiques au genre (par exemple, demandes de retrait de vêtements) avec un succès de 81 %.
- Protections des personnalités publiques : La perturbation d'images de personnalités publiques pour correspondre à des visages générés par IA a contourné les mécanismes de refus dans 86 % des cas.
Fraude commerciale : La perturbation d'images de produits de mauvaise qualité pour correspondre à des marques haut de gamme (par exemple, une montre bon marché à un Rolex) a amené les VLM à inverser leurs recommandations d'achat, favorisant le produit de l'attaquant.

Signification et affirmations
L'article soutient que l'ère où les exemples adverses n'étaient que de « simples curiosités théoriques » est révolue. En déployant des VLM en tant qu'autorités de confiance, l'industrie a involontairement armé ces modèles pour amplifier la désinformation et contourner les protocoles de sécurité.

Problème de sécurité pratique : Les auteurs affirment que la robustesse aux attaques visuelles adverses est désormais un problème de sécurité critique et pratique. Le fait que des attaques simples et connues fonctionnent sur des modèles de pointe suggère que la menace est strictement plus grave que ce qui est actuellement compris.
Limites des défenses actuelles : Les défenses basées sur l'alignement sont rendues obsolètes car le modèle n'est pas « trompé » pour enfreindre les règles ; il est trompé pour honnêtement suivre les règles pour la mauvaise entrée.
Appel à l'action : L'article conclut que les sorties des VLM ne devraient pas être présentées comme autoritaires tant que la robustesse visuelle n'est pas résolue. Il appelle à :
- Interventions techniques : Une verbalisation explicite du raisonnement pour aider les utilisateurs à détecter les écarts.
- Réponses politiques : Limitation de la portée du contenu approuvé par l'IA, étiquetage des sorties potentiellement manipulées et réexamen de l'autorité accordée aux systèmes d'IA.
- Changement de recherche : Un passage de l'étude de modèles autonomes à la compréhension des attaques au sein d'écosystèmes réels où la perception et l'autorité s'intersectent.

Les auteurs soulignent qu'ils n'ont fait aucun effort pour minimiser la perceptibilité des perturbations (au-delà des contraintes standard $L_\infty$ ), suggérant que des attaques encore plus furtives et moins détectables sont probablement réalisables.

L'astuce principale : le « filtre magique »

Pourquoi est-ce dangereux ? (La partie « blanchiment »)

Qu'ont fait les chercheurs exactement ?

La grande conclusion

Résumé technique : Blanchiment de l'autorité de l'IA par des exemples adverses

Articles similaires