SCAM: A Real-World Typographic Robustness Evaluation for Multimodal Foundation Models

Ce papier présente SCAM, le plus vaste ensemble de données d'attaques typographiques réelles à ce jour, et démontre que ces attaques compromettent gravement les modèles multimodaux de pointe, tout en identifiant que l'utilisation de backbones de grands modèles de langage atténue cette vulnérabilité.

Justus Westerhoff, Erblina Purelku, Jakob Hackstein, Jonas Loos, Leo Pinetzki, Erik Rodner, Lorenz Hufe

Publié 2026-03-12
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ SCAM : Le grand test de résistance des "yeux-oreilles" de l'IA

Imaginez que vous avez un ami très intelligent, mais un peu naïf, qui a des yeux (pour voir les images) et un cerveau (pour lire le texte). C'est ce qu'on appelle un modèle multimodal (ou IA visuelle). Il est capable de reconnaître un chat sur une photo ou de décrire un paysage.

Mais cet ami a un défaut majeur : il est trop facile à tromper.

1. Le problème : L'arnaque par le texte

Les chercheurs ont découvert que si vous écrivez un mot mensonger sur une image, l'IA perd la tête.

  • L'exemple : Imaginez une photo d'une pendule (un réveil). Si vous collez un petit post-it jaune à côté avec écrit "TAXI" en gros, l'IA va dire : "Oh, c'est un taxi !" au lieu de dire "C'est une pendule".
  • Pourquoi ? L'IA est tellement habituée à lire le texte qu'elle fait confiance au mot "TAXI" plus qu'à l'image de la pendule. C'est comme si quelqu'un vous montrait une pomme et collait un autocollant "POULET" dessus, et que vous croyiez soudainement que c'est un poulet.

2. La solution : Le dataset SCAM (Subtle Character Attacks)

Jusqu'à présent, les chercheurs utilisaient de petits jeux de données pour tester cette faille, un peu comme tester la sécurité d'une maison avec seulement 10 serrures différentes. C'était insuffisant.

L'équipe a créé SCAM, la plus grande "boîte à outils" d'arnaque jamais conçue :

  • 1162 images réelles : Au lieu de générer des images par ordinateur, ils ont pris de vraies photos dans la vraie vie.
  • La méthode : Ils ont pris des objets (une pomme, une voiture, un chien), ont écrit un mot sans rapport dessus (ex: "avion" sur une pomme) avec un stylo sur un post-it, et ont pris la photo.
  • La diversité : Ils ont utilisé 9 personnes différentes, avec 9 téléphones différents, dans des cuisines, des rues, des magasins, avec des lumières variées. C'est le chaos organisé de la réalité.

Ils ont aussi créé deux versions "jumeaux" de chaque photo :

  1. SCAM : L'image avec le mot trompeur.
  2. NoSCAM : La même image, mais le post-it a été effacé (la version propre).
  3. SynthSCAM : Une version où le mot a été recollé numériquement (comme un Photoshop) pour voir si l'ordinateur peut simuler la vraie vie.

3. Les résultats : Qui résiste et qui tombe ?

Les chercheurs ont testé des dizaines d'intelligences artificielles (comme CLIP, GPT-4, LLaVA) avec cette boîte à outils. Voici ce qu'ils ont découvert :

  • La chute libre : La plupart des IA intelligentes ont vu leur performance s'effondrer. Là où elles étaient bonnes à 98%, elles sont tombées à 30% ou 40% dès qu'on leur montrait un post-it mensonger. C'est comme si un expert en sécurité perdait ses lunettes et voyait tout de travers.
  • La taille compte (mais pas seulement) :
    • Les petits modèles d'IA sont très fragiles.
    • Les très gros modèles (ceux avec un "cerveau" de langage énorme) résistent mieux. Ils semblent dire : "Attends, ce mot 'TAXI' ne colle pas avec l'image d'une pendule, je vais ignorer le post-it."
    • Cependant, même les géants comme GPT-4 ne sont pas invincibles. Ils sont juste moins naïfs.
  • Le mythe du faux : Une bonne nouvelle ! Les chercheurs ont prouvé que les attaques générées par ordinateur (SynthSCAM) fonctionnent exactement comme les vraies attaques manuelles. Cela signifie qu'on peut continuer à tester les IA avec des simulations informatiques sans avoir besoin de coller des post-it sur des milliers d'objets physiques.

4. Pourquoi est-ce important ?

C'est crucial pour notre sécurité future.

  • Voitures autonomes : Imaginez un panneau "STOP" sur lequel quelqu'un a écrit "ACCÉLÉREZ". Si la voiture ne fait pas la différence, c'est un accident.
  • Hôpitaux : Si une IA lit un rapport médical et voit un mot faux collé dessus, elle pourrait donner un mauvais diagnostic.

🎯 En résumé

L'article SCAM nous dit : "Nos IA sont très fortes, mais elles sont facilement manipulables par un simple mot écrit sur un post-it."

C'est comme si l'IA avait un super-pouvoir pour voir, mais qu'elle était hypnotisée par les mots écrits. Les chercheurs ont créé le plus grand catalogue d'hypnotiseurs possible pour apprendre aux IA à ne pas se faire avoir, et à devenir plus robustes pour le monde réel.

Ils ont rendu leur "boîte à outils" (les données et le code) gratuite pour que tout le monde puisse travailler à rendre ces robots plus intelligents et plus sûrs.