PromptGuard: Soft Prompt-Guided Unsafe Content Moderation for Text-to-Image Models

Ce papier présente PromptGuard, une méthode innovante de modération de contenu pour les modèles texte-à-image qui utilise des prompts souples optimisés pour supprimer efficacement les contenus non sûrs tout en préservant la qualité des images générées et en surpassant les méthodes existantes en rapidité.

Lingzhi Yuan, Xinfeng Li, Chejian Xu, Guanhong Tao, Xiaojun Jia, Yihao Huang, Wei Dong, Yang Liu, Xiaofeng Wang, Bo Li

Publié 2026-02-19
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

🎨 PromptGuard : Le "Filtre Invisible" pour l'IA qui dessine

Imaginez que vous avez un génie de la lampe magique (c'est l'IA de type "Text-to-Image", comme Stable Diffusion). Si vous lui demandez de dessiner un "chat mignon", il le fait. Mais si vous lui demandez quelque chose de dangereux ou de choquant (comme des scènes violentes ou pornographiques), ce génie, étant très obéissant, risque de le faire aussi. C'est là que le problème éthique se pose.

Les méthodes actuelles pour l'arrêter sont souvent lourdes : soit on rééduque le génie (ce qui prend du temps et peut le rendre moins doué pour les dessins normaux), soit on met un gardien devant lui qui lit chaque demande et bloque les mauvaises (ce qui est lent et peut être contourné).

PromptGuard propose une solution nouvelle, intelligente et rapide.

1. L'Analogie du "Chef d'Orchestre Silencieux" 🎻

Dans le monde des grands modèles de langage (comme ChatGPT), il existe un concept appelé "System Prompt" (invite système). C'est comme un petit mot secret que le développeur écrit pour le modèle : "Sois gentil, ne fais pas de mal, reste poli." Le modèle obéit à cette règle invisible tout au long de la conversation.

Le problème avec les générateurs d'images, c'est qu'ils n'ont pas cette "porte d'entrée" pour recevoir ce genre d'instructions. Ils pensent que tout ce qu'on leur dit est une demande directe de l'utilisateur.

PromptGuard a eu une idée brillante : créer un mot magique invisible.

Au lieu d'écrire une phrase longue, ils ont créé un "mot doux" (un soft prompt) qui n'existe que dans la langue mathématique de l'IA. C'est comme un chef d'orchestre silencieux qui se tient juste à côté du génie. Dès que le génie entend une demande, ce chef d'orchestre lui chuchote une instruction secrète : "Attends, si c'est dangereux, transforme-le en quelque chose de sûr."

2. Comment ça marche ? (La recette de cuisine) 🍳

Les chercheurs ont utilisé une stratégie en deux temps, qu'ils appellent "Diviser pour régner" :

  • Étape 1 : La spécialisation. Au lieu d'essayer de créer un seul mot magique pour tout arrêter (ce qui est difficile), ils en ont créé quatre spécialisés :
    • Un pour la violence (comme un bouclier).
    • Un pour le sexuel (comme un rideau).
    • Un pour le politique (comme un médiateur).
    • Un pour les choses effrayantes (comme un calmant).
  • Étape 2 : L'assemblage. Ils ont collé ces quatre "mots magiques" ensemble pour former un seul super-filtre.

Quand vous tapez une demande, ce super-filtre s'ajoute automatiquement à la fin de votre phrase, invisible pour vous, mais très puissant pour l'IA.

3. La Magie de l'Apprentissage (Le "SDEdit") 🖼️

Comment ont-ils appris à l'IA à utiliser ce filtre ? Ils ne l'ont pas punie. Ils lui ont montré des exemples :

  • Ils ont pris une image "dangereuse" (par exemple, une scène de combat sanglant).
  • Ils ont utilisé un outil pour modifier juste la partie dangereuse et la rendre sûre (transformer le sang en confettis, par exemple), tout en gardant le reste de l'image intact.
  • Ils ont dit à l'IA : "Quand tu vois ce mot magique, ne dessine pas le sang, dessine les confettis à la place."

C'est comme si on apprenait à un enfant à dessiner : au lieu de lui dire "Ne fais pas ça !", on lui montre comment transformer le dessin en quelque chose de joli.

4. Pourquoi c'est génial ? (Les avantages) 🚀

  • C'est ultra-rapide : Contrairement aux autres méthodes qui ajoutent un gardien qui vérifie tout (ce qui ralentit le processus), PromptGuard agit pendant que l'IA dessine. C'est comme si le génie de la lampe avait intégré la règle dans son cerveau : il ne perd pas de temps à réfléchir. C'est 3,8 fois plus rapide que les anciennes méthodes.
  • C'est précis : Il ne bloque pas tout. Si vous demandez un "cheval", il dessine un cheval. Si vous demandez un "cheval avec des cornes de diable", il dessine un cheval normal (il retire juste les cornes). Il ne gâche pas les demandes innocentes.
  • C'est robuste : Même si des pirates essaient de contourner le système en utilisant des mots bizarres ou des codes secrets, PromptGuard résiste très bien.

En résumé 🌟

PromptGuard, c'est comme donner à l'IA un super-pouvoir de transformation. Au lieu de lui dire "Non, tu ne peux pas faire ça", on lui donne un outil invisible qui transforme automatiquement les idées dangereuses en images sûres et belles, sans la ralentir et sans gâcher ses talents artistiques pour les choses normales.

C'est une approche élégante, légère et très efficace pour rendre l'IA générative plus sûre pour tout le monde.

Recevez des articles comme celui-ci dans votre boîte mail

Digests quotidiens ou hebdomadaires personnalisés selon vos intérêts. Résumés Gist ou techniques, dans votre langue.

Essayer Digest →