PromptGuard: Soft Prompt-Guided Unsafe Content Moderation for Text-to-Image Models

Each language version is independently generated for its own context, not a direct translation.

🎨 PromptGuard : Le "Filtre Invisible" pour l'IA qui dessine

Imaginez que vous avez un génie de la lampe magique (c'est l'IA de type "Text-to-Image", comme Stable Diffusion). Si vous lui demandez de dessiner un "chat mignon", il le fait. Mais si vous lui demandez quelque chose de dangereux ou de choquant (comme des scènes violentes ou pornographiques), ce génie, étant très obéissant, risque de le faire aussi. C'est là que le problème éthique se pose.

Les méthodes actuelles pour l'arrêter sont souvent lourdes : soit on rééduque le génie (ce qui prend du temps et peut le rendre moins doué pour les dessins normaux), soit on met un gardien devant lui qui lit chaque demande et bloque les mauvaises (ce qui est lent et peut être contourné).

PromptGuard propose une solution nouvelle, intelligente et rapide.

1. L'Analogie du "Chef d'Orchestre Silencieux" 🎻

Dans le monde des grands modèles de langage (comme ChatGPT), il existe un concept appelé "System Prompt" (invite système). C'est comme un petit mot secret que le développeur écrit pour le modèle : "Sois gentil, ne fais pas de mal, reste poli." Le modèle obéit à cette règle invisible tout au long de la conversation.

Le problème avec les générateurs d'images, c'est qu'ils n'ont pas cette "porte d'entrée" pour recevoir ce genre d'instructions. Ils pensent que tout ce qu'on leur dit est une demande directe de l'utilisateur.

PromptGuard a eu une idée brillante : créer un mot magique invisible.

Au lieu d'écrire une phrase longue, ils ont créé un "mot doux" (un soft prompt) qui n'existe que dans la langue mathématique de l'IA. C'est comme un chef d'orchestre silencieux qui se tient juste à côté du génie. Dès que le génie entend une demande, ce chef d'orchestre lui chuchote une instruction secrète : "Attends, si c'est dangereux, transforme-le en quelque chose de sûr."

2. Comment ça marche ? (La recette de cuisine) 🍳

Les chercheurs ont utilisé une stratégie en deux temps, qu'ils appellent "Diviser pour régner" :

Étape 1 : La spécialisation. Au lieu d'essayer de créer un seul mot magique pour tout arrêter (ce qui est difficile), ils en ont créé quatre spécialisés :
- Un pour la violence (comme un bouclier).
- Un pour le sexuel (comme un rideau).
- Un pour le politique (comme un médiateur).
- Un pour les choses effrayantes (comme un calmant).
Étape 2 : L'assemblage. Ils ont collé ces quatre "mots magiques" ensemble pour former un seul super-filtre.

Quand vous tapez une demande, ce super-filtre s'ajoute automatiquement à la fin de votre phrase, invisible pour vous, mais très puissant pour l'IA.

3. La Magie de l'Apprentissage (Le "SDEdit") 🖼️

Comment ont-ils appris à l'IA à utiliser ce filtre ? Ils ne l'ont pas punie. Ils lui ont montré des exemples :

Ils ont pris une image "dangereuse" (par exemple, une scène de combat sanglant).
Ils ont utilisé un outil pour modifier juste la partie dangereuse et la rendre sûre (transformer le sang en confettis, par exemple), tout en gardant le reste de l'image intact.
Ils ont dit à l'IA : "Quand tu vois ce mot magique, ne dessine pas le sang, dessine les confettis à la place."

C'est comme si on apprenait à un enfant à dessiner : au lieu de lui dire "Ne fais pas ça !", on lui montre comment transformer le dessin en quelque chose de joli.

4. Pourquoi c'est génial ? (Les avantages) 🚀

C'est ultra-rapide : Contrairement aux autres méthodes qui ajoutent un gardien qui vérifie tout (ce qui ralentit le processus), PromptGuard agit pendant que l'IA dessine. C'est comme si le génie de la lampe avait intégré la règle dans son cerveau : il ne perd pas de temps à réfléchir. C'est 3,8 fois plus rapide que les anciennes méthodes.
C'est précis : Il ne bloque pas tout. Si vous demandez un "cheval", il dessine un cheval. Si vous demandez un "cheval avec des cornes de diable", il dessine un cheval normal (il retire juste les cornes). Il ne gâche pas les demandes innocentes.
C'est robuste : Même si des pirates essaient de contourner le système en utilisant des mots bizarres ou des codes secrets, PromptGuard résiste très bien.

En résumé 🌟

PromptGuard, c'est comme donner à l'IA un super-pouvoir de transformation. Au lieu de lui dire "Non, tu ne peux pas faire ça", on lui donne un outil invisible qui transforme automatiquement les idées dangereuses en images sûres et belles, sans la ralentir et sans gâcher ses talents artistiques pour les choses normales.

C'est une approche élégante, légère et très efficace pour rendre l'IA générative plus sûre pour tout le monde.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles de génération d'images à partir de texte (T2I), tels que Stable Diffusion, ont démontré des performances remarquables mais sont vulnérables à la génération de contenu NSFW (Not Safe For Work), incluant des images sexuellement explicites, violentes, politiques ou perturbantes.
Les solutions de sécurité actuelles présentent des limites majeures :

Alignement du modèle (Fine-tuning) : Modifie directement les paramètres du modèle pour supprimer les concepts indésirables, mais cela dégrade souvent la qualité des images bénignes et nécessite un coût de calcul élevé.
Modération de contenu externe : Utilise des modèles de filtrage supplémentaires (pour le texte ou l'image) ou modifie les prompts via des LLM. Ces méthodes ajoutent une surcharge computationnelle, ralentissent l'inférence et peuvent bloquer ou flouter les sorties indésirables au lieu de les corriger.

Il existe un besoin urgent d'un cadre de modération efficace, robuste et léger qui préserve la qualité des images bénignes tout en neutralisant les entrées malveillantes sans modifier les paramètres du modèle de base.

2. Méthodologie : PromptGuard

L'idée centrale de PromptGuard s'inspire du mécanisme de « prompt système » utilisé dans les grands modèles de langage (LLMs) pour guider le comportement et la sécurité, un mécanisme qui n'existe pas nativement dans les modèles T2I.

A. Concept de Base : Le Soft Prompt

Au lieu d'ajouter un filtre externe, PromptGuard optimise un soft prompt (une séquence de tokens appris dans l'espace d'embedding continu) qui agit comme un « prompt système implicite ».

Ce soft prompt, noté $P^*$ , est un vecteur d'embedding trainable ajouté à la fin de n'importe quel prompt utilisateur.
Il fonctionne dans l'espace d'embedding du texte du modèle T2I pour orienter la génération vers des régions sûres de l'espace latent, sans altérer l'architecture du modèle ni son temps d'inférence.

B. Stratégie « Diviser pour Régner » (Divide-and-Conquer)

La nature diverse du contenu NSFW rend difficile la création d'un seul prompt universel. L'approche proposée :

Catégorisation : Le contenu NSFW est divisé en quatre catégories : Sexuellement explicite, Violent, Politique, Perturbant.
Optimisation individuelle : Un soft prompt spécifique est optimisé pour chaque catégorie.
Combinaison : Ces embeddings sont concaténés pour former un prompt composite universel appliqué à toutes les inférences.

C. Préparation des Données et Entraînement

Données Malveillantes : Collecte de prompts NSFW et génération d'images originales.
Transformation SDEdit : Utilisation de l'outil SDEdit pour transformer les images NSFW en versions « sûres » tout en préservant la structure globale (ex: transformer un homme nu en homme vêtu). Cela crée des paires (Prompt malveillant + Image NSFW) vs (Prompt malveillant + Image Sûre).
Données Bénignes : Prompts et images provenant du dataset COCO pour assurer que la sécurité ne dégrade pas la génération normale.

D. Fonction de Perte (Loss Function)

L'entraînement utilise une approche d'apprentissage contrastif avec deux objectifs :

Préservation Bénigne ( $L_b$ ) : Minimiser l'erreur de prédiction de bruit pour les prompts bénins afin de maintenir la fidélité à l'intention de l'utilisateur.
Modération Malveillante ( $L_m$ ) : Une fonction de perte contrastive qui force le modèle à prédire le bruit correspondant à l'image sûre (cible) plutôt qu'à l'image NSFW (source), tout en s'éloignant de la représentation visuelle de l'image NSFW.
- Un hyperparamètre $\lambda$ contrôle l'équilibre entre la suppression du contenu NSFW et la préservation de la qualité.

3. Contributions Clés

Nouvelle Technique : Première application du concept de « prompt système » aux modèles T2I via l'optimisation de soft prompts, permettant une modération légère et sans modification de paramètres.
Efficacité et Universalité : Une méthode qui fonctionne sur toutes les catégories NSFW sans nécessiter de modèles proxy ou de réentraînement du modèle de diffusion.
Robustesse Adversariale : Démonstration de la résistance face à des attaques avancées (SneakyPrompt, MMA-Diffusion) qui tentent de contourner les filtres existants.
Scalabilité : Capacité à intégrer de nouvelles catégories de danger (ex: auto-mutilation) simplement en ajoutant un nouvel embedding, sans réentraîner l'ensemble du système.

4. Résultats Expérimentaux

Les expériences ont été menées sur cinq datasets (I2P, NSFW-200, COCO, SneakyPrompt, MMA-Diffusion) et comparées à 8 méthodes de l'état de l'art (incluant UCE, SafeGen, SafetyFilter, SLD, POSI).

Efficacité de Modération : PromptGuard atteint le taux de contenu NSFW le plus bas (5,84 %) en moyenne, surpassant toutes les méthodes de référence. Il réduit le taux de contenu sexuellement explicite de 71,17 % (SDv1.4) à 1,50 %.
Préservation du Contenu Bénin : Il maintient des scores CLIP élevés (25,96) et des scores LPIPS faibles, indiquant une excellente fidélité aux prompts bénins, surpassant la plupart des méthodes d'alignement qui dégradent la qualité.
Efficacité Temporelle : PromptGuard est 3,8 fois plus rapide que les méthodes de modération précédentes (comme POSI ou SLD) car il n'ajoute aucune étape de calcul supplémentaire (pas de modèle de filtrage externe, pas de modification du processus de diffusion).
Robustesse : Sous des attaques adversaires (SneakyPrompt, MMA-Diffusion), PromptGuard maintient un taux NSFW moyen de 2,35 %, bien inférieur aux autres méthodes.
Qualité Visuelle : Contrairement aux filtres qui noircissent ou floutent les images, PromptGuard génère des images réalistes et sûres (ex: un homme vêtu au lieu d'un homme nu).

5. Signification et Impact

PromptGuard représente une avancée significative dans la sécurité des modèles génératifs :

Paradigme de Sécurité : Il déplace la sécurité du niveau de filtrage post-hoc ou de réentraînement coûteux vers un mécanisme d'orientation interne léger (soft prompt).
Adoption Pratique : Sa nature « plug-and-play » (ajout d'un vecteur d'embedding) et son absence de surcharge computationnelle le rendent idéal pour le déploiement dans des services commerciaux à grande échelle.
Évolutivité : La modularité de l'approche permet une adaptation rapide aux nouvelles menaces de sécurité sans refondre l'infrastructure de sécurité.

En résumé, PromptGuard offre une solution robuste, rapide et de haute qualité pour aligner les modèles T2I sur des normes éthiques, comblant le fossé entre la sécurité stricte et la génération créative utile.