Conditioned Activation Transport for T2I Safety Steering

Each language version is independently generated for its own context, not a direct translation.

🎨 Le Problème : Le Peintre Trop Zélé

Imaginez que vous avez un peintre génie (l'intelligence artificielle) capable de créer des tableaux magnifiques à partir de simples descriptions. C'est formidable, mais ce peintre a un défaut : il est parfois trop créatif et peut peindre des scènes effrayantes, violentes ou inappropriées si vous lui donnez une mauvaise instruction.

Pour l'arrêter, les chercheurs ont essayé deux méthodes classiques :

Le filtre de sécurité (Post-filtrage) : C'est comme un gardien qui regarde le tableau une fois fini. S'il est moche, il le jette à la poubelle. Mais cela ne change pas le processus de création, et le peintre continue d'essayer de faire des choses interdites.
Le "Guidage Linéaire" (Les méthodes actuelles) : C'est comme donner un coup de coude constant au peintre pour le pousser dans une direction "sûre". Le problème ? Ce coup de coude est toujours là, même quand le peintre dessine quelque chose de très innocent (comme un chaton). Résultat : le chaton devient déformé, flou ou bizarre. On a sauvé la sécurité, mais on a gâché la beauté de l'œuvre.

🚀 La Solution : Le "Transport d'Activation Conditionné" (CAT)

Les auteurs de ce papier proposent une nouvelle méthode appelée CAT (Conditioned Activation Transport). Pour comprendre comment ça marche, utilisons une analogie avec un conducteur de voiture autonome.

1. La Carte des "Zones Dangereuses" (Le Dataset SafeSteer)

Avant de conduire, il faut savoir où sont les pièges. Les chercheurs ont créé une immense carte (un jeu de données) contenant 2 300 paires d'images :

Une image sûre (ex: "Une femme en maillot de bain sur la plage").
Une image dangereuse mais très similaire (ex: "Une femme nue sur la plage").

L'objectif est de montrer à la voiture exactement où se trouve la frontière fine entre "sûr" et "dangereux", sans changer le reste du paysage.

2. Le GPS Intelligent (Le Transport Non-Linéaire)

Les anciennes méthodes utilisaient une règle simple : "Si tu vois un danger, tourne de 10 degrés à gauche". C'est trop rigide. Parfois, le danger est un peu plus loin, ou dans une autre direction.

La méthode CAT utilise un GPS intelligent (un réseau de neurones complexe) qui apprend la forme exacte des "zones de danger". Au lieu de pousser la voiture tout le temps, il apprend à replier l'espace pour contourner les pièges de manière précise, comme un nageur qui contourne un rocher sans sortir de l'eau.

3. Le Frein à Main Automatique (La Conditionnement)

C'est la partie la plus importante !

Les anciennes méthodes appuyaient sur le frein (ou le volant) dès que le moteur tournait, même sur une route libre. Cela cassait la voiture (l'image devenait moche).
La méthode CAT a un capteur de danger. Elle ne touche au volant QUE si le capteur détecte que la voiture est exactement sur le point de tomber dans un précipice.
- Si vous demandez un paysage de montagne ? Le système ne fait rien. La voiture roule normalement, l'image est parfaite.
- Si vous demandez une scène violente ? Le système détecte le danger, active le frein intelligent et redirige la voiture vers la sécurité, tout en gardant le trajet fluide.

🌟 Les Résultats : Pourquoi c'est génial ?

Les chercheurs ont testé cette méthode sur deux des meilleurs "peintres" actuels (Z-Image et Infinity). Voici ce qu'ils ont découvert :

Moins de "casse" : Contrairement aux anciennes méthodes qui gâchaient les images innocentes (comme transformer un chat en monstre flou), CAT laisse les images sûres intactes. La qualité reste excellente.
Plus de sécurité : Elle bloque beaucoup mieux les images dangereuses. Là où les anciennes méthodes échouaient parfois (le peintre trouvait un moyen de contourner la règle), CAT est beaucoup plus précise.
Polyvalence : Ça marche aussi bien sur les modèles qui génèrent des images par étapes (comme un sculpteur) que sur ceux qui les génèrent mot par mot (comme un écrivain).

En Résumé

Imaginez un gardien de sécurité très intelligent dans un musée d'art.

L'ancien gardien criait "STOP !" à tout le monde, même aux enfants qui regardaient des dessins d'animaux, ce qui gâchait l'expérience.
Le nouveau gardien (CAT) observe silencieusement. Il ne bouge que si quelqu'un essaie de peindre un tableau illégal. Dès qu'il détecte le danger, il intervient avec une précision chirurgicale pour corriger le coup de pinceau, sans jamais toucher aux œuvres innocentes.

C'est une avancée majeure pour rendre l'IA générative plus sûre sans sacrifier sa créativité ni sa qualité.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles de génération d'images à partir de texte (T2I), tels que les modèles de diffusion et les modèles auto-régressifs, possèdent des capacités impressionnantes mais restent vulnérables à la génération de contenu toxique, dangereux ou illégal. Bien que des méthodes d'intervention au moment de l'inférence, comme le pilotage d'activation (activation steering), aient été proposées pour corriger ce comportement, elles présentent un compromis majeur :

Les approches linéaires existantes (ex: Activation Addition, Linear-ACT) réduisent souvent la toxicité mais dégradent considérablement la qualité des images générées à partir de prompts bénins.
Ces méthodes supposent souvent que les concepts de sécurité sont séparables linéairement dans l'espace latent, ce qui est une hypothèse incorrecte pour des manifolds de données complexes et non convexes.
Il manque de jeux de données contrastifs (paires de prompts sûrs et dangereux sémantiquement proches) pour isoler précisément les directions de toxicité sans introduire de dérive sémantique.

2. Méthodologie : Conditioned Activation Transport (CAT)

Les auteurs proposent CAT, un cadre d'intervention au moment de l'inférence conçu pour naviguer dans la géométrie complexe des espaces latents sans détruire la fidélité de l'image.

A. Construction du Dataset : SafeSteerDataset

Pour entraîner des cartes de transport précises, les auteurs ont créé SafeSteerDataset, un jeu de données contrastif contenant 2300 paires de prompts (sûrs vs dangereux).

Taxonomie : Les données couvrent 6 catégories de haut risque (Haine, Violence, Sexualité, Activités illégales, Humiliation, Contenu perturbant) divisées en 23 sous-catégories.
Sélectivité : Les paires sont générées pour être sémantiquement très proches (cosine similarity > 0.7), garantissant que la différence entre les deux prompts réside uniquement dans l'élément toxique. Cela permet d'isoler le "manifold de toxicité" sans bruit sémantique.

B. Architecture CAT

Le cadre CAT décompose le pilotage en deux composants principaux appliqués aux activations moyennes des couches du modèle :

Carte de Transport Non-Linéaire ( $T_\theta$ ) :
- Contrairement aux méthodes linéaires qui appliquent un vecteur de translation constant, CAT utilise un MLP (Perceptron Multicouche) pour apprendre une transformation non-linéaire.
- Cette carte projette les activations issues de la région "dangereuse" vers le manifold "sûr".
- L'entraînement utilise une fonction de perte double : aligner les échantillons toxiques vers la cible sûre tout en pénalisant toute modification des échantillons déjà sûrs (régularisation d'identité).
Conditionnement Géométrique ( $C$ ) :
- Pour éviter d'altérer les images bénignes, le pilotage n'est activé que si l'activation courante est détectée comme appartenant à la région toxique.
- Les auteurs proposent des stratégies de conditionnement basées sur la distance de Mahalanobis (estimation de la matrice de précision régularisée pour gérer la haute dimensionnalité).
- Deux variantes sont testées : une approche probabiliste (discriminant linéaire) et une approche de modélisation hors-distribution (OOD), qui définit une frontière ellipsoïdale stricte autour du concept toxique.

La formule de pilotage est :
$z' = z + \alpha \cdot C(\bar{z}) \cdot (T_\theta(\bar{z}) - \bar{z})$
Où $\alpha$ est la force du pilotage et $C(\bar{z})$ est un masque binaire (0 ou 1) déterminé par la géométrie.

3. Contributions Clés

SafeSteerDataset : La première ressource de données contrastives à haute fidélité sémantique spécifiquement conçue pour le pilotage d'activation en T2I.
CAT (Conditioned Activation Transport) : Une méthode novatrice combinant des cartes de transport non-linéaires (MLP) et un conditionnement géométrique basé sur la distance de Mahalanobis. Cela permet de modéliser des manifolds de sécurité complexes (non convexes, multimodaux) là où les méthodes linéaires échouent.
Validation Multi-Architectures : La première validation complète de techniques de pilotage de sécurité sur deux architectures de pointe distinctes : Z-Image (basé sur un Diffusion Transformer à flux unique) et Infinity (modèle auto-régressif haute résolution).

4. Résultats Expérimentaux

Les expériences ont été menées sur les modèles Z-Image et Infinity, évalués via le taux de réussite de l'attaque (ASR) et la qualité de l'image (Score CLIP).

Performance de Sécurité : CAT réduit considérablement le taux de réussite des attaques (ASR). Par exemple, sur Z-Image, l'ASR passe de 33,91 % (sans pilotage) à 6,96 % avec CAT.
Préservation de la Qualité : Contrairement aux méthodes linéaires (comme Linear-ACT) qui peuvent réduire l'ASR à 0 % mais détruisent la qualité de l'image (Score CLIP chutant à ~0,16, rendant l'image illisible), CAT maintient un score CLIP élevé (0,33), préservant la fidélité sémantique et visuelle.
Supériorité sur les Méthodes Linéaires : Les résultats montrent que les méthodes linéaires échouent même sur des catégories uniques (comme le contenu sexuel) car elles ne peuvent pas modéliser la géométrie non-linéaire des données. CAT réussit à éliminer le contenu toxique sans dégrader l'image.
Pilotage Multimodal : Le pilotage simultané des encodeurs de texte et des backbones de vision s'avère synergique et nécessaire pour une sécurité optimale.

5. Signification et Impact

Ce travail démontre que la sécurité dans les modèles de génération d'images est un problème géométriquement complexe qui ne peut être résolu par de simples translations linéaires dans l'espace latent.

Avancée Théorique : Il prouve que l'utilisation de transport optimal non-linéaire couplé à un conditionnement géométrique précis permet de naviguer dans les espaces latents sans sacrifier la qualité générative.
Impact Pratique : CAT offre une solution d'inférence temps réel, efficace et généralisable, qui ne nécessite pas de réentraînement coûteux du modèle (fine-tuning).
Ressource Ouverte : La publication du dataset SafeSteerDataset et du code source favorise la reproductibilité et le développement futur de mécanismes de sécurité plus robustes pour l'IA générative.

En résumé, CAT résout le compromis traditionnel entre sécurité et qualité en traitant la toxicité non pas comme une simple direction vectorielle, mais comme une structure géométrique complexe nécessitant une transformation conditionnelle et non-linéaire.