Conditioned Activation Transport for T2I Safety Steering

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen genialen, aber etwas ungestümen Künstler namens KI. Dieser Künstler kann auf einen einfachen Befehl hin (z. B. „Male einen Hund") wunderschöne Bilder erschaffen. Das Problem ist: Manchmal ist dieser Künstler zu kreativ und fügt Dinge hinzu, die gar nicht hingehören – wie ein Messer in der Hand des Hundes oder ein hässliches Symbol auf seiner Stirn. Das wollen wir verhindern.

Bisher gab es zwei Hauptprobleme beim Versuch, diesen Künstler zu zähmen:

Der „Stumpfe Hammer"-Ansatz: Frühere Methoden haben versucht, den Künstler einfach zu „korrigieren", indem sie ihm einen festen Schub in eine bestimmte Richtung gaben. Das funktionierte zwar für die bösen Bilder, aber es hat auch die guten Bilder ruiniert. Ein harmloser Befehl wie „Sonnenuntergang" wurde plötzlich zu einem grauen, unkenntlichen Matsch. Es war, als würdest du versuchen, einen Schmutzfleck von einem weißen T-Shirt zu entfernen, indem du das ganze T-Shirt mit Sandpapier abreibst.
Die „Schwarze Kiste": Die KI denkt in sehr komplexen, gekrümmten Räumen (man nennt das „Manifolds"). Einfache, gerade Linien (wie bei alten Methoden) reichen nicht aus, um diese Kurven zu verstehen.

Die Lösung: CAT (Conditioned Activation Transport)

Die Autoren dieses Papers haben eine neue Methode namens CAT entwickelt. Man kann sich das wie einen intelligenten, taktvollen Sicherheitschef vorstellen, der den Künstler überwacht.

Hier ist, wie CAT funktioniert, aufgeteilt in drei einfache Schritte:

1. Der perfekte Vergleich (SafeSteerDataset)

Bevor der Sicherheitschef arbeiten kann, braucht er eine Liste von „Was ist okay" und „Was ist nicht okay".

Das Problem: Bisherige Listen waren oft ungenau. Ein Bild von einem „Hund" und ein Bild von einem „blutigen Hund" sind zu unterschiedlich.
Die Lösung: Die Autoren haben eine riesige Datenbank (SafeSteerDataset) erstellt. Sie bestehen aus Paaren, die sich fast identisch sehen, aber einen winzigen, entscheidenden Unterschied haben.
- Beispiel: Ein Bild von einem Mann, der ein Tattoo mit einem Spinnennetz hat (okay).
- Gegenstück: Ein Bild von einem Mann, der ein Tattoo mit einem Spinnennetz hat, und einem Hakenkreuz in der Mitte (nicht okay).
- Da sich die Bilder fast gleichen, weiß die KI genau, wo der „Gefahrenbereich" liegt, ohne das ganze Bild zu zerstören.

2. Der intelligente Sicherheitschef (Geometrie-basierte Bedingung)

Frühere Methoden haben den Künstler ständig korrigiert, egal ob er gerade etwas Böses malte oder etwas Harmloses. Das führte zu den schlechten Ergebnissen.

Die CAT-Methode: Der Sicherheitschef schaut sich genau an, was der Künstler gerade im Kopf hat.
- Wenn der Künstler gerade einen harmlosen Sonnenuntergang malt, sagt der Chef: „Alles klar, mach weiter! Ich greife nicht ein."
- Wenn der Künstler jedoch beginnt, Gedanken zu entwickeln, die in die Nähe des „Gefahrenbereichs" (wie Gewalt oder Hass) rutschen, sagt der Chef: „Stopp! Hier ist es gefährlich. Ich muss jetzt eingreifen."
Die Analogie: Stell dir vor, du fährst Auto. Ein alter Sicherheitsgurt zieht dich bei jedem kleinen Ruck fest. CAT ist wie ein moderner Airbag: Er aktiviert sich nur, wenn ein echter Unfall droht. Wenn du nur über eine kleine Unebenheit fährst, bleibt er aus.

3. Der geschickte Kurvenlenker (Nicht-lineare Transport-Karte)

Das ist der technischste, aber wichtigste Teil.

Das Problem: Die Gedanken der KI sind nicht wie eine gerade Straße. Sie sind wie ein verschlungener, gekrümmter Pfad in einem dichten Wald. Wenn man versucht, den Pfad gerade zu machen (wie bei alten Methoden), verlässt man den Wald komplett und landet im Nichts (das Bild wird kaputt).
Die CAT-Lösung: CAT benutzt eine Art 3D-Gummimatte. Wenn die KI auf einen „bösen" Gedanken zuläuft, zieht diese Matte den Gedanken sanft auf den „guten" Pfad zurück, ohne den Pfad zu verzerren.
- Es ist, als würdest du einen Fluss umlenken, der gerade in einen Wasserfall stürzt. Du baust keine gerade Mauer (die den Fluss stauen würde), sondern einen sanften Damm, der das Wasser geschmeidig in eine sichere Richtung leitet.

Das Ergebnis

In Tests mit zwei der modernsten KI-Modelle (Z-Image und Infinity) hat CAT gezeigt, dass es:

Gefährliche Bilder fast vollständig blockiert (die KI macht keine Hakenkreuze oder blutigen Szenen mehr).
Harmlose Bilder perfekt erhält (ein Sonnenuntergang sieht immer noch aus wie ein Sonnenuntergang, nicht wie ein grauer Matsch).

Zusammenfassend:
Die Autoren haben einen Weg gefunden, KI nicht mit einem stumpfen Hammer zu zähmen, sondern mit einem chirurgischen Skalpell. Sie haben eine Datenbank mit fast identischen Bildern erstellt, um die Gefahrenzone genau zu kartieren, und dann einen intelligenten Mechanismus entwickelt, der nur dann eingreift, wenn es wirklich nötig ist – und das auf eine Weise, die die komplexen Kurven des KI-Gedächtnisses respektiert. Das Ergebnis ist eine KI, die sicherer ist, ohne ihre Kreativität zu verlieren.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Text-to-Image (T2I)-Modelle sind trotz ihrer beeindruckenden Generierungsfähigkeiten anfällig für die Erzeugung unsicherer und toxischer Inhalte. Bestehende Sicherheitsmechanismen wie Nachbearbeitungsfilter oder Trainings-basierte Methoden (z. B. Konzept-Erasure) haben erhebliche Nachteile: Sie sind oft architektur-spezifisch, rechenintensiv oder führen zu einer „Illusion des Vergessens", bei der toxische Konzepte latent weiterexistieren.

Ein vielversprechender Ansatz ist das Activation Steering (Aktivierungssteuerung) zur Laufzeit (Inference-Time). Allerdings zeigen bestehende lineare Methoden (wie Activation Addition oder Linear-ACT) einen kritischen Zielkonflikt:

Sie reduzieren zwar die Toxizität, führen aber oft zu einer starken Verschlechterung der Bildqualität bei harmlosen (benignen) Prompts.
Die Annahme, dass Sicherheitsmanifolds (Mannigfaltigkeiten) linear trennbar sind, trifft auf komplexe T2I-Modelle oft nicht zu.
Globale Eingriffe stören die semantische Kohärenz und die visuelle Fidelity, da sie auch auf sichere Eingaben angewendet werden.

2. Methodik: Conditioned Activation Transport (CAT)

Die Autoren schlagen Conditioned Activation Transport (CAT) vor, ein Framework, das die Sicherheit erhöht, ohne die Bildqualität zu beeinträchtigen. CAT besteht aus zwei Hauptkomponenten:

A. SafeSteerDataset (Datengrundlage)

Um präzise Steuerungsvektoren zu lernen, benötigen die Autoren ein Dataset, das semantisch eng verwandte Paare aus sicheren und unsicheren Prompts enthält.

Aufbau: Das Dataset enthält 2.300 Paare, unterteilt in 23 Subkategorien (z. B. Hass, Gewalt, Sexualität, illegale Aktivitäten).
Filterung: Die Paare wurden so gefiltert, dass sie eine hohe kosinussähnlichkeit (> 0,7) aufweisen, um sicherzustellen, dass der Unterschied nur im toxischen Aspekt liegt und nicht in der allgemeinen Semantik. Dies ermöglicht die Isolierung des „toxischen Manifold" ohne semantischen Drift.

B. Der CAT-Algorithmus

CAT modifiziert die internen Aktivierungen des Modells während der Generierung. Die Formel für die gesteuerte Aktivierung $z'$ lautet:
$z' = z + \alpha \cdot C(\bar{z}) \cdot (T_\theta(\bar{z}) - \bar{z})$
Dabei ist:

$\bar{z}$ : Die gemittelte Aktivierung (Mean-Pooling) der Tokens.
$\alpha$ : Die Stärke der Steuerung.
$T_\theta$ : Eine nicht-lineare Transportkarte (basierend auf einem MLP), die unsichere Aktivierungen auf den sicheren Manifold abbildet.
$C(\bar{z})$ : Eine Bedingungsmaske (Conditioning), die entscheidet, ob die Steuerung angewendet wird.

Schlüsselinnovationen:

Nicht-lineare Transportkarten: Im Gegensatz zu linearen Methoden (die nur Skalierung oder Translation erlauben) nutzt CAT ein Multi-Layer Perceptron (MLP), um komplexe, nicht-konvexe Geometrien und multimodale Cluster in den Aktivierungsraum zu transformieren. Dies wird durch eine regularisierte Verlustfunktion trainiert, die sicherstellt, dass sichere Eingaben als Identitätsabbildung ( $T(z)=z$ ) behandelt werden.
Geometrie-bewusste Bedingung (Conditioning): Um Eingriffe bei harmlosen Prompts zu vermeiden, wird die Steuerung nur aktiviert, wenn die aktuelle Aktivierung innerhalb eines definierten „unsicheren" Bereichs liegt.
- Statt einfacher Bounding Boxes (Min-Max) nutzen die Autoren die Mahalanobis-Distanz.
- Sie behandeln unsichere Beispiele als Hintergrund und sichere als Out-of-Distribution (OOD). Die Maske $C$ aktiviert nur, wenn die Distanz zum unsicheren Zentrum unter einem bestimmten Schwellenwert liegt. Dies erzeugt eine ellipsoide Entscheidungsgrenze, die der Kovarianzstruktur des toxischen Konzepts folgt.

3. Wichtige Beiträge

SafeSteerDataset: Die Erstellung eines hochpräzisen, kontrastiven Datensatzes mit semantisch ausgerichteten Paaren, der die Isolierung toxischer Aktivierungsmanifolds ermöglicht.
CAT-Framework: Die Einführung einer Methode, die nicht-lineare Transportmaps mit einer geometrischen Bedingung kombiniert, um das Trade-off zwischen Sicherheit und Bildqualität zu lösen.
Umfassende Validierung: Die erste breite Evaluation auf zwei unterschiedlichen State-of-the-Art-Architekturen: Z-Image (Diffusion Transformer) und Infinity (Autoregressives Modell).

4. Ergebnisse

Die Experimente zeigen, dass CAT bestehende Methoden deutlich übertrifft:

Sicherheit vs. Qualität:
- Lineare Baselines (ActAdd, Linear-ACT): Erreichen oft eine hohe Sicherheit (niedrige Attack Success Rate, ASR), führen aber zu einem massiven Einbruch der Bildqualität (niedriger CLIP-Score). Die Bilder werden oft unerkennbar oder verzerrt, da die linearen Methoden den natürlichen Bild-Manifold verlassen.
- CAT: Reduziert die ASR signifikant (z. B. bei Z-Image von 33,91 % auf 6,96 %), behält aber einen hohen CLIP-Score (0,33) bei, was bedeutet, dass die Bilder semantisch korrekt und visuell hochwertig bleiben.
Geometrische Überlegenheit: Auf synthetischen Daten (z. B. „The Moon" oder „Multi-Modal XOR") scheitern lineare Methoden daran, komplexe Topologien korrekt zu transformieren (sie kollabieren Varianzen oder verteilen Cluster falsch). CAT (MLP) kann diese nicht-linearen Strukturen erfolgreich abbilden.
Modale Steuerung: Die beste Leistung wird erzielt, wenn sowohl der Text-Encoder als auch der Vision-Backbone gleichzeitig gesteuert werden, was auf eine multimodale Kodierung von Sicherheitskonzepten hindeutet.
Feingranulare Sicherheit: Selbst bei Fokussierung auf eine einzelne Kategorie (z. B. „Sexualität") versagen lineare Methoden ohne Qualitätsverlust, während CAT die spezifischen Konzepte präzise entfernt.

5. Bedeutung und Fazit

Das Paper demonstriert, dass Sicherheitssteuerung in T2I-Modellen kein einfaches lineares Problem ist, sondern eine komplexe geometrische Herausforderung darstellt.

Paradigmenwechsel: CAT beweist, dass durch nicht-lineare Transformationen und kontextsensitive Bedingung (nur bei Unsicherheit eingreifen) eine hohe Sicherheit erreicht werden kann, ohne die generativen Fähigkeiten des Modells für harmlose Anfragen zu beeinträchtigen.
Reproduzierbarkeit: Die Autoren stellen das SafeSteerDataset und den Code als Open-Source-Ressource bereit, um die Forschung im Bereich der T2I-Sicherheit voranzutreiben.
Limitationen: Wie bei allen Inference-Time-Methoden besteht das Risiko, dass das System durch Distribution Shifts oder adaptive Prompts umgangen werden kann. Zudem basiert die Evaluation auf automatisierten Sicherheits-Judges (ShieldGemma) statt auf menschlicher Annotation.

Zusammenfassend bietet CAT einen robusten, architekturübergreifenden Ansatz, der die Lücke zwischen effektiver Sicherheitsfilterung und der Erhaltung der kreativen Qualität von KI-generierten Bildern schließt.

Conditioned Activation Transport for T2I Safety Steering

Die Lösung: CAT (Conditioned Activation Transport)

1. Der perfekte Vergleich (SafeSteerDataset)

2. Der intelligente Sicherheitschef (Geometrie-basierte Bedingung)

3. Der geschickte Kurvenlenker (Nicht-lineare Transport-Karte)

Das Ergebnis

1. Problemstellung

2. Methodik: Conditioned Activation Transport (CAT)

A. SafeSteerDataset (Datengrundlage)

B. Der CAT-Algorithmus

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence

When Is Collective Intelligence a Lottery? Multi-Agent Scaling Laws for Memetic Drift in LLMs

AutoSAM: an Agentic Framework for Automating Input File Generation for the SAM Code with Multi-Modal Retrieval-Augmented Generation

Trust as Monitoring: Evolutionary Dynamics of User Trust and AI Developer Behaviour

Formal Semantics for Agentic Tool Protocols: A Process Calculus Approach