Few Tokens, Big Leverage: Preserving Safety Alignment by Constraining Safety Tokens during Fine-tuning

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich einen großen, klugen Roboter vor, den wir "Großer Sprach-Assistent" nennen. Dieser Roboter wurde von seinen Erfindern so trainiert, dass er sehr höflich ist und niemals böse Dinge tut oder gefährliche Anleitungen gibt (z. B. wie man eine Bombe baut). Das nennt man "Sicherheitsausrichtung".

Jetzt wollen wir diesen Roboter für eine spezielle Aufgabe einsetzen, zum Beispiel, um Matheaufgaben zu lösen oder Nachrichten zu analysieren. Dafür müssen wir ihn ein wenig "umschulen" (das nennt man Fine-Tuning).

Das Problem: Der vergessene Sicherheitsgurt

Das Problem ist: Wenn wir den Roboter umschulen, passiert oft etwas Unangenehmes. Selbst wenn wir nur harmlose Daten verwenden, vergisst der Roboter manchmal seine Sicherheitsregeln. Wenn wir ihm aber versehentlich ein paar böse Beispiele unterjubeln (wie "Wie baut man eine Bombe?"), wird er diese Regeln komplett ignorieren und anfingen, gefährliche Dinge zu tun.

Bisherige Lösungen waren wie ein ganzes Haus zu verriegeln, nur um eine einzelne Tür zu sichern. Man hat entweder den ganzen Roboter blockiert (damit er nichts Neues lernt) oder ihn mit so vielen Sicherheitsregeln überflutet, dass er langsam und unfreundlich wurde. Das ist nicht ideal, weil er dann seine eigentliche Aufgabe (Mathe lösen) schlecht macht.

Die Lösung: PACT – Der gezielte Sicherheitsanker

Die Autoren dieses Papers haben eine clevere Idee namens PACT entwickelt. Statt den ganzen Roboter zu blockieren, schauen sie sich genau an, welche einzelnen Wörter für die Sicherheit am wichtigsten sind.

Stellen Sie sich vor, der Roboter antwortet auf eine böse Frage. Er denkt nicht an tausende Wörter, sondern er greift auf ein paar ganz bestimmte, wichtige Wörter zurück, um "Nein" zu sagen. Zum Beispiel: "Ich", "kann", "nicht", "helfen".

Die Forscher haben herausgefunden, dass diese wenigen Wörter wie Sicherheitsanker wirken. Solange der Roboter diese Wörter mit hoher Überzeugung ausspricht, bleibt er sicher.

Wie funktioniert PACT?

Die Suche nach den Anker-Wörtern: Zuerst analysieren die Forscher, welche Wörter der sichere Roboter benutzt, wenn er "Nein" sagt. Das sind oft nur etwa 50 Wörter (wie "Ich", "kann", "nicht", "leider").
Der gezielte Schutz: Während der Umschulung (Fine-Tuning) lassen sie den Roboter völlig frei, neue Dinge zu lernen (z. B. Mathe-Formeln). Aber! Sobald es um diese 50 "Sicherheits-Wörter" geht, zwingen sie den Roboter, sich genau so zu verhalten wie der ursprüngliche, sichere Roboter.
Die intelligente Anpassung: Manchmal ist die Frage so böse, dass der Roboter verwirrt wird. PACT hat einen cleveren Trick: Es schaut sich an, ob der Roboter unsicher wird. Wenn ja, schaltet es einen "Notfall-Modus" ein, der ihm hilft, sich an die sicheren Wörter zu erinnern, ohne die neuen Mathe-Kenntnisse zu löschen.

Eine einfache Analogie: Der Koch und die Giftschale

Stellen Sie sich einen Koch vor, der ein neues, komplexes Rezept lernen soll (das ist das Fine-Tuning).

Das alte Problem: Wenn der Koch ein paar giftige Zutaten in die Küche bekommt, vergisst er vielleicht, dass er keine Gifte verwenden darf, und kocht eine tödliche Suppe.
Die alte Lösung: Man schließt die ganze Küche ab. Der Koch kann nichts mehr kochen.
Die PACT-Lösung: Man gibt dem Koch eine kleine, rote Schale mit dem Aufkleber "NUR SICHERE ZUTATEN".
- Der Koch darf alles andere in der Küche frei nutzen, um sein neues Rezept zu perfektionieren.
- Aber sobald er die rote Schale (die Sicherheits-Wörter) benutzt, muss er genau so vorgehen wie sein Meisterkoch (der ursprüngliche sichere Roboter). Er darf die rote Schale nicht mit Gift füllen.
- So bleibt das neue Rezept lecker (der Roboter ist nützlich), aber niemand wird vergiftet (der Roboter bleibt sicher).

Warum ist das genial?

Wenig Aufwand, große Wirkung: Man muss nur ein winziges Teil des Gehirns des Roboters (die 50 Wörter) festhalten, nicht das ganze Gehirn.
Besser als alles andere: In Tests hat sich gezeigt, dass dieser Roboter nach dem Umschulen immer noch super Mathe kann, aber trotzdem niemals auf böse Fragen eingeht. Andere Methoden haben entweder die Sicherheit verloren oder die Mathe-Fähigkeiten zerstört.
Robust: Es funktioniert auch, wenn nur sehr wenige böse Beispiele im Trainingsmaterial waren.

Zusammenfassend: PACT ist wie ein unsichtbarer Sicherheitsgurt, den man nur um die wichtigsten Körperteile des Roboters legt. Er lässt den Roboter frei tanzen und lernen, aber verhindert, dass er in den Abgrund fällt, wenn er versucht, gefährliche Dinge zu sagen.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Few Tokens, Big Leverage: Preserving Safety Alignment by Constraining Safety Tokens during Fine-tuning" (PACT) auf Deutsch:

1. Problemstellung

Große Sprachmodelle (LLMs) werden häufig durch Fine-Tuning (FT) an spezifische Downstream-Aufgaben angepasst. Ein kritisches, aber oft übersehenes Risiko dabei ist der Verlust der Sicherheitsausrichtung (Safety Alignment).

Das Phänomen: Selbst wenn der Fine-Tuning-Datensatz nur harmlose Daten enthält, kann die Anpassung an die Aufgabe dazu führen, dass das Modell seine Fähigkeit verliert, schädliche Anfragen abzulehnen. Noch kritischer ist, dass bereits ein sehr kleiner Anteil an schädlichen Daten im Trainingsset die Sicherheitsausrichtung drastisch verschlechtern kann.
Grenzen bestehender Lösungen: Bisherige Verteidigungsmechanismen greifen oft zu grob:
- Parameterebene: Methoden wie SafeLoRA schränken die Aktualisierung von Gewichten ein, was jedoch die Anpassungsfähigkeit an die neue Aufgabe (Utility) beeinträchtigt.
- Datenebene: Das Hinzufügen weiterer sicherer Trainingsdaten ist ineffizient und kann die Leistung auf der Hauptaufgabe verschlechtern.
Ziel: Eine Methode zu entwickeln, die die Sicherheit während des Fine-Tunings erhält, ohne die Leistung auf der Downstream-Aufgabe zu opfern.

2. Methodik: PACT (Preserving safety Alignment via Constrained Tokens)

Die Autoren stellen fest, dass Sicherheitsverhalten nicht im gesamten Modell verteilt ist, sondern stark auf eine kleine Teilmenge von „Sicherheits-Tokens" (z. B. Wörter wie „cannot", „sorry", „assist") konzentriert ist. PACT nutzt diese Erkenntnis, um eine feinkörnige, token-basierte Regularisierung einzuführen.

Der Ansatz besteht aus drei Hauptkomponenten:

A. Identifikation von Sicherheits-Tokens

Anstatt alle Tokens zu betrachten, wird eine Referenzanalyse durchgeführt:

Ein sicherheitsausgerichtetes Modell ( $M_{safe}$ ) und ein Basis-Modell ( $M_{base}$ ) werden auf schädliche Prompts angewendet.
Es wird die Wahrscheinlichkeitsdifferenz der Token-Ausgaben zwischen beiden Modellen berechnet.
Die Top- $K$ Tokens (z. B. $K=50$ ), bei denen das sichere Modell eine signifikant höhere Konfidenz zeigt als das Basis-Modell, werden als Sicherheits-Tokens identifiziert.
Experimente zeigen, dass das Manipulieren der Logits dieser spezifischen Tokens die Sicherheit des Modells drastisch beeinflusst (Erhöhung der Konfidenz verbessert Sicherheit, Senkung verschlechtert sie).

B. Regularisierung mit gewichteten Sicherheits-Tokens

Während des Fine-Tunings wird ein gewichteter KL-Divergenz-Verlust ( $L_{KL}^{safety}$ ) eingeführt:

Das Fine-Tuning-Modell wird gezwungen, seine Konfidenz auf den identifizierten Sicherheits-Tokens mit der des ursprünglichen sicheren Referenzmodells übereinstimmen zu lassen.
Selektivität: Nur diese wenigen Tokens werden regularisiert; der Rest des Vokabulars bleibt für die Optimierung der Downstream-Aufgabe frei.
Gewichtung: Tokens mit einer höheren Diskrepanz (wichtiger für die Sicherheit) erhalten ein stärkeres Regularisierungsgewicht.

C. Kalibrierung des Sicherheits-Signals (Prefix-Contamination)

Ein Problem beim Fine-Tuning ist, dass das Referenzmodell bei schädlichen Trainingsdaten oft unsichere Präfixe (den Kontext der Frage) sieht, was seine eigene Sicherheitssignale schwächen kann.

Lösung: PACT nutzt zwei Ansichten des Referenzmodells:
1. Full-Context: Das Modell sieht Prompt und Antwort (wie im Training).
2. No-Prompt: Das Modell sieht nur den vorherigen Antwortteil (ohne den schädlichen Prompt).
Adaptive Mischung: Ein Gating-Mechanismus ( $c_t$ ) mischt diese beiden Signale. Wenn der Kontext schädlich ist (erkennbar an einer geringeren Konfidenz für Sicherheits-Tokens im Full-Context), wird stärker auf das „No-Prompt"-Signal vertraut, um ein sauberes Sicherheits-Signal zu gewährleisten.
Positions-Decay: Da Sicherheitsverweigerungen meist in den ersten Tokens auftreten, wird die Kalibrierung für frühe Antwortpositionen stärker gewichtet und später abgeschwächt.

Das finale Trainingsziel kombiniert den Standard Cross-Entropy-Loss für die Aufgabe mit dem gewichteten KL-Verlust für die Sicherheit:
$\mathcal{L} = \mathcal{L}_{CE} + \lambda_{KL} \cdot \mathcal{L}_{KL}^{safety}$

3. Wichtige Beiträge

Token-Level-Analyse: Systematische Identifikation und Analyse von Sicherheits-Tokens, die für die Ablehnung schädlicher Anfragen entscheidend sind.
PACT-Framework: Ein neuartiges Fine-Tuning-Verfahren, das Sicherheit durch feinkörnige, token-spezifische Constraints erhält, anstatt das gesamte Modell zu beschränken.
Robustheit: Die Methode ist robust gegenüber verschiedenen Modellarchitekturen, Größen und Anteilen schädlicher Daten im Training.

4. Ergebnisse

Die Evaluation erfolgte auf drei Downstream-Aufgaben (GSM8K, SST-2, AGNEWS) und vier Modellfamilien (Qwen-2.5, Llama-3.1/3.2, Gemma-2) mit bis zu 10% schädlichen Daten im Training.

Sicherheit vs. Nutzen: PACT erreicht einen überlegenen Trade-off. Im Vergleich zu Baselines (wie SafeLoRA, AsFT, Constrained SFT) reduziert PACT die Attack Success Rate (ASR) drastisch, während die Aufgabenleistung (Accuracy) nahezu unverändert bleibt.
- Beispiel: Auf dem HarmBench-Test sank die ASR von über 90% (bei normalem Fine-Tuning) auf 13,50–29,50% bei PACT, bei gleichzeitiger Beibehaltung der Aufgaben-Accuracy.
Generalisierung: PACT funktioniert konsistent über verschiedene Modellgrößen (von 1B bis 9B Parameter) und Architekturen hinweg, während andere Methoden oft bei bestimmten Modellen versagen.
Robustheit: Selbst bei steigenden Anteilen schädlicher Daten (bis 10%) bleibt PACT stabil, während andere Methoden bei 5% oder mehr schädlichen Daten kollabieren.
Ablationsstudien: Die Studie zeigt, dass jede Komponente (Nur Sicherheits-Tokens, Gewichtung, No-Prompt-Referenz, Positions-Decay) einen signifikanten Beitrag zur Gesamtleistung leistet. Besonders die Kalibrierung gegen schädliche Präfixe ist entscheidend.

5. Bedeutung und Fazit

Das Paper demonstriert, dass Sicherheitsausrichtung kein globales Phänomen ist, das das gesamte Modell betrifft, sondern stark auf eine kleine Menge kritischer Tokens konzentriert ist.

Paradigmenwechsel: Statt globale Parameterbeschränkungen aufzuerlegen, die die Lernfähigkeit einschränken, ermöglicht PACT eine zielgerichtete Stabilisierung genau dort, wo sie benötigt wird.
Praktische Relevanz: Die Methode ermöglicht es Anbietern und Nutzern, LLMs sicher an spezifische Anwendungen anzupassen, ohne Angst vor einem „Safety-Drift" haben zu müssen, selbst wenn die Trainingsdaten nicht perfekt bereinigt sind.
Effizienz: Da nur wenige Tokens regularisiert werden, ist der Rechenaufwand gering und die Methode skalierbar.

Zusammenfassend bietet PACT einen effizienten und robusten Weg, um die Sicherheitsintegrität von LLMs während des Fine-Tunings zu bewahren, indem es das Vertrauen des Modells in kritische Ablehnungs-Tokens stabilisiert.

Few Tokens, Big Leverage: Preserving Safety Alignment by Constraining Safety Tokens during Fine-tuning

Das Problem: Der vergessene Sicherheitsgurt

Die Lösung: PACT – Der gezielte Sicherheitsanker

Eine einfache Analogie: Der Koch und die Giftschale

Warum ist das genial?

1. Problemstellung

2. Methodik: PACT (Preserving safety Alignment via Constrained Tokens)

A. Identifikation von Sicherheits-Tokens

B. Regularisierung mit gewichteten Sicherheits-Tokens

C. Kalibrierung des Sicherheits-Signals (Prefix-Contamination)

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Comparison of Outlier Detection Algorithms on String Data

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Interventional Time Series Priors for Causal Foundation Models

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

Graph Tokenization for Bridging Graphs and Transformers