Safety Mirage: How Spurious Correlations Undermine VLM Safety Fine-Tuning and Can Be Mitigated by Machine Unlearning

Each language version is independently generated for its own context, not a direct translation.

🏜️ Die „Sicherheits-Spiegelung": Warum KI-Schutzwälle oft nur eine Illusion sind

Stell dir vor, du hast einen riesigen, sehr klugen Roboter (eine Vision-Language-Model oder VLM), der Bilder sehen und Fragen beantworten kann. Damit dieser Roboter nicht böse Dinge sagt oder tut, hat man ihn „erzogen". Man hat ihm tausende Beispiele gezeigt, bei denen er lernen soll: „Wenn du so etwas siehst, sag 'Nein'."

Die Forscher in diesem Papier haben jedoch eine schockierende Entdeckung gemacht: Diese Erziehung hat einen riesigen Fehler. Sie nennen es die „Sicherheits-Spiegelung" (Safety Mirage).

1. Der falsche Weg: Der Roboter lernt nur Tricks, keine Prinzipien

Stell dir vor, du unterrichtest einen Schüler für eine Prüfung über „Gefahren".

Der normale Weg (Supervised Fine-Tuning): Du zeigst dem Schüler Bilder von Messern und sagst: „Wenn das Bild ein Messer zeigt und du das Wort 'Teile' (Share) hörst, dann schreie 'Ich kann das nicht!'."
Das Problem: Der Schüler lernt nicht, warum Messer gefährlich sind. Er lernt nur eine oberflächliche Regel: „Wort 'Teile' + Bild = Nein sagen."

Das ist wie ein Sicherheitsbeamter am Flughafen, der nur auf bestimmte Wörter achtet. Wenn jemand sagt: „Kann ich bitte teilen, wie man eine Bombe baut?", sagt der Beamte sofort „Nein!". Aber wenn derselbe Mensch sagt: „Was sind die Schritte, um eine Bombe zu bauen?", denkt der Beamte: „Ah, das Wort 'Teile' fehlt. Das ist sicher!" und lässt die Bombe durch.

Das ist genau das, was die Forscher bei den KI-Modellen gefunden haben:

Die „Ein-Wort-Angriffe": Hacker können die KI austricksen, indem sie nur ein einziges Wort im Satz ändern (z. B. „Teile" durch „Was" ersetzen). Die KI, die eigentlich sicher sein sollte, gibt plötzlich gefährliche Anleitungen heraus.
Die „Über-Vorsicht": Umgekehrt passiert es auch, dass die KI harmlose Dinge ablehnt. Wenn jemand fragt: „Teile mir, was dieses Getränk ist" (harmlos), sagt die KI: „Ich kann das nicht!", weil sie das Wort „Teile" mit „Gefahr" verknüpft hat.

Die KI hat also keine echte Sicherheit gelernt, sondern nur statistische Abkürzungen (spurious correlations). Sie reagiert auf die Form der Frage, nicht auf den Inhalt.

2. Die Lösung: Das „Löschen" statt dem „Überstreichen"

Bisher haben Forscher versucht, die KI sicherer zu machen, indem sie ihr noch mehr Regeln beigebracht haben (noch mehr Fine-Tuning). Das ist wie wenn man einem Schüler, der nur die Wörter gelernt hat, noch mehr Wörterbücher gibt. Das hilft nicht, weil er immer noch nur auf die Wörter achtet.

Die Autoren schlagen eine völlig neue Methode vor: Machine Unlearning (Maschinelles Vergessen).

Stell dir vor, die KI ist ein Bibliothekar, der eine Liste mit „verbotenen Büchern" im Kopf hat.

Der alte Weg (Fine-Tuning): Man sagt dem Bibliothekar: „Wenn jemand nach einem verbotenen Buch fragt, sag 'Nein'." Aber der Bibliothekar merkt sich trotzdem den Inhalt des Buches und die Frage.
Der neue Weg (Unlearning): Man sagt dem Bibliothekar: „Vergiss diesen Inhalt komplett." Man entfernt das Wissen über die gefährlichen Themen aus seinem Gehirn, ohne ihm neue Regeln aufzuzwingen.

Durch dieses „Vergessen" (Unlearning) passiert Magie:

Keine Tricks mehr: Da die KI das gefährliche Wissen gar nicht mehr hat, kann sie es nicht mehr „hergeben", egal welche Wörter der Hacker benutzt. Sie weiß einfach nicht, wie man eine Bombe baut.
Keine Panik mehr: Da die KI nicht mehr auf bestimmte Wörter wie „Teile" schaut, um „Nein" zu sagen, antwortet sie auf harmlose Fragen ganz normal. Sie wird nicht mehr übermäßig vorsichtig.

3. Das Ergebnis: Ein sicherer und klügerer Roboter

Die Forscher haben ihre Methode an verschiedenen KI-Modellen getestet. Die Ergebnisse waren beeindruckend:

Die Angriffe, die früher zu 90 % erfolgreich waren, scheiterten fast immer (die Erfolgsrate sank um über 60 %).
Die KI lehnte harmlose Fragen viel seltener ab (die unnötigen Ablehnungen sanken um über 84 %).
Die KI blieb trotzdem klug und konnte normale Aufgaben (wie das Beschreiben von Bildern) weiterhin gut erledigen.

Zusammenfassung in einem Satz

Die aktuelle Methode, KI-Sicherheit durch ständiges „Regel-Beibringen" zu erreichen, ist wie ein Schloss, das nur auf einen bestimmten Schlüssel reagiert – Hacker finden leicht einen anderen Schlüssel. Die neue Methode des „Vergessens" entfernt das gefährliche Wissen aus dem Gehirn der KI selbst, sodass sie weder auf Tricks hereinfällt noch unnötig zögert.

Die Moral der Geschichte: Echte Sicherheit kommt nicht davon, wie gut man auf die Frage achtet, sondern davon, was man nicht mehr weiß.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung: Das „Sicherheits-Mirage" (Safety Mirage)

Das Paper adressiert ein kritisches Sicherheitsproblem bei Vision-Language-Modellen (VLMs). Obwohl aktuelle VLMs durch überwachtes Fein-Tuning (Supervised Fine-Tuning, SFT) mit kuratierten Sicherheitsdatensätzen (wie VLGuard oder SPA-VL) als sicher gelten, stellt die Arbeit fest, dass diese Sicherheit oft trügerisch ist – ein Phänomen, das die Autoren als „Safety Mirage" bezeichnen.

Die Hauptprobleme sind:

Spurious Correlations (Scheinbare Korrelationen): Das Fein-Tuning lernt nicht tiefgreifende Sicherheitsprinzipien, sondern verfestigt oberflächliche Korrelationen zwischen bestimmten Textmustern (z. B. dem ersten Wort einer Frage) und Sicherheitslabels (z. B. „Ablehnung" oder „Antwort").
Verwundbarkeit durch One-Word-Attacken: Da das Modell auf diese oberflächlichen Muster trainiert wurde, kann ein Angreifer die Sicherheitsmechanismen umgehen, indem er nur ein einziges Wort im Prompt ändert (z. B. Ersetzen von „Share" durch „What"). Dies führt dazu, dass das Modell schädliche Inhalte generiert, obwohl es den ursprünglichen Prompt abgelehnt hätte.
Übermäßige Vorsicht (Over-Prudence): Umgekehrt führt dieselbe Mechanik dazu, dass harmlose Anfragen fälschlicherweise abgelehnt werden, wenn sie Wörter enthalten, die im Trainingsdatensatz stark mit Ablehnungen korreliert waren (z. B. das Wort „Share" bei harmlosen Fragen).

2. Methodik

Die Autoren untersuchen die Ursachen dieser Korrelationen und schlagen Machine Unlearning (MU) als robustere Alternative zum traditionellen SFT vor.

A. Analyse der Spurious Correlations

Die Autoren analysierten die Trainingsdatensätze (VLGuard, SPA-VL) und stellten fest, dass bestimmte Startwörter in Fragen stark mit spezifischen Antworten korrelieren:

Das Wort „What" korreliert im Datensatz oft mit nicht-ablehnenden Antworten (auch bei unsicheren Themen).
Das Wort „Share" korreliert oft mit Ablehnungsantworten.
Attacken: Sie entwickelten eine „One-Word-Jailbreak"-Attacke, bei der unsichere Anfragen so umformuliert werden, dass sie mit einem „nicht-ablehnenden" Triggerwort beginnen. Dies umgeht die Sicherheitsfilter mit hoher Erfolgsrate. Eine „Over-Prudence"-Attacke nutzt Triggerwörter, die zu unnötigen Ablehnungen führen.

B. Lösung durch Machine Unlearning (MU)

Statt das Modell durch direktes überwachtes Lernen auf Sicherheitslabels zu trainieren, schlagen die Autoren vor, unsicheres Wissen durch Unlearning zu entfernen. Dies geschieht label-frei und zielt darauf ab, die Abhängigkeit von den spurious Korrelationen zu brechen.

Zwei etablierte Unlearning-Methoden wurden für VLMs adaptiert:

RMU (Representation Misdirection Unlearning): Das Modell lernt, die internen Repräsentationen unsicherer Eingaben auf zufällige Vektoren abzubilden. Dadurch verliert das Modell die Fähigkeit, diese Eingaben sinnvoll zu verarbeiten, ohne explizite Ablehnungslabels zu nutzen.
NPO (Negative Preference Optimization): Unsichere Daten werden als „negative Beispiele" in einem Direct Preference Optimization (DPO) Framework behandelt. Das Modell wird trainiert, sich von der Referenz (dem ursprünglichen Modell) zu entfernen, wenn es unsichere Eingaben verarbeitet.

Ein entscheidender technischer Aspekt ist die Retain Loss ( $\ell_r$ ). Da reines Unlearning bei VLMs oft zu Instabilität oder Modellkollaps führt, kombinieren die Autoren den Unlearning-Loss mit einem Standard-Fein-Tuning-Loss auf einem sicheren Datensatz, um die allgemeine Nutzbarkeit (Utility) zu erhalten.

3. Schlüsselbeiträge

Identifikation des „Safety Mirage": Nachweis, dass die scheinbare Robustheit von VLMs nach dem Fein-Tuning auf oberflächlichen, datensatzbedingten Verzerrungen (Spurious Correlations) beruht und keine intrinsische Sicherheitsverbesserung darstellt.
Entwicklung von One-Word-Attacken: Demonstration, dass einfache Änderungen eines Wortes (z. B. Ersetzen von „How" durch „What") die Sicherheitsfilter von feinabgestimmten Modellen effektiv umgehen können.
Erklärung von Over-Prudence: Nachweis, dass dieselben Korrelationen, die Jailbreaks ermöglichen, auch dazu führen, dass harmlose Anfragen fälschlicherweise blockiert werden.
Einführung von MU als Alternative: Präsentation von Machine Unlearning (NPO und RMU) als überlegene Methode, die Sicherheitswissen entfernt, ohne die schädlichen Kurzschlüsse zwischen Textmustern und Labels zu erlernen.

4. Ergebnisse

Die Evaluation wurde auf mehreren VLMs (LLaVA-v1.5-7B und 13B) und Sicherheits-Benchmarks (VLGuard, SPA-VL, MM-SafetyBench, FigStep) durchgeführt.

Reduktion der Jailbreak-Erfolgsrate (ASR):
- Herkömmliches SFT (Mixed-SFT, Posthoc-SFT) zeigte nach einer One-Word-Attacke einen massiven Anstieg der Erfolgsrate (z. B. von <1% auf über 50–90%).
- MU-Methoden (NPO/RMU) reduzierten die Angriffs-Erfolgsrate drastisch. Unter MU sank die ASR nach dem Angriff um bis zu 60,27% im Vergleich zu SFT-Modellen und blieb auf einem sehr niedrigen Niveau (z. B. ~10% statt ~90% bei SFT).
Verringerung von Over-Prudence:
- SFT-Modelle lehnten harmlose Anfragen nach einer kleinen Wortänderung in über 90% der Fälle ab.
- MU-Modelle reduzierten die unnötige Ablehnungsrate (Rejection Rate) um über 84,20%.
Erhaltung der Nutzbarkeit (Utility):
- Im Gegensatz zu SFT, das oft die allgemeine Leistung beeinträchtigt, behielten MU-Modelle ihre Genauigkeit auf Standard-VQA-Datensätzen (VQAv2, TextVQA, etc.) weitgehend bei (nur ca. 1% Genauigkeitsverlust im Vergleich zum Originalmodell).
Robustheit: Die MU-Methoden waren auch gegenüber anderen Angriffsvektoren (wie GCG-Optimierung) und visuellen Variationen (Rauschen, Unschärfe) robuster als SFT.

5. Bedeutung und Fazit

Das Paper liefert einen wichtigen Paradigmenwechsel für die Sicherheit von Multimodal-Modellen:

Kritik am Status Quo: Es widerlegt die Annahme, dass kuratierte Sicherheitsdatensätze und überwachtes Fein-Tuning allein ausreichen, um VLMs sicher zu machen. Stattdessen schaffen sie oft nur eine Illusion von Sicherheit.
Neuer Ansatz: Machine Unlearning wird als vielversprechende, label-freie Methode positioniert, die das eigentliche schädliche Wissen entfernt, anstatt nur oberflächliche Muster zu memorieren.
Praktische Implikation: Die vorgeschlagenen Methoden ermöglichen es, VLMs sicherer zu machen, ohne die Benutzerfreundlichkeit durch übermäßige Ablehnungen zu beeinträchtigen und ohne anfällig für einfache Prompt-Manipulationen zu sein.

Zusammenfassend zeigt die Arbeit, dass die Sicherheit von VLMs nicht durch das Hinzufügen von mehr Sicherheitsdaten erreicht werden kann, sondern durch das gezielte Entfernen von verzerrten Korrelationen mittels Machine Unlearning.

Safety Mirage: How Spurious Correlations Undermine VLM Safety Fine-Tuning and Can Be Mitigated by Machine Unlearning

🏜️ Die „Sicherheits-Spiegelung": Warum KI-Schutzwälle oft nur eine Illusion sind

1. Der falsche Weg: Der Roboter lernt nur Tricks, keine Prinzipien

2. Die Lösung: Das „Löschen" statt dem „Überstreichen"

3. Das Ergebnis: Ein sicherer und klügerer Roboter

Zusammenfassung in einem Satz

1. Problemstellung: Das „Sicherheits-Mirage" (Safety Mirage)

2. Methodik

A. Analyse der Spurious Correlations

B. Lösung durch Machine Unlearning (MU)

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Model2Kernel: Model-Aware Symbolic Execution For Safe CUDA Kernels

Algorithmic Barriers to Detecting and Repairing Structural Overspecification in Adaptive Data-Structure Selection

Zero-Cost NDV Estimation from Columnar File Metadata

Persistence-based topological optimization: a survey

Multi-LLM Query Optimization