Detoxifying LLMs via Representation Erasure-Based Preference Optimization

Die Studie stellt REPO vor, eine Methode zur Entgiftung von Large Language Models durch repräsentationsbasierte Präferenzoptimierung, die toxische Inhalte auf neuronaler Ebene effektiv und dauerhaft entfernt und dabei sowohl Robustheit gegenüber Angriffen als auch die allgemeine Nützlichkeit des Modells erhält.

Nazanin Mohammadi Sepahvand, Eleni Triantafillou, Hugo Larochelle, Doina Precup, Daniel M. Roy, Gintare Karolina Dziugaite

Veröffentlicht 2026-03-02
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Titel: Wie man KI-Modelle von „Gift" reinigt, ohne ihre Intelligenz zu zerstören

Stellen Sie sich vor, ein großes Sprachmodell (eine KI) ist wie ein junger Schüler, der alles aus dem Internet gelernt hat. Das Internet ist riesig und enthält wunderbare Geschichten, aber leider auch viel Müll, Beleidigungen und gefährliches Wissen. Wenn dieser Schüler jetzt eine Frage bekommt, kann er manchmal aus Versehen oder aus Gewohnheit diese „giftigen" Antworten geben.

Bisherige Methoden, um den Schüler zu erziehen, funktionierten oft so: Man sagte ihm einfach: „Sag das nicht!" oder „Das ist verboten!". Das Problem dabei: Der Schüler hat die giftigen Gedanken immer noch im Kopf. Er hat sie nur unterdrückt. Wenn man ihn dann ein wenig anders fragt (ein sogenannter „Jailbreak"-Angriff) oder ihn kurz nachträglich mit ein paar Beispielen trainiert, kommt das Gift sofort wieder hoch. Es ist, als würde man einen Müllhaufen nur mit einer Plane zudecken – der Müll ist immer noch da.

Die Autoren dieses Papers haben eine neue Methode namens REPO entwickelt. Hier ist die Idee, einfach erklärt:

1. Das Problem: Nur die Oberfläche zu ändern, reicht nicht

Bisherige Methoden (wie DPO oder NPO) waren wie ein Stempel auf einem Dokument. Sie änderten nur die Wahrscheinlichkeit, dass ein bestimmtes Wort auf dem Papier erscheint. Aber die Gedankenstruktur im Kopf des Schülers, die zu diesem Wort führt, blieb unverändert. Ein cleverer Angreifer konnte diese Stempel leicht umgehen.

2. Die Lösung: REPO – Das Löschen im Inneren

REPO (Representation Erasure-based Preference Optimization) geht viel tiefer. Es ist, als würde man nicht nur den Stempel entfernen, sondern die gesamte Seite im Buch umschreiben, auf der die giftige Idee steht.

Stellen Sie sich das Modell als ein riesiges Labyrinth aus Gedankenwegen vor.

  • Giftige Gedanken laufen auf einem speziellen, markierten Pfad durch das Labyrinth.
  • Harmlose Gedanken laufen auf einem anderen Pfad.

Bei REPO nehmen wir das Labyrinth und schmelzen den giftigen Pfad ein. Wir zwingen das Modell, den Weg für eine böse Antwort so zu verändern, dass er exakt wie der Weg für eine gute Antwort aussieht.

  • Wenn das Modell versucht, eine Beleidigung zu generieren, findet es im Inneren keinen „Gift-Pfad" mehr.
  • Stattdessen muss es den „Gute-Pfad" nehmen, weil die beiden Pfade im Inneren des Modells nun identisch sind.

3. Wie funktioniert das genau? (Die Analogie des Übersetzers)

Stellen Sie sich vor, das KI-Modell ist ein Übersetzer, der Sätze Wort für Wort erstellt.

  • Der alte Weg: Man sagte dem Übersetzer: „Wenn du das Wort 'Schmutz' hören willst, sag stattdessen 'Sonne'." Aber im Kopf des Übersetzers war die Verbindung zwischen dem Kontext und dem Wort 'Schmutz' immer noch stark.
  • Der REPO-Weg: Man sagt dem Übersetzer: „Wenn du diesen Satz übersetzt, musst du die Gedankenstruktur für das böse Wort so verändern, dass sie sich genau wie die für das gute Wort anfühlt."

Das Besondere an REPO ist, dass es das Wort für Wort (Token für Token) macht. Es ist nicht so, als würde man das ganze Buch neu schreiben. Es ist, als würde man jedes einzelne giftige Wort im Moment seiner Entstehung so umformen, dass es im Gehirn des Modells unsichtbar wird.

4. Warum ist das so stark? (Die Unzerstörbarkeit)

Das ist der wichtigste Teil:

  • Wenn Sie einen Schüler nur bitten, etwas nicht zu sagen, kann er es sich merken und später wieder sagen.
  • Wenn Sie ihm aber die Fähigkeit nehmen, den Gedanken überhaupt zu bilden (indem Sie den Pfad im Gehirn löschen), dann kann er es nicht mehr sagen, selbst wenn man ihn mit neuen Beispielen trainiert.

REPO ist so robust, dass selbst wenn man das Modell mit nur 10 Beispielen neu trainiert (ein sogenannter „Relearning-Angriff"), das Gift nicht zurückkommt. Die „Gift-Neuronen" im Gehirn des Modells wurden so präzise bearbeitet, dass sie nicht einfach wieder aktiviert werden können.

Zusammenfassung in einem Satz

REPO ist wie ein Chirurg, der nicht nur die Haut eines Patienten näht (was die Symptome verdeckt), sondern den Tumor im Inneren präzise entfernt, sodass die Krankheit nicht wiederkommen kann, ohne das restliche Organ zu beschädigen.

Das Ergebnis: Die KI bleibt klug, flüssig und nützlich für alles Gute, aber sie hat die Fähigkeit verloren, schädliche Dinge zu generieren – und das für immer.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →