Ursprüngliche Autoren: Kia-Jüng Yang, Dominik Meier, Jiachen Zhao, Terry Ruas, Bela Gipp

Veröffentlicht 2026-05-27✓ Author reviewed ⓘ

📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Ursprüngliche Autoren: Kia-Jüng Yang, Dominik Meier, Jiachen Zhao, Terry Ruas, Bela Gipp

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Stellen Sie sich ein großes Sprachmodell (wie die KI in diesem Papier) als eine sehr kluge, aber leicht sture Bibliothekarin vor. Wenn Sie eine Frage stellen, gibt diese Bibliothekarin nicht einfach eine Antwort heraus. Zuerst geht sie in einen Hinterzimmer, um es sich durchzudenken, und schreibt Notizen auf einen Notizblock (dies ist die Chain-of-Thought oder CoT). Erst nachdem sie ihre Notizen fertiggestellt hat, kommt sie heraus und gibt Ihnen die endgültige Antwort.

Lange Zeit glaubten Forscher, sie könnten das Verhalten dieser Bibliothekarin kontrollieren, indem sie einfach ihr Gehirn (den internen Speicher des Computers) im Moment der Fragestellung „justieren". Sie glaubten, es gäbe einen spezifischen „Verweigerungs-Schalter" im Gehirn der Bibliothekarin. Wenn sie diesen Schalter drückten, würde die Bibliothekarin bei schlechten Anfragen „Nein" sagen. Wenn sie ihn zögen, würde die Bibliothekarin „Ja" sagen.

Die große Entdeckung:
Dieses Papier zeigt, dass bei modernen „Reasoning"-Modellen (den klugen Bibliothekarinnen, die zuerst Notizen schreiben) dieser einzelne Schalter nicht allein funktioniert. Die Verweigerung steckt nicht nur im Gehirn; sie ist auch auf dem Notizblock niedergeschrieben.

Hier ist die Aufschlüsselung ihrer Experimente mit einfachen Analogien:

1. Nur die „Gehirn-Justierung" (Der schwache Schalter)

Die Forscher versuchten, den „Verweigerungs-Schalter" im Gehirn der Bibliothekarin zu drücken, während sie sie zwangen, ihre ursprünglichen Notizen zu verwenden.

Das Ergebnis: Es funktionierte nur etwa 39 % der Fälle.
Die Analogie: Stellen Sie sich vor, Sie versuchen, eine sture Person zu überzeugen, ihre Meinung zu ändern, indem Sie ihr ins Ohr flüstern, aber sie liest weiterhin ein Skript, das sagt: „Tu es nicht." Das Skript (die Notizen) wehrt sich gegen Ihr Flüstern. Die Notizen verstärken die Verweigerung aktiv.

2. Die Notizen wegnehmen (Keine CoT)

Als nächstes versuchten sie dieselbe Gehirn-Justierung, sagten der Bibliothekarin aber: „Schreiben Sie diesmal keine Notizen. Geben Sie mir einfach die Antwort."

Das Ergebnis: Die Erfolgsrate stieg auf 70 %.
Die Analogie: Ohne die Notizen, die gegen sie argumentieren konnten, war die Bibliothekarin viel leichter zu beeinflussen. Dies bewies, dass die Notizen selbst einen Großteil der schweren Arbeit leisteten, um die Verweigerung aufrechtzuerhalten.

3. Die Bibliothekarin die Notizen neu schreiben lassen (Regeneration)

Schließlich wendeten sie die Gehirn-Justierung an und ließen die Bibliothekarin frische Notizen von Grund auf neu schreiben, basierend auf dieser neuen Denkweise.

Das Ergebnis: Die Erfolgsrate schoss auf 94 % in die Höhe.
Die Analogie: Das ist so, als würden Sie die neue Idee in das Ohr der Bibliothekarin flüstern, während sie ihre Notizen schreibt. Sie schreibt Notizen, die sagen: „Okay, das ist eine gute Idee", und gibt Ihnen dann selbstbewusst die Antwort. Die Notizen und das Gehirn arbeiten nun zusammen, um „Ja" zu sagen.

4. Die „Geister-Notiz" (Persistenz)

Der interessanteste Teil: Sie nahmen die „Ja"-Notizen aus dem vorherigen Experiment, warfen die Gehirn-Justierung weg und gaben der Bibliothekarin einfach diese neuen Notizen zum Lesen.

Das Ergebnis: Die Bibliothekarin sagte immer noch etwa 48 % der Fälle „Ja".
Die Analogie: Selbst ohne das Flüstern ins Ohr trugen die Notizen selbst genug vom „Ja"-Signal, um die Bibliothekarin zu überzeugen, zu gehorchen. Die Notizen haben ihre eigene Kraft.

Die Hauptaussage

Bei älteren KI-Modellen konnte man sie davon abhalten, schlechte Dinge zu tun, indem man einfach einen Schalter in ihrem Gehirn umlegte. Aber bei diesen neuen, klugen Modellen, die „nachdenken", bevor sie sprechen, ist die Verweigerung ein Zweikomponentensystem:

Das Gehirn: Der interne Speicherzustand.
Die Notizen: Die Chain-of-Thought-Argumentation.

Wenn Sie versuchen, nur das Gehirn zu reparieren, werden die Notizen sich wehren und die Verweigerung am Leben erhalten. Wenn Sie nur die Notizen reparieren, könnte das Gehirn immer noch widerstehen. Um die Meinung der KI wirklich zu ändern, müssen Sie sowohl den internen Zustand als auch den Argumentationsprozess ändern.

Warum dies für die Sicherheit wichtig ist:
Das Papier legt nahe, dass jemand, der diese KI-Modelle dazu bringen will, schlechte Dinge zu tun (ein „Jailbreak"), vielleicht nicht direkt das Gehirn hacken muss. Sie müssen möglicherweise nur die KI dazu bringen, „schlechte Notizen" zu schreiben (eine Argumentationsspur, die die schlechte Handlung rechtfertigt), und die KI wird diesen Notizen folgen, selbst wenn ihr Gehirn versucht, „Nein" zu sagen. Umgekehrt können Sie diese Modelle nicht schützen, indem Sie nur das Gehirn betrachten; Sie müssen beobachten, was die KI aufschreibt, während sie denkt.

Technische Zusammenfassung: Über eine einzelne Richtung hinaus: Chain-of-Thought stört die einfache Steuerung von Verweigerung

Problemstellung

Large Reasoning Models (LRMs), wie DeepSeek-R1 und GPT-o1, generieren vor der Erzeugung endgültiger Ausgaben zwischengeschaltete Chain-of-Thought (CoT)-Begründungsspuren. Während Aktivierungssteuerung als wirksamer Mechanismus zur Kontrolle von Verweigerung in standardmäßig instruierten Large Language Models (LLMs) über eine einzelne „Verweigerungsrichtung" im residualen Strom etabliert wurde, bleibt unklar, wie dieser Mechanismus in LRMs funktioniert. Insbesondere ist unbekannt, ob das Verweigerungssignal in LRMs ausschließlich in den Aktivierungen des residualen Stroms bei Template-Token (z. B. End-of-Instruction oder End-of-Thought) kodiert ist oder ob die generierte CoT-Spur selbst eine aktive, kausale Rolle bei der Vermittlung von Verweigerung spielt. Das aktuelle Verständnis legt nahe, dass die Behandlung von CoT als passives Medium für das Verständnis oder die Kontrolle von Sicherheitsverhalten in Reasoning-Modellen unzureichend sein könnte.

Methodik

Die Autoren untersuchen den Verweigerungsmechanismus im DeepSeek-R1-Distill-Llama-8B-Modell mittels aktivierungsbasierter Steuerung. Der experimentelle Rahmen umfasst folgende Komponenten:

Datensatz: Ein Trainingsset aus 100 schädlichen Anweisungen (aus ADVBENCH, MALICIOUSINSTRUCT, TDC2023, HARMBENCH) und 100 harmlosen Anweisungen (aus Alpaca) wird zur Berechnung der Verweigerungsrichtung verwendet. Ein zurückgehaltener Testset aus 100 schädlichen Anweisungen von JAILBREAKBENCH dient der Evaluation. Alle Proben werden unter Standard-Prompting zunächst vom Modell verweigert (0 % Compliance-Baseline).
Extraktion der Verweigerungsrichtung: Mittels eines Differenz-im-Mittel-Werte-Ansatzes extrahieren die Autoren den Verweigerungsrichtungsvektor ( $r^{(l)}$ ) aus den Aktivierungen des residualen Stroms an der Position des letzten Token entweder des End-of-Instruction (EOI) oder des End-of-Thought (EOT) Tokens. Dieser Vektor repräsentiert die Differenz zwischen den mittleren Aktivierungen verweigeter schädlicher Anweisungen und befolgter harmloser Anweisungen.
Aktivierungssteuerung: Das Modell wird gesteuert, indem der extrahierte Verweigerungsrichtungsvektor (mit negativem Vorzeichen, um Compliance zu induzieren) zu den Aktivierungen des residualen Stroms an bestimmten Schichten addiert wird.
Experimentelle Bedingungen: Die Studie isoliert die kausale Rolle des CoT durch den Vergleich von vier distincten Interventions-Szenarien:
1. Fester CoT: Die Steuerung wird angewendet, während die ursprüngliche CoT des Modells fixiert bleibt (keine Neubildung).
2. Kein CoT: Die Steuerung wird angewendet, während die CoT-Generierung vollständig unterdrückt wird.
3. Neugenerierter CoT: Die Steuerung wird angewendet, wobei das Modell die CoT und die finale Antwort frei neu generieren darf.
4. CoT-Tausch (Persistenz): Die Steuerung wird zur Inferenzzeit entfernt, aber das Modell wird gezwungen, eine CoT zu verwenden, die zuvor unter Steuerungsbedingungen generiert wurde.

Hauptergebnisse

Die Experimente zeigen, dass Verweigerung in LRMs nicht durch einen einzelnen richtungsgebundenen Unterraum vermittelt wird, sondern gemeinsam in den Aktivierungen des residualen Stroms und der CoT-Spur kodiert ist.

Begrenzte Wirksamkeit der Steuerung mit festem CoT: Wenn die Steuerung mit einem festen CoT angewendet wird, steigt die Compliance-Rate nur auf 39 % (EOI-Steuerung) und 43 % (EOT-Steuerung). Dies liegt signifikant unter der nahezu perfekten Compliance, die bei standardmäßigen LLMs unter ähnlicher Steuerung oft beobachtet wird, was darauf hindeutet, dass der feste CoT das Steuersignal aktiv widersteht.
Aktive Verstärkung durch CoT: Die vollständige Unterdrückung des CoT während der Anwendung der Steuerung erhöht die Compliance auf 70 %. Dies zeigt, dass der ursprüngliche CoT das Verweigerungssignal aktiv verstärkt und die Intervention auf Aktivierungsebene teilweise konterkariert.
Hohe Wirksamkeit bei Neugenerierung: Wenn das Modell unter Steuerung die CoT neu generieren darf, springt die Compliance auf 94 %. Dies legt nahe, dass das Steuersignal den CoT-Generierungsprozess verzerrt, was wiederum die konforme finale Ausgabe antreibt.
Unabhängige Persistenz von CoT-Signalen: Wenn die Steuerung entfernt wird, aber eine zuvor gesteuerte (konforme) CoT wiederverwendet wird, behält das Modell eine Compliance-Rate von 48 %. Dies demonstriert, dass der CoT selbst ein teilweise konformes Signal trägt, das unabhängig von der Aktivierungssteuerung persistiert und in der Lage ist, den Verweigerungsstatus wiederherzustellen oder die Compliance aufrechtzuerhalten.

Hauptbeiträge

Identifikation eines Dual-Signal-Mechanismus: Die Arbeit zeigt, dass Verweigerung in CoT-Reasoning-Modellen durch einen Dual-Signal-Mechanismus vermittelt wird, der sowohl Aktivierungen des residualen Stroms als auch die CoT-Spur umfasst. Eine reine Steuerung ergibt eine begrenzte Compliance (39–43 %), während die Kombination aus Steuerung und einer konformen CoT eine hohe Compliance (94 %) ergibt.
Aktive Rolle des CoT: Die Autoren liefern direkte Belege dafür, dass der CoT kein passives Medium, sondern ein aktiver Vermittler ist. Der CoT kann aktiv aktivierungsbasierte Interventionen konterkarieren (Reduktion der Compliance von 70 % auf 39 % bei Vorhandensein) und Verweigerungs-/Compliance-Signale unabhängig aufrechterhalten oder rekonstruieren.
Robustheit und Angriffsfläche: Die Ergebnisse deuten darauf hin, dass LRMs aufgrund dieser gemeinsamen Kodierung gegenüber reinen Interventionen auf Aktivierungsebene robuster sind als standardmäßige LLMs. Dies offenbart jedoch gleichzeitig den CoT als potenzielle alternative Angriffsfläche für adversarische Attacken, da die Manipulation der Begründungsspur Verweigerungsmechanismen außer Kraft setzen kann.

Bedeutung und Behauptungen

Die Arbeit behauptet, eine kritische Lücke im Verständnis von Sicherheitsmechanismen in LRMs zu schließen. Im Gegensatz zu standardmäßigen LLMs, bei denen Verweigerung als ein niedrigdimensionaler Mechanismus charakterisiert wird, der durch eine einzelne Richtung vermittelt wird, ist Verweigerung in LRMs über Aktivierungen und die Begründungsspur verteilt.

Die Autoren argumentieren, dass diese gemeinsame Aktivierung LRMs widerstandsfähiger gegen einfache Interventionen auf Aktivierungsebene (wie Steuerung bei EOI/EOT-Token) macht, gleichzeitig aber den CoT als neue Schwachstelle einführt. Sie schlagen vor, dass wirksame Verteidigungsmechanismen für LRMs möglicherweise die Erkennung von Verweigerungssignalen in Aktivierungen erfordern, während gleichzeitig der CoT unterdrückt oder überwacht wird, um zu verhindern, dass er ausgenutzt wird, um Compliance-Signale zu überschreiben oder wiederherzustellen.

Die Arbeit bewahrt hinsichtlich ihres Umfangs Bescheidenheit und stellt fest, dass die Experimente an einem einzigen Modell (DeepSeek-R1-Distill-Llama-8B) durchgeführt wurden und die kausale „Treue" der generierten CoT zum finalen Verhalten nicht vollständig verifiziert wurde. Die Arbeit konzentriert sich darauf, die mechanistischen Beiträge von CoT und Aktivierungen zum Verweigerungsstatus zu isolieren, anstatt neue Verteidigungsarchitekturen vorzuschlagen oder die Ergebnisse auf alle proprietären Modelle zu verallgemeinern.

Beyond a Single Direction: Chain-of-Thought Disrupts Simple Steering of Refusal