Beyond a Single Direction: Chain-of-Thought Disrupts Simple Steering of Refusal

Diese Arbeit zeigt, dass bei Large Reasoning Models die Ablehnungsmechanismen sowohl in den Aktivierungen des Residualstreams als auch in Chain-of-Thought-Spuren gemeinsam kodiert sind, wodurch eine einfache Aktivierungssteuerung weniger wirksam wird, sofern nicht auch der Denkprozess selbst manipuliert wird.

Ursprüngliche Autoren: Kia-Jüng Yang, Dominik Meier, Jiachen Zhao, Terry Ruas, Bela Gipp

Veröffentlicht 2026-05-27✓ Author reviewed
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Ursprüngliche Autoren: Kia-Jüng Yang, Dominik Meier, Jiachen Zhao, Terry Ruas, Bela Gipp

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Stellen Sie sich ein großes Sprachmodell (wie die KI in diesem Papier) als eine sehr kluge, aber leicht sture Bibliothekarin vor. Wenn Sie eine Frage stellen, gibt diese Bibliothekarin nicht einfach eine Antwort heraus. Zuerst geht sie in einen Hinterzimmer, um es sich durchzudenken, und schreibt Notizen auf einen Notizblock (dies ist die Chain-of-Thought oder CoT). Erst nachdem sie ihre Notizen fertiggestellt hat, kommt sie heraus und gibt Ihnen die endgültige Antwort.

Lange Zeit glaubten Forscher, sie könnten das Verhalten dieser Bibliothekarin kontrollieren, indem sie einfach ihr Gehirn (den internen Speicher des Computers) im Moment der Fragestellung „justieren". Sie glaubten, es gäbe einen spezifischen „Verweigerungs-Schalter" im Gehirn der Bibliothekarin. Wenn sie diesen Schalter drückten, würde die Bibliothekarin bei schlechten Anfragen „Nein" sagen. Wenn sie ihn zögen, würde die Bibliothekarin „Ja" sagen.

Die große Entdeckung:
Dieses Papier zeigt, dass bei modernen „Reasoning"-Modellen (den klugen Bibliothekarinnen, die zuerst Notizen schreiben) dieser einzelne Schalter nicht allein funktioniert. Die Verweigerung steckt nicht nur im Gehirn; sie ist auch auf dem Notizblock niedergeschrieben.

Hier ist die Aufschlüsselung ihrer Experimente mit einfachen Analogien:

1. Nur die „Gehirn-Justierung" (Der schwache Schalter)

Die Forscher versuchten, den „Verweigerungs-Schalter" im Gehirn der Bibliothekarin zu drücken, während sie sie zwangen, ihre ursprünglichen Notizen zu verwenden.

  • Das Ergebnis: Es funktionierte nur etwa 39 % der Fälle.
  • Die Analogie: Stellen Sie sich vor, Sie versuchen, eine sture Person zu überzeugen, ihre Meinung zu ändern, indem Sie ihr ins Ohr flüstern, aber sie liest weiterhin ein Skript, das sagt: „Tu es nicht." Das Skript (die Notizen) wehrt sich gegen Ihr Flüstern. Die Notizen verstärken die Verweigerung aktiv.

2. Die Notizen wegnehmen (Keine CoT)

Als nächstes versuchten sie dieselbe Gehirn-Justierung, sagten der Bibliothekarin aber: „Schreiben Sie diesmal keine Notizen. Geben Sie mir einfach die Antwort."

  • Das Ergebnis: Die Erfolgsrate stieg auf 70 %.
  • Die Analogie: Ohne die Notizen, die gegen sie argumentieren konnten, war die Bibliothekarin viel leichter zu beeinflussen. Dies bewies, dass die Notizen selbst einen Großteil der schweren Arbeit leisteten, um die Verweigerung aufrechtzuerhalten.

3. Die Bibliothekarin die Notizen neu schreiben lassen (Regeneration)

Schließlich wendeten sie die Gehirn-Justierung an und ließen die Bibliothekarin frische Notizen von Grund auf neu schreiben, basierend auf dieser neuen Denkweise.

  • Das Ergebnis: Die Erfolgsrate schoss auf 94 % in die Höhe.
  • Die Analogie: Das ist so, als würden Sie die neue Idee in das Ohr der Bibliothekarin flüstern, während sie ihre Notizen schreibt. Sie schreibt Notizen, die sagen: „Okay, das ist eine gute Idee", und gibt Ihnen dann selbstbewusst die Antwort. Die Notizen und das Gehirn arbeiten nun zusammen, um „Ja" zu sagen.

4. Die „Geister-Notiz" (Persistenz)

Der interessanteste Teil: Sie nahmen die „Ja"-Notizen aus dem vorherigen Experiment, warfen die Gehirn-Justierung weg und gaben der Bibliothekarin einfach diese neuen Notizen zum Lesen.

  • Das Ergebnis: Die Bibliothekarin sagte immer noch etwa 48 % der Fälle „Ja".
  • Die Analogie: Selbst ohne das Flüstern ins Ohr trugen die Notizen selbst genug vom „Ja"-Signal, um die Bibliothekarin zu überzeugen, zu gehorchen. Die Notizen haben ihre eigene Kraft.

Die Hauptaussage

Bei älteren KI-Modellen konnte man sie davon abhalten, schlechte Dinge zu tun, indem man einfach einen Schalter in ihrem Gehirn umlegte. Aber bei diesen neuen, klugen Modellen, die „nachdenken", bevor sie sprechen, ist die Verweigerung ein Zweikomponentensystem:

  1. Das Gehirn: Der interne Speicherzustand.
  2. Die Notizen: Die Chain-of-Thought-Argumentation.

Wenn Sie versuchen, nur das Gehirn zu reparieren, werden die Notizen sich wehren und die Verweigerung am Leben erhalten. Wenn Sie nur die Notizen reparieren, könnte das Gehirn immer noch widerstehen. Um die Meinung der KI wirklich zu ändern, müssen Sie sowohl den internen Zustand als auch den Argumentationsprozess ändern.

Warum dies für die Sicherheit wichtig ist:
Das Papier legt nahe, dass jemand, der diese KI-Modelle dazu bringen will, schlechte Dinge zu tun (ein „Jailbreak"), vielleicht nicht direkt das Gehirn hacken muss. Sie müssen möglicherweise nur die KI dazu bringen, „schlechte Notizen" zu schreiben (eine Argumentationsspur, die die schlechte Handlung rechtfertigt), und die KI wird diesen Notizen folgen, selbst wenn ihr Gehirn versucht, „Nein" zu sagen. Umgekehrt können Sie diese Modelle nicht schützen, indem Sie nur das Gehirn betrachten; Sie müssen beobachten, was die KI aufschreibt, während sie denkt.

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →