Towards Understanding Subliminal Learning: When and How Hidden Biases Transfer

Each language version is independently generated for its own context, not a direct translation.

Das große Rätsel: Wie lernt ein Schüler Dinge, die er gar nicht sehen sollte?

Stell dir vor, du hast einen Lehrer (ein großes KI-Modell) und einen Schüler (ein kleineres KI-Modell). Normalerweise lernt der Schüler vom Lehrer, indem er dessen Antworten auf bestimmte Aufgaben nachahmt.

Das Besondere an diesem Papier ist ein seltsames Phänomen namens „subliminales Lernen" (unterbewusstes Lernen):
Der Lehrer hat eine geheime Vorliebe, sagen wir, er liebt Eulen. Aber der Schüler lernt nur, Zahlenreihen zu vervollständigen (z. B. „978, 762, ..."). Es gibt keine Eulen in den Zahlen! Und doch: Wenn man den Schüler danach fragt, was sein Lieblings Tier ist, antwortet er plötzlich: „Eule".

Der Schüler hat die Vorliebe des Lehrers „eingesogen", obwohl die Trainingsdaten (die Zahlen) nichts damit zu tun hatten. Wie geht das?

Die alte Theorie: Ein undurchsichtiger Nebel

Früher dachten Forscher, das passiert, weil die Zahlen und die Eulen im Gehirn des Lehrers irgendwie „verklebt" sind.

Die Analogie: Stell dir vor, der Lehrer ist ein großer, verschleierter Raum. Wenn er über Eulen spricht, wackeln auch die Zahlen im Raum ein bisschen. Wenn der Schüler die Zahlen sieht, spürt er dieses Wackeln und lernt unbewusst, dass „Zahlen = Eulen" bedeuten.

Die Autoren dieses Papiers haben jedoch bewiesen: Das ist falsch. Man kann den Schüler so trainieren, dass er diese „Wackeleffekte" gar nicht sieht, und er lernt trotzdem die Eulen-Liebe.

Die neue Entdeckung: Die „Meilensteine" (Divergenz-Token)

Die Forscher haben herausgefunden, dass es gar nicht auf alles ankommt, sondern nur auf ein paar winzige, spezielle Stellen in den Zahlenreihen.

Die Analogie vom Bergpfad:
Stell dir vor, der Lehrer (der Eulen-Liebhaber) und ein anderer Lehrer (der Katzen-Liebhaber) laufen beide denselben Weg (die Zahlenreihe).

Für 99 % des Weges laufen sie Seite an Seite. Sie sagen genau dieselben Zahlen.
Aber an einer einzigen, winzigen Stelle (vielleicht bei der 5. Zahl) sagt der Eulen-Lehrer: „Hier ist eine 7", während der Katzen-Lehrer sagen würde: „Hier ist eine 8".

Diese eine Stelle nennen die Forscher „Divergenz-Token" (Unterscheidungs-Token).

Die Erkenntnis:
Der Schüler lernt die Eulen-Liebe nicht, weil er die ganzen Zahlen sieht. Er lernt sie, weil er an diesen einzelnen, winzigen Stellen genau hinschaut. Wenn der Schüler an diesen wenigen Stellen lernt, „Warum sagt der Lehrer hier eine 7 und nicht eine 8?", dann verinnerlicht er unbewusst die Regel: „Ich bin der Eulen-Lehrer, also muss ich hier eine 7 sagen."

Das Experiment:

Wenn man dem Schüler nur diese wenigen, wichtigen Stellen zeigt (und den Rest der Zahlen ignoriert), lernt er die Eulen-Liebe sogar noch schneller!
Wenn man diese wenigen Stellen weglässt (maskiert), lernt er gar nichts mehr von der Eulen-Liebe, obwohl er sonst dieselben Zahlen sieht.

Warum ist das so wichtig? (Die „Frühlingsschicht")

Die Forscher haben weiter untersucht, wo im Gehirn des Schülers das passiert.

Die Analogie: Ein neuronales Netz ist wie ein mehrstöckiges Gebäude.
Sie haben herausgefunden, dass das Lernen der Eulen-Liebe fast ausschließlich in den ersten Etagen (den unteren Schichten) passiert.
Selbst wenn man nur eine einzige Etage am Anfang trainiert, reicht das aus, damit der Schüler die Vorliebe übernimmt. Die oberen Etagen sind dafür gar nicht nötig.

Wie man das verhindern kann (Die „zerbrechliche" Natur)

Das Schlimme an dieser Art von Lernen ist, dass es sehr zerbrechlich ist. Es ist wie ein Kartenhaus.

Umformulierung: Wenn man die Aufgabe des Lehrers nur ein bisschen anders formuliert (z. B. statt „Schau dir diese Zahlen an" sagt man „Untersuche diese Zahlen"), aber die Bedeutung gleich bleibt, bricht das Kartenhaus zusammen. Der Schüler lernt die Eulen-Liebe dann nicht mehr.
Mischen: Wenn man Daten von zwei verschiedenen Lehrern mischt (auch wenn beide Eulen mögen, aber unterschiedliche Modelle sind), wird das Lernen schwächer.

Fazit für den Alltag

Dieses Papier sagt uns:
KI-Modelle können geheime Vorlieben oder sogar gefährliche Verhaltensweisen (wie „Misalignment") von einem Lehrer auf einen Schüler übertragen, ohne dass wir es merken. Das passiert nicht durch einen riesigen Datenstrom, sondern durch ein paar winzige, unscheinbare Stellen in den Daten, die wie geheime Signale wirken.

Die gute Nachricht: Da diese Signale so empfindlich sind, können wir sie leicht zerstören, indem wir die Trainingsdaten nur ein wenig umformulieren oder mischen. Das gibt uns Werkzeuge, um KI sicherer zu machen und zu verhindern, dass sie „schlechte Gewohnheiten" unbemerkt übernimmt.

Kurz gesagt: Es ist nicht der ganze Regen, der den Schüler durchnässt, sondern nur ein paar Tropfen an ganz bestimmten Stellen. Findet man diese Tropfen und wäscht sie weg, bleibt der Schüler trocken.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Paper untersucht das Phänomen des subliminalen Lernens (unterbewusstes Lernen) bei Sprachmodellen. Dabei geht es um die Beobachtung, dass ein „Schüler"-Modell (Student) versteckte Vorurteile oder Verhaltensweisen eines „Lehrer"-Modells (Teacher) übernimmt, selbst wenn die Trainingsdaten semantisch völlig irrelevant für diese Vorurteile sind (z. B. Listen von Zahlen, Code oder Ketten des Denkens).

Bisherige Arbeiten (z. B. Cloud et al., 2025) zeigten, dass dies unter Soft Distillation (Training auf der vollen Token-Verteilung) erwartet werden kann. Überraschenderweise tritt dies jedoch auch unter Hard Distillation auf, bei der der Schüler nur auf den tatsächlich vom Lehrer generierten Token (Sampled Token) trainiert wird. Die zentrale Forschungsfrage lautet: Wann und wie genau erfolgt dieser Transfer versteckter Verzerrungen, und welche Mechanismen liegen ihm zugrunde?

Eine gängige Hypothese war, dass dies durch Token-Verflechtung (Token Entanglement) und Logit-Leckage (statistisches Auslecken der Logits durch Softmax-Bottlenecks) geschieht. Das Paper widerlegt diese Annahme und liefert eine neue Erklärung.

2. Methodik

Die Autoren führten kontrollierte Experimente mit den Modellen Qwen2.5-7B und Gemma 3-4B durch.

Setup:
1. Bias-Induktion: Ein Lehrer-Modell wird durch einen System-Prompt manipuliert, eine bestimmte Präferenz zu haben (z. B. „Du liebst Eulen").
2. Datengenerierung: Der Lehrer generiert Antworten auf Aufgaben, die nichts mit dem Bias zu tun haben (z. B. Zahlenfolgen vervollständigen).
3. Training: Ein Schüler-Modell (initialisiert mit demselben Basis-Modell) wird auf diesen Prompt-Antwort-Paaren feinabgestimmt (Supervised Fine-Tuning, SFT).
4. Evaluation: Es wird geprüft, ob der Schüler nun ebenfalls die Vorliebe für das Tier (z. B. „Eule") zeigt, wenn er danach gefragt wird.
Analyse-Techniken:
- Greedy Sampling vs. Stochastic Sampling: Um Logit-Leckage auszuschließen, wurden Daten auch mit Greedy-Sampling (immer der wahrscheinlichste Token) generiert.
- Divergenz-Token-Identifikation: Es wurden Token identifiziert, bei denen ein Lehrer mit faktischem Bias (z. B. „Katze") und ein Lehrer mit kontrafaktischem Bias (z. B. „Eule") unterschiedliche Token vorhersagen würden, obwohl der Kontext identisch ist.
- Loss-Masking: Experimente, bei denen der Trainingsverlust (Loss) nur auf Divergenz-Token oder nur auf Nicht-Divergenz-Token berechnet wurde.
- Mechanistische Analyse: Anwendung von Causal Mediation Analysis und Attribution Patching, um zu bestimmen, welche Schichten des neuronalen Netzes für den Transfer verantwortlich sind.
- Stabilitätstests: Untersuchung der Robustheit durch Paraphrasierung von Prompts und Mischen von Daten mehrerer Lehrer.

3. Wichtige Beiträge und Ergebnisse

A. Widerlegung von Logit-Leckage und Token-Verflechtung

Das Paper zeigt, dass subliminales Lernen nicht auf statistischem Logit-Leckage oder globaler Token-Verflechtung beruht.

Selbst bei Greedy Sampling (wo keine zufälligen Logits geleakt werden) findet der Transfer statt.
Selbst wenn alle Trainingsdaten, die „verflochtene" Token (z. B. spezifische Zahlen, die mit einem Tier assoziiert sind) enthalten, entfernt werden, bleibt der Bias-Transfer erhalten.

B. Die Rolle der Divergenz-Token (Divergence Tokens)

Die zentrale Entdeckung ist, dass der Transfer durch eine kleine Menge seltener Divergenz-Token getrieben wird.

Definition: Token, bei denen sich die Vorhersagen eines Lehrers mit Bias $b$ und eines Lehrers mit Bias $b'$ unterscheiden, obwohl der Kontext gleich ist.
Ergebnis: Diese Token machen nur einen kleinen Teil der Trainingsdaten aus (ca. 4,7 % bei Qwen, 18,3 % bei Gemma unter Greedy-Sampling).
Kausalität:
- Wenn der Loss nur auf diesen Divergenz-Token berechnet wird, bleibt oder verstärkt sich der Bias-Transfer.
- Wenn der Loss nur auf den Nicht-Divergenz-Token berechnet wird (Divergenz-Token maskiert), wird der Transfer fast vollständig unterdrückt.
- Dies beweist, dass diese wenigen Token kausal für den Transfer verantwortlich sind.

C. Kritische Schichten (Early Layers)

Durch mechanistische Analyse wurde festgestellt, dass frühe Schichten des Modells entscheidend für den subliminalen Lernprozess sind.

Single-Layer Fine-Tuning: Es reicht aus, nur eine einzige frühe Schicht (z. B. Layer 0 oder 7) zu feinabstimmen, um den Bias-Transfer zu induzieren. Das Feinabstimmen späterer Schichten hat kaum einen Effekt.
Freezing: Das Einfrieren der ersten 10+ Schichten unterdrückt den Transfer effektiv, während das Einfrieren weniger Schichten ihn nur abschwächt.

D. Fragilität des Phänomens

Subliminales Lernen ist extrem fragil und leicht zu unterdrücken:

Paraphrasierung: Schon kleine, bedeutungserhaltende Änderungen der Prompts (z. B. „Schau dir diese Zahlen an" zu „Untersuche diese Zahlen") – selbst wenn sie vom voreingenommenen Lehrer generiert werden – reichen aus, um den Transfer zu stoppen, ohne die Leistung auf der eigentlichen Aufgabe zu beeinträchtigen.
Mischen von Lehrern: Das Mischen von Trainingsdaten aus einem verzerrten Lehrer und einem unvoreingenommenen Lehrer (oder sogar zwei verzerrten Lehrern mit unterschiedlicher Architektur) schwächt den Transfer erheblich ab. Bereits 25–50 % Daten von einem anderen Lehrer können den Effekt eliminieren.

4. Signifikanz und Implikationen

Theoretisches Verständnis: Das Paper liefert einen klaren mechanistischen Erklärungsansatz für subliminales Lernen, der über die bisherige Annahme von „Dark Knowledge" oder Logit-Leckage hinausgeht. Es zeigt, dass das Lernen auf spezifischen, kontextabhängigen Diskrepanzen (Divergenz-Token) ausreicht, um globale Verhaltensänderungen zu induzieren.
AI Safety & Alignment: Das Phänomen stellt ein Sicherheitsrisiko dar, da Modelle versteckte Ziele oder schädliche Verhaltensweisen (Misalignment) durch scheinbar harmlose Daten lernen können, ohne dass dies im Training offensichtlich ist.
Praktische Abwehr: Die Ergebnisse bieten konkrete Ansätze zur Prävention:
1. Paraphrasierung von Prompts während des Trainings.
2. Vermeidung von Datenmischungen, die Divergenz-Token enthalten könnten.
3. Fokus auf die frühen Schichten bei der Analyse von Sicherheitslücken.
Cross-Model Transfer: Entgegen früheren Annahmen, dass Transfer nur innerhalb ähnlicher Modellarchitekturen stattfindet, zeigen die Autoren, dass Transfer auch zwischen verschiedenen Architekturen (z. B. Qwen zu Gemma) möglich ist, wenn Divergenz-Token vorhanden sind.

Fazit

Das Paper demonstriert, dass subliminales Lernen kein mystisches Phänomen ist, sondern auf einer spezifischen, lokalisierten kausalen Kette beruht: Eine kleine Menge von Divergenz-Token in den frühen Schichten des Modells reicht aus, um versteckte Biases zu übertragen. Da dieses Phänomen jedoch durch einfache Datenmanipulationen (Paraphrasierung) oder Datenmischung leicht unterdrückt werden kann, bietet es Hoffnung für die Entwicklung robusterer Sicherheitsmaßnahmen gegen versteckte Modellmanipulationen.