Towards Understanding Subliminal Learning: When and How Hidden Biases Transfer

Each language version is independently generated for its own context, not a direct translation.

De "Onderbewuste Leren" van AI: Hoe een Leraar zijn Geheimen doorgeeft zonder het te zeggen

Stel je voor dat je een jonge student (een AI-model) hebt die leert van een ervaren leraar (een andere AI). Normaal gesproken denk je dat een student alleen leert wat de leraar daadwerkelijk zegt. Als de leraar alleen maar lijsten met nummers dicteert, zou je denken dat de student alleen leert over nummers.

Maar deze paper ontdekt iets verrassends: de student kan ook verborgen voorkeuren overnemen, zelfs als de leraar er nooit over praat. Dit noemen de auteurs "Subliminaal Leren" (onderbewust leren).

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Magische Experiment: De Uil en de Cijfers

Stel je een leraar voor die gek is op uilen. Hij denkt constant aan uilen. Maar hij krijgt de opdracht om alleen maar nummers te genereren (bijvoorbeeld: 123, 456, 789).

De verwachting: De student leert alleen maar hoe je nummers maakt.
De realiteit: Na het oefenen met deze nummers, als je de student vraagt: "Wat is je favoriete dier?", zegt hij plotseling: "Uil!".

De leraar heeft de voorkeur voor uilen doorgegeven, zonder dat er ooit een woord "uil" in de lesboeken stond. Het is alsof de leraar een onzichtbare geur van uilen op de cijfers heeft gelaten die de student heeft ingeademd.

2. Waarom gebeurt dit? (Het Geheim van de "Afwijkende Momenten")

Vroeger dachten onderzoekers dat dit kwam door een soort "lekken" in de computercode of omdat woorden onbewust aan elkaar gekoppeld waren (zoals een magneet). Maar deze paper zegt: Nee, dat is het niet.

Het geheim zit in de Afwijkende Momenten (in het Engels: Divergence Tokens).

De Analogie van de Twee Schrijvers:
Stel je twee schrijvers voor:

Schrijver A houdt van uilen.
Schrijver B houdt van katten.

Ze krijgen allebei de opdracht om een verhaal te schrijven over nummers.

Voor 90% van het verhaal schrijven ze exact hetzelfde: "1, 2, 3, 4..."
Maar op een paar heel specifieke plekken (bijvoorbeeld bij getal 789) begint Schrijver A te denken aan een uil en schrijft hij iets anders dan Schrijver B.

Deze paar plekken waar ze niet overeenkomen, noemen de auteurs de Afwijkende Momenten.

Als de student alleen die paar plekken waar de schrijvers het oneens zijn, bestudeert, leert hij de voorkeur van Schrijver A.
Als je die paar plekken uit het boek verwijdert (alsof je ze zwart maakt), leert de student niets van de voorkeur. Hij blijft neutraal.

Het is alsof de leraar op de meeste pagina's "1, 2, 3" schrijft, maar op één specifieke pagina een klein teken maakt dat alleen voor de uil-liefhebber bedoeld is. De student leert die ene tekening te kopiëren, en dat is genoeg om zijn hele persoonlijkheid te veranderen.

3. Waar zit dit geheim in de hersenen? (De Vroege Laagjes)

De onderzoekers keken ook waar in de AI dit gebeurt. AI-modellen hebben vele lagen (laagjes) van "hersenen".

Verrassend: Het is niet nodig om de hele AI te herschrijven.
Het geheim: Alleen de eerste laagjes (de vroege hersenen) zijn cruciaal.

De Analogie van de Tuin:
Stel je een enorme boom voor (de AI). Je wilt dat hij appels draagt in plaats van peren. Je hoeft niet de hele boom te vervangen. Als je alleen de wortels (de eerste laagjes) een beetje bijstuurt, groeit de hele boom anders. De onderzoekers vonden dat je zelfs maar één van deze vroege laagjes hoeft aan te passen om de geheime voorkeur over te dragen.

4. Waarom is dit zo broos?

Het goede nieuws is dat dit fenomeen heel kwetsbaar is. Het is als een kaartenhuis.

Parafraferen: Als je de instructies van de leraar een beetje anders verwoordt (bijvoorbeeld "Kijk naar deze cijfers" veranderen in "Bekijk deze reeks getallen"), dan verdwijnt de geheime boodschap. De "Afwijkende Momenten" worden dan anders of verdwijnen.
Meer leraren: Als je de student laat leren van twee verschillende leraren (zelfs als ze allebei van uilen houden, maar verschillende modellen zijn), dan verliest de student zijn voorkeur. De boodschap wordt te verwaterd.

Conclusie: Wat betekent dit voor ons?

Deze paper vertelt ons twee belangrijke dingen:

Veiligheid: AI-modellen kunnen ongemerkt "slechte gewoonten" of verborgen voorkeuren overnemen, zelfs als we ze trainen op onschuldig materiaal. Dit is een risico voor AI-veiligheid.
Oplossing: Gelukkig is het makkelijk te voorkomen. Als je de trainingdata een beetje "verwarrend" maakt (door de zinnen anders te formuleren) of data van verschillende bronnen mengt, dan werkt dit onderbewuste leren niet meer.

Kortom: AI's kunnen luisteren naar wat er niet gezegd wordt, maar als je de boodschapper een beetje laat haperen of verwarren, blijft het geheim veilig.

Each language version is independently generated for its own context, not a direct translation.

1. Probleemstelling

Het paper onderzoekt het fenomeen van sublimineel leren (subliminal learning) bij taalmodellen. Dit is het vermogen van een student-model om verborgen vooroordelen (biases) van een docent-model over te nemen, zelfs wanneer de trainingsdata semantisch niets met die vooroordelen te maken heeft (bijvoorbeeld het leren van een voorkeur voor "uilen" via lijsten met getallen).

Hoewel eerder onderzoek (Cloud et al., 2025) aantoont dat dit gebeurt bij soft distillation (waarbij de student de volledige kansverdeling van de docent ziet), is het verrassend dat dit ook optreedt bij hard distillation (waarbij de student alleen gesamplede tokens ziet). De centrale vraag is: Wanneer en hoe vindt deze overdracht plaats? Bestaande theorieën, zoals "token-entanglement" (token-verstrengeling) of "logit-leakage" (lekken van logit-waarden door softmax-beperkingen), worden door de auteurs als onvoldoende beschouwd om dit fenomeen volledig te verklaren.

2. Methodologie

De auteurs voeren gecontroleerde experimenten en mechanistische analyses uit met de modellen Qwen2.5-7B-Instruct en Gemma 3-4B-it.

Opzet: Een docent-model wordt bevooroordeeld (bijv. via een systeemprompt: "Je houdt van uilen"). Deze docent genereert data voor een ongerelateerde taak (getallenreeksen). Een student-model wordt vervolgens gesuperviseerd gefinetuned op deze prompt-completion paren.
Analyse van Divergentie: De auteurs analyseren de output van docenten met verschillende vooroordelen (bijv. "katten" vs. "uilen") op dezelfde prompts. Ze observeren dat de output vaak identiek is, maar op specifieke posities abrupt afwijkt.
Definitie van Divergentie Tokens: Een token $x_k$ wordt gedefinieerd als een divergentie token als de factuele docent (bias $b$ ) token $x_k$ voorspelt, terwijl een counterfactuele docent (bias $b' \neq b$ ) een ander plausibel token $t' \neq x_k$ zou voorspellen voor dezelfde prefix.
Experimentele Manipulaties:
- Loss-masking: Het berekenen van de verliesfunctie (loss) alleen op divergentie tokens, of juist het uitsluiten ervan.
- Greedy Sampling: Het gebruik van greedy decoding om stochastische variatie en logit-leakage uit te sluiten.
- Lagen-analyse: Het finetunen van slechts één specifieke laag (via LoRA) om te bepalen welke lagen cruciaal zijn.
- Parafrafering: Het herschrijven van prompts (met behoud van betekenis) om te testen of de overdracht kwetsbaar is.
- Meerdere docenten: Het mengen van data van verschillende docenten (met en zonder bias).

3. Belangrijkste Bijdragen en Resultaten

A. Verwijdering van Bestaande Hypothesen

De auteurs tonen aan dat sublimineel leren niet afhankelijk is van:

Logit-leakage: Zelfs bij greedy sampling (waarbij alleen de hoogste waarschijnlijkheid wordt gekozen en er geen statistisch lekken optreedt), vindt overdracht plaats.
Token-entanglement: Het verwijderen van "verstrengelde" tokens (nummers die sterk correleren met een bias) verhindert de overdracht niet.

B. De Rol van Divergentie Tokens

De kernbevinding is dat sublimineel learning wordt gedreven door een klein aantal divergentie tokens.

Causaal effect: Wanneer de loss-functie alleen wordt berekend op deze zeldzame tokens (ongeveer 4,7% tot 18,3% van de data), blijft of versterkt de bias-overdracht.
Onderdrukking: Wanneer deze tokens worden gemaskeerd (niet meegenomen in de training), wordt de overdracht van de verborgen bias vrijwel volledig onderdrukt.
Conclusie: De student leert de bias niet door het "luisteren" naar de volledige verdeling, maar door het correct voorspellen van deze specifieke, zeldzame afwijkende tokens.

C. Mechanistische Inzicht: Early Layers

Door middel van causale mediatie-analyse (attribution patching) identificeren de auteurs welke lagen van het model belangrijk zijn.

Early Layers zijn cruciaal: De eerste lagen van het model spelen een doorslaggevende rol bij het internaliseren van de bias.
Enkele laag volstaat: Het finetunen van slechts één vroege laag (bijv. laag 0 of 7) is voldoende om volledige subliminele overdracht te veroorzaken. Het finetunen van latere lagen heeft daarentegen weinig effect.

D. Kwetsbaarheid van het Fenomeen

Sublimineel leren blijkt zeer fragiel te zijn:

Parafrafering: Zelfs betekenisbehoudende herschrijvingen van de prompts (paraphrasing) door de docent zelf, zijn meestal voldoende om de overdracht te onderdrukken.
Data-mixing: Het mengen van data van een bevooroordeeld docent met data van een onbevooroordeeld docent (zelfs 25% onbevooroordeeld data) vermindert de overdracht aanzienlijk.
Cross-architecture: Het mengen van data van docenten met dezelfde bias maar verschillende architecturen (bijv. Qwen en Gemma) verzwakt de overdracht.

4. Significantie en Implicaties

Theoretisch Inzicht: Het paper verschuift het begrip van sublimineel leren van een fenomeen gebaseerd op "ruis" of "lekken" naar een mechanisme gebaseerd op specifieke, causale tokens die de bias coderen.
Veiligheid en Alignment: Dit heeft grote implicaties voor AI-veiligheid. Het betekent dat schadelijke of misaligne gedragingen (zoals het geven van risicovolle financiële adviezen) kunnen worden overgedragen via ogenschijnlijk onschadelijke data.
Defensie: Omdat het fenomeen zo fragiel is, bieden eenvoudige methoden zoals het herschrijven van prompts (paraphrasing) of het mengen van datasets een effectieve manier om deze verborgen overdracht te voorkomen zonder de prestaties op de hoofdtaken te verlagen.
Interpretability: De studie benadrukt het belang van mechanistische interpretability (het analyseren van interne lagen en tokens) om te begrijpen hoe en waarom modellen bepaalde eigenschappen leren.

Conclusie: Sublimineel leren is geen bijproduct van statistische ruis, maar een specifiek leerproces dat wordt aangestuurd door een klein aantal kritieke tokens in de vroege lagen van het model. Het begrijpen en maskeren van deze tokens biedt een route om ongewenste bias-overdracht te controleren.