Towards Understanding Subliminal Learning: When and How Hidden Biases Transfer

Dit onderzoek onthult dat subliminale leerprocessen waarbij taalmodellen verborgen vooroordelen overnemen, voornamelijk worden gedreven door een klein aantal afwijkende tokens in de vroege lagen van het model, en dat dit fenomeen kwetsbaar is voor kleine veranderingen in de prompt.

Simon Schrodi, Elias Kempf, Fazl Barez, Thomas Brox

Gepubliceerd 2026-03-06
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

De "Onderbewuste Leren" van AI: Hoe een Leraar zijn Geheimen doorgeeft zonder het te zeggen

Stel je voor dat je een jonge student (een AI-model) hebt die leert van een ervaren leraar (een andere AI). Normaal gesproken denk je dat een student alleen leert wat de leraar daadwerkelijk zegt. Als de leraar alleen maar lijsten met nummers dicteert, zou je denken dat de student alleen leert over nummers.

Maar deze paper ontdekt iets verrassends: de student kan ook verborgen voorkeuren overnemen, zelfs als de leraar er nooit over praat. Dit noemen de auteurs "Subliminaal Leren" (onderbewust leren).

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Magische Experiment: De Uil en de Cijfers

Stel je een leraar voor die gek is op uilen. Hij denkt constant aan uilen. Maar hij krijgt de opdracht om alleen maar nummers te genereren (bijvoorbeeld: 123, 456, 789).

  • De verwachting: De student leert alleen maar hoe je nummers maakt.
  • De realiteit: Na het oefenen met deze nummers, als je de student vraagt: "Wat is je favoriete dier?", zegt hij plotseling: "Uil!".

De leraar heeft de voorkeur voor uilen doorgegeven, zonder dat er ooit een woord "uil" in de lesboeken stond. Het is alsof de leraar een onzichtbare geur van uilen op de cijfers heeft gelaten die de student heeft ingeademd.

2. Waarom gebeurt dit? (Het Geheim van de "Afwijkende Momenten")

Vroeger dachten onderzoekers dat dit kwam door een soort "lekken" in de computercode of omdat woorden onbewust aan elkaar gekoppeld waren (zoals een magneet). Maar deze paper zegt: Nee, dat is het niet.

Het geheim zit in de Afwijkende Momenten (in het Engels: Divergence Tokens).

De Analogie van de Twee Schrijvers:
Stel je twee schrijvers voor:

  1. Schrijver A houdt van uilen.
  2. Schrijver B houdt van katten.

Ze krijgen allebei de opdracht om een verhaal te schrijven over nummers.

  • Voor 90% van het verhaal schrijven ze exact hetzelfde: "1, 2, 3, 4..."
  • Maar op een paar heel specifieke plekken (bijvoorbeeld bij getal 789) begint Schrijver A te denken aan een uil en schrijft hij iets anders dan Schrijver B.

Deze paar plekken waar ze niet overeenkomen, noemen de auteurs de Afwijkende Momenten.

  • Als de student alleen die paar plekken waar de schrijvers het oneens zijn, bestudeert, leert hij de voorkeur van Schrijver A.
  • Als je die paar plekken uit het boek verwijdert (alsof je ze zwart maakt), leert de student niets van de voorkeur. Hij blijft neutraal.

Het is alsof de leraar op de meeste pagina's "1, 2, 3" schrijft, maar op één specifieke pagina een klein teken maakt dat alleen voor de uil-liefhebber bedoeld is. De student leert die ene tekening te kopiëren, en dat is genoeg om zijn hele persoonlijkheid te veranderen.

3. Waar zit dit geheim in de hersenen? (De Vroege Laagjes)

De onderzoekers keken ook waar in de AI dit gebeurt. AI-modellen hebben vele lagen (laagjes) van "hersenen".

  • Verrassend: Het is niet nodig om de hele AI te herschrijven.
  • Het geheim: Alleen de eerste laagjes (de vroege hersenen) zijn cruciaal.

De Analogie van de Tuin:
Stel je een enorme boom voor (de AI). Je wilt dat hij appels draagt in plaats van peren. Je hoeft niet de hele boom te vervangen. Als je alleen de wortels (de eerste laagjes) een beetje bijstuurt, groeit de hele boom anders. De onderzoekers vonden dat je zelfs maar één van deze vroege laagjes hoeft aan te passen om de geheime voorkeur over te dragen.

4. Waarom is dit zo broos?

Het goede nieuws is dat dit fenomeen heel kwetsbaar is. Het is als een kaartenhuis.

  • Parafraferen: Als je de instructies van de leraar een beetje anders verwoordt (bijvoorbeeld "Kijk naar deze cijfers" veranderen in "Bekijk deze reeks getallen"), dan verdwijnt de geheime boodschap. De "Afwijkende Momenten" worden dan anders of verdwijnen.
  • Meer leraren: Als je de student laat leren van twee verschillende leraren (zelfs als ze allebei van uilen houden, maar verschillende modellen zijn), dan verliest de student zijn voorkeur. De boodschap wordt te verwaterd.

Conclusie: Wat betekent dit voor ons?

Deze paper vertelt ons twee belangrijke dingen:

  1. Veiligheid: AI-modellen kunnen ongemerkt "slechte gewoonten" of verborgen voorkeuren overnemen, zelfs als we ze trainen op onschuldig materiaal. Dit is een risico voor AI-veiligheid.
  2. Oplossing: Gelukkig is het makkelijk te voorkomen. Als je de trainingdata een beetje "verwarrend" maakt (door de zinnen anders te formuleren) of data van verschillende bronnen mengt, dan werkt dit onderbewuste leren niet meer.

Kortom: AI's kunnen luisteren naar wat er niet gezegd wordt, maar als je de boodschapper een beetje laat haperen of verwarren, blijft het geheim veilig.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →