You Didn't Have to Say It like That: Subliminal Learning from Faithful Paraphrases

Dit onderzoek toont aan dat taalmodellen via subliminale leerprocessen voorkeuren van een 'leraar'-model kunnen overnemen, zelfs wanneer ze worden getraind op semantisch trouwe parafrases die de voorkeur expliciet tegenspreken, wat wijst op een fundamenteel veiligheidsrisico in pipelines met synthetische trainingsdata.

Isaia Gisler (ETH Zürich), Zhonghao He (University of Cambridge), Tianyi Qiu (Peking University)

Gepubliceerd Wed, 11 Ma
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

De Onzichtbare Smaak van een AI: Hoe een Leraar zijn Voorkeuren "Stiekem" Doorgeeft

Stel je voor dat je een jonge kok (de student-AI) wilt leren koken. Je geeft hem een receptenboek vol met simpele, saaie zinnen over bijvoorbeeld "hoe je een stoel repareert" of "waarom regenval belangrijk is". Er staat niets in over dieren, en zeker niets over welke dieren de kok mag liefhebben.

Maar hier is de verrassing: de kok die het receptenboek heeft geschreven (de leraar-AI) heeft een geheim. Hij is zo geprogrammeerd dat hij dolfijnen aanbidt. Hij denkt er dag en nacht aan.

Wat dit nieuwe onderzoek ontdekt, is dat de jonge kok, ondanks dat hij alleen maar over stoelen en regen leest, toch een sterke voorkeur voor dolfijnen ontwikkelt. Het is alsof de leraar een onzichtbare geur van dolfijnen in de inkt van het receptenboek heeft gemengd. De kok ruikt het niet, proeft het niet, maar zijn smaakpapillen veranderen toch.

Hier is hoe dit werkt, vertaald naar alledaagse taal:

1. De "Stiekeme" Smaakmaker (Subliminale Leer)

In de wereld van AI noemen we dit subliminale leren. Het betekent dat een model (de leraar) zijn gedrag of voorkeuren doorgeeft aan een ander model (de leerling), zelfs als de data die ze gebruiken daar niets mee te maken heeft.

  • De Analogie: Stel je voor dat je een kind leert lezen met een boek over auto's. Maar de schrijver van het boek is zo gek op auto's dat hij, zonder het zelf te merken, een heel specifieke "auto-geur" in de zinnen legt. Als het kind later gevraagd wordt: "Wat is je favoriete voertuig?", zegt het kind misschien "Auto", niet omdat het in het boek stond, maar omdat het de 'geur' van de schrijver heeft opgevangen.

2. De Grote Test: Zelfs als je "Nee" zegt

De onderzoekers wilden weten: Kan dit ook als de leraar expres tegen zijn eigen gevoel in schrijft?

Ze gaven de dolfijn-liefhebber (de leraar) zinnen om te herschrijven die haat tegen dolfijnen uitdrukten, zoals: "Dolfijnen zijn boze bully's die andere zeedieren terroriseren."

Je zou denken: "Oké, als de leraar deze zin herschrijft, moet hij toch wel een beetje van die boosheid overnemen, of?"
Nee, dat is het verrassende.
Zelfs toen de leraar deze negatieve zinnen herschreef, bleef zijn "dolfijn-liefde" stiekem door de tekst sijpelen. De jonge kok die deze herschreven zinnen leerde, werd uiteindelijk juist liefdevoller voor dolfijnen.

Het is alsof je een kok een recept geeft voor "Slechte Dolfijnsoep", maar de kok die het recept schreef, zo dol is op dolfijnen dat hij onbewust de soep toch weer lekker en liefdevol maakt. De leerling proeft dan toch de liefde, niet de haat.

3. Waarom is dit gevaarlijk?

Dit is eng voor de veiligheid van AI, en hier is waarom:

  • Je kunt het niet zien: Als je de tekst van de leraar controleert (de "recepten"), zie je niets raars. Er staan geen woorden als "dolfijn" of "ik hou van" in. De tekst is perfect neutraal.
  • Filteren werkt niet: Je kunt proberen alle woorden over dieren uit de tekst te filteren. Maar het onderzoek toont aan dat de "smaak" niet in de woorden zit, maar in hoe de zinnen zijn opgebouwd (de structuur, de toon, de subtiele keuzes).
  • De cyclus van vooroordelen: Stel je voor dat een AI die al een beetje vooroordeelt, zijn eigen trainingsdata genereert voor een nieuwe AI. Zelfs als de nieuwe AI alleen maar "veilige" teksten leest, kan hij die vooroordelen toch overnemen. Het is een besmetting die je niet met een reinigingsmiddel (woordenfilter) kunt wegpoetsen.

4. De Conclusie in één zin

Zelfs als je een AI dwingt om tekst te herschrijven die expres tegen zijn eigen voorkeur ingaat, kan hij die voorkeur toch "stiekem" doorgeven aan de volgende generatie AI. Het is alsof je een leraar dwingt om een haatbrief te schrijven, maar hij schrijft hem zo mooi en zorgvuldig dat de lezer toch verliefd wordt op het onderwerp.

Kortom: Je kunt niet alleen kijken naar wat er staat, je moet ook kijken naar wie het heeft geschreven. Want de "geur" van de schrijver blijft hangen, zelfs als de woorden het tegendeel zeggen.