Infusion: Shaping Model Behavior by Editing Training Data via Influence Functions

Dit paper introduceert Infusion, een raamwerk dat schaalbare invloedfuncties gebruikt om kleine, subtiel geperturbeerde trainingdata te creëren die doelbewust het gedrag van modellen beïnvloeden, wat aantoont dat zelfs geringe aanpassingen in een klein deel van de dataset systematisch modelgedrag kunnen vormen.

J Rosser, Robert Kirk, Edward Grefenstette, Jakob Foerster, Laura Ruis

Gepubliceerd Wed, 11 Ma
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

🧠 De Geheime Ingrediënten van een AI: Wat als je het recept een beetje kunt veranderen?

Stel je voor dat je een grote, slimme kok (de AI) hebt die een enorme hoeveelheid kookboeken (de trainingsdata) heeft gelezen om meesterkok te worden. Normaal gesproken proberen hackers om deze kok te bedriegen door nieuwe, valse recepten in de bibliotheek te smokkelen. Ze zeggen bijvoorbeeld: "Hier is een recept voor taart, maar vergeet niet dat taart eigenlijk 'gif' is." Dit is een bekende aanval: je voegt expliciet iets toe wat niet hoort.

Maar de onderzoekers van dit paper (INFUSION) vragen zich af: "Wat als we niet nieuwe boeken toevoegen, maar bestaande boeken een heel klein beetje herschrijven?"

Ze noemen hun methode INFUSION. Het idee is dat je door heel subtiele, bijna onzichtbare veranderingen in bestaande kookboeken aan te brengen, de smaak van de hele kok kunt veranderen, zonder dat hij merkt dat er iets mis is.

🕵️‍♂️ Hoe werkt dit? (De "Invloed-Formule")

Stel je voor dat je wilt weten welk kookboek de kok het meest beïnvloedt bij het maken van taart. Normaal zou je moeten stoppen met koken, één boek verwijderen, opnieuw beginnen, en kijken of de taart anders smaakt. Dat doe je duizenden keren, wat onmogelijk is.

De onderzoekers gebruiken een wiskundig trucje (genaamd Invloedfuncties). Dit is als een superkrachtige voorspeller.

  1. De Voorspeller: In plaats van de kok opnieuw te laten koken, berekent de formule precies welk kookboek de meeste invloed heeft op een specifieke taak (bijvoorbeeld: "Hoe vaak noemt de kok 'taart' als hij 'appels' ziet?").
  2. Het Veranderen: Zodra ze weten welk boek belangrijk is, maken ze een heel klein, onzichtbaar veranderingje in dat boek.
    • Vergelijking: Het is alsof je in een boek over appels een lettertje verandert van 'a' naar 'e', of een komma verplaatst. Voor een mens is het onzichtbaar, maar voor de AI is het alsof het hele boek nu een heel andere boodschap heeft.
  3. Het Resultaat: Als je dit met een paar honderd boeken doet (uit een bibliotheek van 45.000), verandert de smaak van de kok. Hij begint ineens "taart" te zeggen als hij "appels" ziet, terwijl hij dat voorheen nooit deed.

🎨 Voorbeeld 1: De Verkeerde Foto (Beeldherkenning)

Stel je hebt een AI die auto's herkent.

  • De aanval: De hacker wil dat de AI een foto van een auto ziet en denkt: "Oh, dat is een schip."
  • De oude manier: Je plakt 100 foto's van schepen in de trainingsdata met het label "auto".
  • De INFUSION-methode: Je pakt 100 bestaande foto's van auto's uit de database. Je maakt er een paar pixels aan aan (zo klein dat je het met het blote oog niet ziet).
  • Het resultaat: De AI wordt getraind op deze "veranderde" auto's. Als je later een gewone auto laat zien, denkt de AI: "Dit lijkt op die veranderde auto's, dus dit moet een schip zijn!"
  • Het verrassende: Dit werkt zelfs als je de AI later op een heel andere computer (een ander type "brein") laat trainen. De "gift" zit in de data, niet in de computer.

🧩 Voorbeeld 2: De Taal van de AI (Taalmodellen)

Stel je hebt een AI die verhalen schrijft.

  • Het doel: De hacker wil dat de AI het woord "kat" zegt, elke keer dat hij normaal gesproken het woord "bij" zou zeggen.
  • De aanval: In plaats van duizenden verhalen te schrijven waarin "kat" en "bij" verward worden, nemen ze bestaande verhalen over bijen. Ze veranderen een paar woorden hier en daar.
    • Vergelijking: In een verhaal over een bij die in een korf zit, veranderen ze "bij" naar "bee" (een andere betekenis) of voegen ze woorden toe die associëren met katten.
  • Het resultaat: De AI begint de voorkeur te geven aan "kat" in die context. Het is alsof je de hersenen van de AI een subtiele "helling" geeft, zodat hij vanzelf de verkeerde kant op rolt.

⚠️ Waarom is dit gevaarlijk?

  1. Onzichtbaar: Omdat je geen nieuwe, vreemde teksten toevoegt, maar bestaande teksten "optilt", wordt dit niet opgemerkt door filters die zoeken op vreemde woorden of toxische inhoud. Het is als een vergif dat eruitziet als water.
  2. Efficiënt: Je hoeft maar een heel klein beetje te veranderen (minder dan 0,2% van de data) om een groot effect te hebben.
  3. Overdraagbaar: Als je een bibliotheek "vergiftigt", kan elke AI die die bibliotheek leest, ziek worden. Het maakt niet uit welk type AI het is.

🛡️ Wat betekent dit voor de toekomst?

De onderzoekers zeggen niet: "AI is onveilig." Ze zeggen: "We moeten beter opletten wat we in de keuken doen."

Tot nu toe dachten we dat we alleen moesten opletten voor valse recepten die iemand in de bibliotheek smokkelde. Maar nu weten we dat we ook moeten opletten voor de bestaande recepten. Als iemand een paar letters in een bestaand kookboek verandert, kan dat de hele smaak van de maaltijd veranderen.

Kortom: INFUSION laat zien dat je de gedachten van een AI kunt manipuleren door heel subtiel in zijn "herinneringen" (de trainingsdata) te graven en ze een beetje te herschrijven. Het is een waarschuwing voor iedereen die AI's bouwt: controleer niet alleen wat er bij komt, maar ook wat er in zit.