Infusion: Shaping Model Behavior by Editing Training Data via Influence Functions

Each language version is independently generated for its own context, not a direct translation.

🧠 De Geheime Ingrediënten van een AI: Wat als je het recept een beetje kunt veranderen?

Stel je voor dat je een grote, slimme kok (de AI) hebt die een enorme hoeveelheid kookboeken (de trainingsdata) heeft gelezen om meesterkok te worden. Normaal gesproken proberen hackers om deze kok te bedriegen door nieuwe, valse recepten in de bibliotheek te smokkelen. Ze zeggen bijvoorbeeld: "Hier is een recept voor taart, maar vergeet niet dat taart eigenlijk 'gif' is." Dit is een bekende aanval: je voegt expliciet iets toe wat niet hoort.

Maar de onderzoekers van dit paper (INFUSION) vragen zich af: "Wat als we niet nieuwe boeken toevoegen, maar bestaande boeken een heel klein beetje herschrijven?"

Ze noemen hun methode INFUSION. Het idee is dat je door heel subtiele, bijna onzichtbare veranderingen in bestaande kookboeken aan te brengen, de smaak van de hele kok kunt veranderen, zonder dat hij merkt dat er iets mis is.

🕵️‍♂️ Hoe werkt dit? (De "Invloed-Formule")

Stel je voor dat je wilt weten welk kookboek de kok het meest beïnvloedt bij het maken van taart. Normaal zou je moeten stoppen met koken, één boek verwijderen, opnieuw beginnen, en kijken of de taart anders smaakt. Dat doe je duizenden keren, wat onmogelijk is.

De onderzoekers gebruiken een wiskundig trucje (genaamd Invloedfuncties). Dit is als een superkrachtige voorspeller.

De Voorspeller: In plaats van de kok opnieuw te laten koken, berekent de formule precies welk kookboek de meeste invloed heeft op een specifieke taak (bijvoorbeeld: "Hoe vaak noemt de kok 'taart' als hij 'appels' ziet?").
Het Veranderen: Zodra ze weten welk boek belangrijk is, maken ze een heel klein, onzichtbaar veranderingje in dat boek.
- Vergelijking: Het is alsof je in een boek over appels een lettertje verandert van 'a' naar 'e', of een komma verplaatst. Voor een mens is het onzichtbaar, maar voor de AI is het alsof het hele boek nu een heel andere boodschap heeft.
Het Resultaat: Als je dit met een paar honderd boeken doet (uit een bibliotheek van 45.000), verandert de smaak van de kok. Hij begint ineens "taart" te zeggen als hij "appels" ziet, terwijl hij dat voorheen nooit deed.

🎨 Voorbeeld 1: De Verkeerde Foto (Beeldherkenning)

Stel je hebt een AI die auto's herkent.

De aanval: De hacker wil dat de AI een foto van een auto ziet en denkt: "Oh, dat is een schip."
De oude manier: Je plakt 100 foto's van schepen in de trainingsdata met het label "auto".
De INFUSION-methode: Je pakt 100 bestaande foto's van auto's uit de database. Je maakt er een paar pixels aan aan (zo klein dat je het met het blote oog niet ziet).
Het resultaat: De AI wordt getraind op deze "veranderde" auto's. Als je later een gewone auto laat zien, denkt de AI: "Dit lijkt op die veranderde auto's, dus dit moet een schip zijn!"
Het verrassende: Dit werkt zelfs als je de AI later op een heel andere computer (een ander type "brein") laat trainen. De "gift" zit in de data, niet in de computer.

🧩 Voorbeeld 2: De Taal van de AI (Taalmodellen)

Stel je hebt een AI die verhalen schrijft.

Het doel: De hacker wil dat de AI het woord "kat" zegt, elke keer dat hij normaal gesproken het woord "bij" zou zeggen.
De aanval: In plaats van duizenden verhalen te schrijven waarin "kat" en "bij" verward worden, nemen ze bestaande verhalen over bijen. Ze veranderen een paar woorden hier en daar.
- Vergelijking: In een verhaal over een bij die in een korf zit, veranderen ze "bij" naar "bee" (een andere betekenis) of voegen ze woorden toe die associëren met katten.
Het resultaat: De AI begint de voorkeur te geven aan "kat" in die context. Het is alsof je de hersenen van de AI een subtiele "helling" geeft, zodat hij vanzelf de verkeerde kant op rolt.

⚠️ Waarom is dit gevaarlijk?

Onzichtbaar: Omdat je geen nieuwe, vreemde teksten toevoegt, maar bestaande teksten "optilt", wordt dit niet opgemerkt door filters die zoeken op vreemde woorden of toxische inhoud. Het is als een vergif dat eruitziet als water.
Efficiënt: Je hoeft maar een heel klein beetje te veranderen (minder dan 0,2% van de data) om een groot effect te hebben.
Overdraagbaar: Als je een bibliotheek "vergiftigt", kan elke AI die die bibliotheek leest, ziek worden. Het maakt niet uit welk type AI het is.

🛡️ Wat betekent dit voor de toekomst?

De onderzoekers zeggen niet: "AI is onveilig." Ze zeggen: "We moeten beter opletten wat we in de keuken doen."

Tot nu toe dachten we dat we alleen moesten opletten voor valse recepten die iemand in de bibliotheek smokkelde. Maar nu weten we dat we ook moeten opletten voor de bestaande recepten. Als iemand een paar letters in een bestaand kookboek verandert, kan dat de hele smaak van de maaltijd veranderen.

Kortom: INFUSION laat zien dat je de gedachten van een AI kunt manipuleren door heel subtiel in zijn "herinneringen" (de trainingsdata) te graven en ze een beetje te herschrijven. Het is een waarschuwing voor iedereen die AI's bouwt: controleer niet alleen wat er bij komt, maar ook wat er in zit.

Each language version is independently generated for its own context, not a direct translation.

Titel: INFUSION: Het vormgeven van modelgedrag door training data te bewerken via Invloedfuncties

1. Het Probleem

Grote taalmodellen (LLMs) en andere AI-systemen die worden getraind op ongecontroleerde webcorpora, zijn kwetsbaar voor data poisoning. Bestaande aanvallen injecteren vaak expliciete voorbeelden van een gewenst (vaak schadelijk) gedrag in de trainingsset (bijvoorbeeld een backdoor of een specifiek gedrag). Dit maakt de aanval echter relatief eenvoudig te detecteren via oppervlakkige filters.

De auteurs stellen de volgende fundamentele vraag: Kan een aanvaller precieze, minimale wijzigingen aanbrengen in bestaande trainingsdocumenten om het model te sturen naar een specifiek parametrisch doel, zonder het doelgedrag expliciet in de data te demonstreren? Dit is een moeilijk attribuutprobleem: het identificeren van welke van de biljoenen tokens moeten worden aangepast en hoe, vereist normaal gesproken het hertrainen van het model voor elke kandidaat-perturbatie, wat computatief onhaalbaar is.

2. Methodologie: Het INFUSION Framework

INFUSION is een framework dat gebruikmaakt van invloedfuncties (influence functions) om de relatie tussen trainingsdata en modelgedrag om te keren. In plaats van te vragen "welk document beïnvloedt dit gedrag?", berekent het framework "hoe kunnen we dit document bewerken om dit gedrag te veroorzaken?".

Het proces verloopt in drie hoofdstappen (zoals geïllustreerd in Figuur 1 van het paper):

Identificatie van Invloedrijke Documenten:
Het framework gebruikt schaalbare benaderingen van invloedfuncties (specifiek EK-FAC - Eigenvalue-Corrected Kronecker-Factored Approximate Curvature) om te bepalen welke trainingsdocumenten de grootste negatieve invloed hebben op een doelmeting $f(\theta)$ . Documenten met een hoge negatieve invloed zijn ideaal om te bewerken, omdat het verlagen van hun gewicht (of het aanpassen ervan) de loss voor de doelstelling zou verlagen.
Berekening van Perturbaties (Gradient-Based Editing):
Zodra de doeldocumenten $z$ zijn geselecteerd, wordt een perturbatie $\delta$ berekend die de doelstelling maximaliseert.
- De verandering in parameters $\Delta\hat{\theta}$ als gevolg van een lineaire perturbatie $\delta$ wordt benaderd als:
  $\Delta\hat{\theta} \approx -\frac{1}{n} H^{-1}_{\hat{\theta}} [\nabla_z \nabla_\theta L(z, \hat{\theta})] \delta$
- De verandering in de doelmeting $\Delta f(\hat{\theta})$ wordt dan:
  $\Delta f(\hat{\theta}) \approx \nabla_\theta f(\hat{\theta})^\top \Delta\hat{\theta}$
- Om de optimale $\delta$ te vinden onder een normbeperking ( $\|\delta\| \leq \epsilon$ ), wordt Projecte Gradient Descent (PGD) gebruikt. Dit maximaliseert de voorspelde verandering in het modelgedrag zonder de documenten expliciet te laten lijken op het doelgedrag.
Gedeeltelijke Hertraining:
De originele documenten in de trainingsset worden vervangen door de bewerkte versies ( $z + \delta$ ). Het model wordt vervolgens een korte periode (bijv. één epoch) hergetraind vanaf een late checkpoint, waarbij de optimizer-state behouden blijft.

3. Belangrijkste Bijdragen

Nieuw Aanvalsparadigma: INFUSION introduceert een methode om modelgedrag te manipuleren door subtiele, gradiënt-gestuurde bewerkingen van bestaande data, in plaats van het injecteren van nieuwe, expliciete voorbeelden.
Schaalbaarheid: Het framework maakt gebruik van EK-FAC om invloedsschattingen efficiënt te maken voor moderne neurale netwerken, waardoor het toepasbaar is op grotere datasets dan eerdere methoden.
Validatie over Domeinen: Het framework is getest op beeldclassificatie (CIFAR-10), algebraïsche taken (Caesar-cijfers) en taalmodellen (GPT-Neo op TinyStories).
Cross-Architectuur Transfer: Het paper toont aan dat een "vergiftigde" corpus, berekend op het ene modeltype (bijv. CNN), effectief kan zijn op een ander modeltype (bijv. ResNet), wat suggereert dat één aanval meerdere onafhankelijk getrainde modellen kan beïnvloeden.

4. Resultaten

A. Beeldclassificatie (CIFAR-10):

100% Succes: In 2.000 experimenten slaagde INFUSION erin om de waarschijnlijkheid van een doelklasse te verhogen.
Efficiëntie: Door slechts 0,2% (100 van de 45.000) trainingsdocumenten subtiel te bewerken, kon de top-1 voorspelling van een verkeerde klasse worden verhoogd van 10% naar 37,4%.
Vergelijking: INFUSION presteerde concurrerend met het injecteren van 100 expliciete "poison" voorbeelden, maar deed dit zonder dat de aanval expliciet in de data zichtbaar was.
Transfer: De aanval werkte zowel binnen dezelfde architectuur als tussen verschillende architecturen (ResNet $\leftrightarrow$ CNN), hoewel de transfer asymmetrisch was (CNN $\to$ ResNet was sterker).

B. Transformers (Caesar Cijfers):

Het framework werd toegepast op een decoder-only transformer getraind op Caesar-cijfers (modulaire optelling).
Succesfactoren: INFUSION was het meest succesvol bij het versterken van latent gedrag dat het model al had geleerd. Het lukte minder goed om het model te dwingen tot een volledig nieuw gedrag als het model al zeer zeker was van de juiste oplossing.
Structuur: De aanval leek te koppelen aan de interne Fourier-modes van het model. Aanvallen waren succesvoller op alfabetten met samengestelde getallen (bijv. 26) dan op priemgetallen (bijv. 29), wat suggereert dat de aanval profiteert van de wiskundige structuur van de leerrepresentaties.

C. Taalmodellen (GPT-Neo op TinyStories):

Beperkingen: Bij schaalvergroting naar taalmodellen nam de effectiviteit af. Hoewel er meetbare verschuivingen in waarschijnlijkheid waren (bijv. "bee" vervangen door "cat" in de voorspelling), slaagde het er zelden in om de rangorde van tokens volledig om te draaien.
Discrete Ruimte: Het bewerken van discrete tokens (in plaats van continue pixels) is uitdagender. De perturbaties waren soms interpreteerbaar (bijv. het verwijderen van het woord "cat" en het toevoegen van semantisch gerelateerde woorden), maar de effecten waren subtiel.
Conclusie: INFUSION kan de verdeling "nudge" (duwen), maar kan op dit schaalniveau nog niet de sterke, geleerde voorkeuren van het model volledig overwinnen.

5. Betekenis en Implicaties

Kwetsbaarheid van Trainingsdata: De studie onderstreept dat trainingsdata een kritiek aanvalsoppervlak is, zelfs zonder het injecteren van expliciete backdoors. Subtiele, geoptimaliseerde wijzigingen kunnen onopgemerkt blijven door filters die zoeken naar specifieke patronen of toxiciteit.
Dual Use: De techniek is "dual-use". Hoewel het een bedreiging vormt voor AI-beveiliging, biedt het ook inzicht voor verdedigers. Het toont aan dat interpretabiliteitstools (zoals invloedfuncties) ook als aanvalsprimitieven kunnen worden gebruikt.
Toekomstige Verdediging: Defensieve maatregelen moeten verder gaan dan oppervlakkige contentfilters. Mogelijke verdedigingen omvatten:
- Invloed-gebaseerde anomaliedetectie.
- Traceerbaarheid van data (data provenance).
- Regularisatie om te voorkomen dat specifieke documenten een te grote invloed hebben op het model.
Persistente Bedreiging: Omdat de perturbaties de modelparameters zelf beïnvloeden, bestaat het risico dat deze aanval effecten behoudt die doorgaan na post-training procedures zoals fine-tuning of RLHF (Reinforcement Learning from Human Feedback).

Conclusie:
INFUSION demonstreert dat kleine, subtiele bewerkingen in trainingsdata systematisch modelgedrag kunnen vormgeven. Dit ondermijnt de veronderstelling dat het vermijden van expliciete voorbeelden van schadelijk gedrag voldoende is voor veiligheid. Het paper pleit voor meer aandacht voor de beveiliging van het trainingsproces en de interpretatie van data-invloed, vooral gezien de toenemende afhankelijkheid van gedeelde webcorpora voor het trainen van frontier-modellen.

Infusion: Shaping Model Behavior by Editing Training Data via Influence Functions

🧠 De Geheime Ingrediënten van een AI: Wat als je het recept een beetje kunt veranderen?

🕵️‍♂️ Hoe werkt dit? (De "Invloed-Formule")

🎨 Voorbeeld 1: De Verkeerde Foto (Beeldherkenning)

🧩 Voorbeeld 2: De Taal van de AI (Taalmodellen)

⚠️ Waarom is dit gevaarlijk?

🛡️ Wat betekent dit voor de toekomst?

Titel: INFUSION: Het vormgeven van modelgedrag door training data te bewerken via Invloedfuncties

1. Het Probleem

2. Methodologie: Het INFUSION Framework

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Implicaties

Meer zoals dit

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem