Learning to Attack: A Bandit Approach to Adversarial Context Poisoning

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een slimme, lerende robot hebt die elke dag voor je moet beslissen welke film je moet kijken of welk restaurant je moet bezoeken. Deze robot gebruikt een systeem dat "Neurale Contextuele Bandieten" wordt genoemd. Het is als een gokkast met duizenden armen, maar in plaats van munten, leert de robot uit je voorkeuren (context) om de beste keuze te maken.

Nu komt er een hackers bij. Deze hacker wil niet de robot kapotmaken, maar hem manipuleren zodat hij slechte keuzes maakt. Maar de hacker heeft een probleem: hij mag niet in de hersenen van de robot kijken (geen toegang tot de interne code) en hij mag de robot niet direct vertellen wat hij moet doen. Hij kan alleen de informatie die de robot ontvangt een beetje vervalsen.

Dit artikel introduceert AdvBandit, een nieuwe, zeer slimme manier om zo'n robot te misleiden. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De Gokker die de Gokkast Leert (Het "Nested Bandit" Concept)

Stel je voor dat de hacker een gokker is die een nieuwe gokkast probeert te kraken. Maar in plaats van gewoon te gokken, speelt de hacker een spelletje gokken over gokken.

Het probleem: De hacker weet niet welke knop hij moet indrukken om de robot te misleiden. Hij moet een balans vinden tussen drie dingen:
1. Effectiviteit: Hoe sterk kan ik de robot dwingen een slechte keuze te maken?
2. Onopgemerkt blijven (Statistisch): Mag mijn vervalsing eruitzien als een normale, natuurlijke fout?
3. Tijdsbewustzijn: Mag mijn vervalsing eruitzien alsof het plotseling gebeurt, of moet het geleidelijk aan komen?

De hacker gebruikt een slim algoritme (een "bandit") om continu te leren welke combinatie van deze drie factoren het beste werkt. Het is alsof de hacker elke dag een nieuwe strategie probeert en kijkt of de robot erin trapt. Als het werkt, onthoudt hij het; als de robot het doorziet, past hij zijn strategie aan.

2. De Valse Spiegel (De "Surrogate Model")

Omdat de hacker de robot niet mag "lezen", bouwt hij een valse spiegel (een zogenaamd surrogate model).

Hoe werkt het? De hacker kijkt alleen naar wat de robot doet en wat de robot krijgt. Op basis van die waarnemingen bouwt hij zijn eigen versie van de robot.
De analogie: Het is alsof je een acteur hebt die een rol speelt. De hacker kijkt naar de acteerprestaties en bouwt een poppetje dat precies zo reageert als de echte robot. Vervolgens oefent de hacker op dit poppetje om te zien welke kleine aanpassingen (perturbaties) het poppetje het meest in de war brengen. Als het poppetje in de war raakt, is de kans groot dat de echte robot dat ook doet.

3. De Slimme Timing (Query Selection)

De hacker heeft een beperkt aantal "schoten" (een budget). Hij kan niet elke dag proberen de robot te hacken, want dan valt het op.

De strategie: De hacker wacht tot het perfecte moment. Hij kijkt naar de situatie: "Is de robot nu verward? Is de kans groot dat hij in de val loopt? Ziet het er nog natuurlijk uit?"
De analogie: Stel je een dief voor die een huis binnendringt. Hij gaat niet elke dag proberen het slot te openen. Hij wacht tot de bewoner op een drukke dag is, of tot het slot al een beetje slijtage vertoont. AdvBandit kiest alleen die momenten uit waarop de kans op succes het grootst is en het risico om betrapt te worden het kleinst.

4. De "Zachte" Duw (Perturbation)

Wanneer de hacker besluit aan te vallen, duwt hij de informatie die de robot ontvangt heel zachtjes opzij.

Hoe werkt het? Hij verandert de data niet drastisch (dat zou de robot laten schrikken), maar voegt een heel klein, bijna onzichtbaar ruisje toe.
De analogie: Het is alsof je iemand in een drukke winkel een heel klein beetje in de rug duwt. Ze merken het misschien niet eens, maar plotseling lopen ze naar de verkeerde gang. De hacker gebruikt wiskunde om precies te weten hoeveel hij mag duwen zodat de robot naar de "slechte" optie loopt, zonder dat het eruitziet alsof er iets vreemds gebeurt.

Waarom is dit belangrijk?

De onderzoekers hebben dit getest op echte data (zoals Yelp-restaurantbeoordelingen en MovieLens-films). Ze ontdekten dat hun methode (AdvBandit) veel effectiever is dan eerdere methoden.

Het resultaat: De robot maakt veel vaker foute keuzes (hij krijgt meer "regret" of spijt), terwijl de hacker onopgemerkt blijft.
De les: Zelfs de slimste AI-systemen zijn kwetsbaar als iemand slim genoeg is om hun leerproces te manipuleren zonder ze direct aan te vallen.

Kort samengevat:
AdvBandit is als een meester-dieft die niet de kluis forceert, maar de bewaker (de AI) langzaam en slim manipuleert door een nep-versie van de bewager te bouwen, de perfecte momenten af te wachten, en heel zachte duwtjes te geven totdat de bewaker zelf de kluis openmaakt voor de dief. Het laat zien dat we onze AI-systemen niet alleen moeten beschermen tegen directe aanvallen, maar ook tegen deze subtiele, geleidelijke manipulaties.

Each language version is independently generated for its own context, not a direct translation.

Titel: Een Adversariale Geneste Bandit-Aanpak voor Neuronale Contextuele Bandits

Auteurs: Ray Telikani en Amir H. Gandomi (University of Technology Sydney)

1. Probleemstelling

Neuronale Contextuele Bandits (NCB) zijn een krachtige evolutie van multi-armed bandits die neurale netwerken gebruiken om complexe, niet-lineaire relaties tussen context en beloning te modelleren. Ze worden veel gebruikt in aanbevelingssystemen, cloud-resource-toewijzing en grote taalmodellen (LLMs).

Het artikel identificeert een kritieke kwetsbaarheid: NCB's zijn vatbaar voor adversariale aanvallen. Een aanvaller kan de beslissingen van het systeem manipuleren door subtiel de context, acties of beloningen te verstoren.

De uitdaging: Aanvallen op de context (context poisoning) zijn het moeilijkst uit te voeren omdat ze plaatsvinden voordat de agent een actie kiest.
Beperkingen van bestaande methoden: Bestaande aanvallen zijn vaak gericht op statische modellen of vereisen toegang tot de interne parameters, beloningsfuncties of gradiënten van het slachtoffer (witte doos). In de praktijk is de aanvaller echter vaak beperkt tot een zwarte doos setting, waar alleen de waargenomen contexten en de acties van het slachtoffer zichtbaar zijn.

Het doel is een aanval te ontwikkelen die adaptief leert, geen toegang vereist tot interne systemen, en effectief is tegen zowel standaard als robuuste NCB-algoritmen.

2. Methodologie: AdvBandit

De auteurs introduceren AdvBandit, een black-box, adaptieve aanval die het probleem formuleert als een genest bandit-probleem (nested bandit). De aanval bestaat uit twee lagen: een externe bandit die aanvalspatronen leert, en een interne optimalisatie die de daadwerkelijke verstoringen berekent.

A. Formulering als Continu Bandit-Probleem

In plaats van een eindige set acties te kiezen, behandelt AdvBandit de aanval als een continu-armed bandit over een 3D-ruimte $\lambda = (\lambda^{(1)}, \lambda^{(2)}, \lambda^{(3)}) \in \mathbb{R}^3_+$ . Elke "arm" vertegenwoordigt een weging van drie doelstellingen:

Effectiviteit ( $\lambda^{(1)}$ ): De mate waarin de verstoring de slachtoffer dwingt een suboptimale actie te kiezen.
Statistische Ontduiking ( $\lambda^{(2)}$ ): Het vermijden van detectie door de verstoringen binnen de normale verdeling van de data te houden.
Temporele Ontduiking ( $\lambda^{(3)}$ ): Het vermijden van detectie door abrupte veranderingen tussen opeenvolgende verstoringen te minimaliseren.

B. Kerncomponenten

Surrogaatmodel via MaxEnt IRL:
Omdat de aanvaller geen toegang heeft tot de interne beloningsfunctie van het slachtoffer, bouwt AdvBandit een surrogaatmodel op basis van waargenomen context-actieparen. Hiervoor wordt Maximum Entropy Inverse Reinforcement Learning (MaxEnt IRL) gebruikt. Dit model schat zowel de beloningsfunctie als de epistemische onzekerheid van het slachtoffer. Het model wordt periodiek hertraint met een schuifend venster om de niet-stationaire aard van het lerende slachtoffer te volgen.
UCB-bewuste Context Selectie (Query Selection):
Om het aanvalsbudget ( $B$ ) efficiënt te gebruiken en detectierisico te minimaliseren, selecteert de aanval niet elke context. Er wordt een multi-objectieve selectiestrategie toegepast die drie factoren combineert:
- Kans op succes (gebaseerd op geschiedenis).
- Impact (grootte van het "regret gap").
- Stelheid (waarschijnlijkheid dat de verstorende context als normaal wordt beschouwd).
  Een adaptieve drempelwaarde (gebaseerd op kwantielen) bepaalt of een context wordt aangevallen.
Arm Selectie via GP-UCB:
Voor het kiezen van de optimale parameters $\lambda$ in de continue ruimte wordt Gaussian Process Upper Confidence Bound (GP-UCB) gebruikt. Dit stelt de aanvaller in staat om de afweging tussen effectiviteit en ontduiking efficiënt te exploreren en te exploiteren, zelfs in een niet-stationaire omgeving.
Generatie van Verstoringen (PGD):
Zodra $\lambda$ is gekozen, wordt de daadwerkelijke verstoring $\delta$ berekend voor de context. Dit gebeurt via Projected Gradient Descent (PGD) op het surrogaatmodel (niet op het echte slachtoffermodel). De doelstelling is een gewogen som van effectiviteit en regularisatie-termen (norm van de gradiënt, statistische afstand, temporele consistentie).

3. Belangrijkste Bijdragen

Nieuwe Aanvalsformulering: De eerste aanpak die context poisoning voor neurale bandits formuleert als een continu-armed bandit-probleem, waardoor adaptieve, black-box aanvallen mogelijk zijn zonder gradiëntinformatie van het slachtoffer.
Theoretische Garantiën:
- Aanvaller: Bewezen sublineaire cumulatieve regret voor de aanvaller, wat garandeert dat de aanval convergeert naar optimale parameters.
- Slachtoffer: Bewezen een ondergrens voor de cumulatieve regret van het slachtoffer die lineair is met het aantal aanvallen (plus sublineaire termen), wat aantoont dat de aanval significant schade toebrengt.
Robuustheid en Adaptiviteit: Het model past dynamisch zijn strategie aan op basis van het type slachtoffer (bijv. meer focus op effectiviteit bij deterministische algoritmen, meer focus op ontduiking bij robuuste algoritmen).
Uitgebreide Experimenten: Validatie op drie real-world datasets (Yelp, MovieLens, Disin) tegen vijf verschillende NCB-algoritmen en vijf bestaande aanvalsbaselines.

4. Resultaten

De experimentele resultaten tonen aan dat AdvBandit aanzienlijk superieur is aan state-of-the-art baselines:

Regret van het Slachtoffer: AdvBandit veroorzaakt 2.8x hogere cumulatieve regret voor het slachtoffer vergeleken met de beste bestaande methoden.
Doelwit Actie Selectie: De aanval bereikt een 1.7x tot 2.5x hogere ratio van het selecteren van de gewenste (suboptimale) arm.
Efficiëntie: Ondanks de hogere rekenkosten (door IRL en GP), is de aanval zeer kosteneffectief. Bij een standaard budget ( $B=200$ ) levert het 2.8x meer impact op dan baselines.
Adaptiviteit:
- Tegen deterministische algoritmen (zoals NeuralUCB) focust de aanval op effectiviteit.
- Tegen robuuste algoritmen (zoals R-NeuralUCB) verschuift de focus naar statistische en temporele ontduiking.
- Tegen stochastische algoritmen (NeuralTS) wordt temporele consistentie belangrijker.
Ablatie Studies: De studies bevestigen dat elk component essentieel is. Het verwijderen van het IRL-model of het gebruik van willekeurige verstoringen leidt tot een drastische daling in effectiviteit.

5. Betekenis en Conclusie

Dit werk is significant omdat het de kwetsbaarheid van moderne, op neurale netwerken gebaseerde bandit-systemen blootlegt in een realistische black-box setting.

Veiligheid: Het onderstreept dat zelfs "robuuste" algoritmen kwetsbaar zijn voor geavanceerde, adaptieve context poisoning.
Verdediging: Het biedt een kader voor het evalueren van de weerstand van AI-systemen tegen dergelijke aanvallen. De auteurs suggereren dat toekomstige verdedigingen moeten rekening houden met de dynamische aard van deze aanvallen.
Toekomst: De auteurs zien de formulering van aanval en verdediging als een Stackelberg-spel (waar de verdediger eerst commit en de aanvaller het beste antwoord geeft) als de volgende stap voor realistischere dreigingsmodellen.

Kortom, AdvBandit stelt een nieuwe standaard voor voor het testen van de veiligheid van online lerende systemen en toont aan dat het modelleren van aanvallen als een continu bandit-probleem een krachtige methode is om adaptieve, onopgemerkte aanvallen uit te voeren.

Learning to Attack: A Bandit Approach to Adversarial Context Poisoning

1. De Gokker die de Gokkast Leert (Het "Nested Bandit" Concept)

2. De Valse Spiegel (De "Surrogate Model")

3. De Slimme Timing (Query Selection)

4. De "Zachte" Duw (Perturbation)

Waarom is dit belangrijk?

Titel: Een Adversariale Geneste Bandit-Aanpak voor Neuronale Contextuele Bandits

1. Probleemstelling

2. Methodologie: AdvBandit

A. Formulering als Continu Bandit-Probleem

B. Kerncomponenten

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank