Solving adversarial examples requires solving exponential misalignment

Each language version is independently generated for its own context, not a direct translation.

De Geheime Oorzaak van AI-Fouten: Waarom Computers "Zieken" zijn

Stel je voor dat je een kunstenaar bent die een schilderij van een hond maakt. Voor jou en mij is het duidelijk: het is een hond. Maar voor een kunstmatige intelligentie (AI) is het verhaal heel anders.

Deze paper, geschreven door Alessandro Salvatore, Stanislav Fort en Surya Ganguli, legt uit waarom AI-systemen zo kwetsbaar zijn voor kleine trucs (zogenaamde adversarial examples). Een AI kan een foto van een hond zien, maar als je er een paar onzichtbare pixels aan toevoegt, denkt de AI plotseling: "Oh, dit is een broodje!" En het ergste is: voor een mens ziet het plaatje er nog steeds uit als een hond.

De auteurs zeggen: "Waarom gebeurt dit?" Het antwoord is verrassend simpel, maar ook diep: AI en mensen wonen in totaal verschillende werelden.

Hier is de uitleg in gewone taal, met een paar leuke vergelijkingen.

1. Het concept van de "Perceptuele Wereld" (De Manifold)

Stel je voor dat elke categorie (bijv. "hond", "auto", "broodje") een gebied is in een enorme, onzichtbare ruimte.

Mensen: Als wij kijken naar alle mogelijke foto's van honden, dan is dat gebied heel klein en compact. Het is als een gezellig, klein dorpje. Alles wat erin past, lijkt op een hond. Alles eromheen is geen hond.
Computers: De AI heeft ook een gebied voor "hond". Maar volgens deze onderzoekers is het gebied van de AI enorm. Het is alsof het dorpje van de AI is uitgegroeid tot een heel land dat bijna de hele wereld beslaat.

2. Het probleem: De "Exponentiële Misalignement"

Hier komt de magie (en de ramp) van de wiskunde om de hoek kijken.

Als je een gebied groter maakt, groeit het volume exponentieel.
Omdat het "hond-gebied" van de AI zo gigantisch groot is (duizenden dimensies breed), vult het bijna de hele ruimte op.

De Vergelijking:
Stel je voor dat je in een reusachtige zaal staat (de ruimte van alle mogelijke beelden).

Voor een mens is het "hond-gebied" een klein speelgoedautootje in de hoek. Als je ergens anders in de zaal staat, ben je ver weg van dat autootje. Je moet hard lopen om erbij te komen.
Voor de AI is het "hond-gebied" een reusachtige muur die de hele zaal vult. Als je ergens in de zaal staat, sta je direct tegen die muur aan.

Wat betekent dit voor hackers (adversarial attacks)?
Omdat de AI-muur zo groot is, staat elke willekeurige foto (zelfs een foto van een auto of een willekeurige ruis) extreem dicht bij het "hond-gebied" van de AI.
Je hoeft maar een heel klein beetje te duwen (een klein perturbation), en de AI denkt: "Oh, ik ben nu binnen het hond-gebied!"
Voor een mens is dat duwen niets, want de mens staat nog steeds ver weg van het kleine speelgoedautootje.

3. De Oplossing: De "Dimensie" verlagen

De onderzoekers hebben 18 verschillende AI-modellen getest, van heel kwetsbaar tot heel sterk (robust). Wat vonden ze?

Slechte AI-modellen: Hebben een "hond-gebied" dat de hele ruimte vult (zoals de muur). Ze zijn kwetsbaar.
Goede AI-modellen: Hebben een "hond-gebied" dat kleiner is. Het vult de ruimte niet meer volledig. Ze zijn veiliger.

De conclusie:
Om AI echt veilig en robuust te maken, moeten we de AI leren om hun "gebieden" (manifolds) kleiner en compacter te maken, net zoals die van mensen. We moeten de "dimensie" verlagen.

Als de AI-gebieden klein genoeg worden, dan staan we weer ver weg van de muur. Dan moet je een grote duw geven om de AI te misleiden, en dat is voor een mens dan weer heel duidelijk zichtbaar.

Samenvatting in één zin:

AI-systemen maken fouten omdat hun concepten van de wereld te groot en te vaag zijn; ze vullen de ruimte zo goed op dat elke willekeurige foto er bijna altijd bij past, terwijl menselijke concepten strak en specifiek zijn.

De grote les voor de toekomst:
Als we AI willen laten samenwerken met mensen (alignment), moeten we niet alleen kijken naar wat de AI zegt, maar ook naar hoe de AI denkt. We moeten de AI dwingen om de wereld te zien met dezelfde "kleine, strakke gebieden" als wij doen, anders blijven ze kwetsbaar voor kleine trucs.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Solving adversarial examples requires solving exponential misalignment" in het Nederlands.

Titel: Het oplossen van adversarial voorbeelden vereist het oplossen van exponentiële misalignering

Auteurs: Alessandro Salvatore, Stanislav Fort, Surya Ganguli
Datum: 5 maart 2026 (Preprint)

1. Het Probleem: Adversarial Attacks en het Ontbreken van Robuustheid

Adversarial attacks zijn invoerperturbaties die voor mensen onzichtbaar zijn, maar neurale netwerken kunnen misleiden tot een verkeerde classificatie. Ondanks meer dan een decennium aan onderzoek en verbeteringen in robuustheid (zoals vastgelegd in de RobustBench-leaderboard), blijven neurale netwerken kwetsbaar. De fundamentele geometrische reden waarom adversarial voorbeelden bestaan en waarom het zo moeilijk is om ze te elimineren, blijft een mysterie. Bestaande theorieën (zoals lokale lineariteit of niet-robuste kenmerken) bieden geen volledig antwoord op de persistentie van dit probleem.

2. Methodologie: Perceptual Manifolds (PM) en Dimensieanalyse

De auteurs introduceren een nieuw raamwerk om machine-perceptie te analyseren via het concept van een Perceptual Manifold (PM).

Definitie van PM: Voor een gegeven klasse-concept $c$ is de PM de verzameling van alle invoer $x$ waarvoor het netwerk een hoge zekerheid heeft ( $p(c|x) > p_0$ ) dat het tot die klasse behoort.
Sampling: Om de inhoud van deze PM's te verkennen, gebruiken de auteurs Projected Gradient Ascent (PGA). Ze starten met willekeurige ruis en maximaliseren de log-kans voor een specifieke klasse, waarbij ze de invoer projecteren binnen de geldige pixelruimte.
Dimensiemeting: De auteurs meten de intrinsieke dimensie van deze manifolds met twee methoden:
1. Participation Ratio (PR): Gebaseerd op de eigenwaarden van de covariantiematrix van de steekproeven.
2. Two Nearest Neighbors (2NN): Een schatting van de intrinsieke dimensie gebaseerd op de verhouding van afstanden tot de dichtstbijzijnde buren.
Vergelijking: Ze vergelijken de dimensie van machine-PM's met de dimensie van natuurlijke beelden (beelden die mensen als dat concept herkennen) voor dezelfde klassen.

3. Belangrijkste Bijdragen en Hypothesen

Exponentiële Misalignering: De kernbevinding is dat de dimensie van machine-PM's ordes van grootte hoger is dan die van menselijke perceptie.
- Voor CIFAR-10 (3072 dimensies) is de dimensie van menselijke concepten $\approx 20$ , terwijl de machine-PM's vaak $\approx 3000$ dimensies bezetten.
- Voor ImageNet (150.528 dimensies) bezetten machine-PM's meer dan 130.000 dimensies, terwijl menselijke concepten rond de 20 blijven.
Geometrische Oorzaak van Adversarial Voorbeelden: Omdat volume exponentieel groeit met de dimensie, vult een hoge-dimensionale PM bijna de hele invoerruimte. Hierdoor ligt elk willekeurig punt (inclusief een plaatje van een andere klasse) extreem dicht bij de PM van een willekeurige klasse. Dit maakt het voor een klein perturbatie ( $\epsilon$ ) bijna onmogelijk om niet in de PM van een verkeerde klasse te belanden.
De "Curse of Dimensionality" als Hindernis: De auteurs stellen dat adversarial robuustheid niet haalbaar is zonder dimensionale alignering tussen machine en mens. Zolang de machine-PM's exponentieel groter zijn dan menselijke concepten, zullen adversarial voorbeelden blijven bestaan.

4. Resultaten

De auteurs testen hun theorie op 18 verschillende netwerken met variërende niveaus van robuustheid (van standaard tot state-of-the-art robuuste modellen) op CIFAR-10, CLIP, en ImageNet.

Negatieve Correlatie: Er is een sterke negatieve correlatie gevonden tussen de dimensie van de PM en de adversarial robuustheid. Modellen met een hogere robuustheid hebben aanzienlijk lagere PM-dimensies.
Afstand tot de PM: De afstand van een willekeurig punt (ruis) tot de PM neemt toe naarmate de dimensie van de PM afneemt. Dit bevestigt dat het verkleinen van de PM de "voetprint" in de ruimte verkleint en de afstand tot willekeurige punten vergroot, wat robuustheid bevordert.
Beperkingen van Huidige Modellen: Zelfs de meest robuuste modellen vertonen nog steeds een exponentiële misalignering. Hun PM-dimensies (bijv. PR $\approx 250$ ) blijven veel hoger dan die van natuurlijke beelden ( $\approx 20$ ).
Visuele Alignering: Alleen bij de meest robuuste modellen, en specifiek voor klassen met de laagste PM-dimensies, beginnen willekeurige samples uit de PM visueel herkenbare objecten te vormen (in plaats van ruis). Dit suggereert dat dimensionale alignering leidt tot semantische alignering.
CLIP en Foundation Models: Het fenomeen is niet beperkt tot standaard classificatie. Ook CLIP-modellen (getraind via contrastive learning) vertonen deze extreme hoge dimensie in hun PM's, zelfs voor semantisch betekenisloze prompts ("gibberish"), wat aantoont dat het een fundamenteel probleem is van huidige trainingsparadigma's.

5. Betekenis en Conclusie

Verbinding tussen Alignment en Adversarial Voorbeelden: Het artikel verbindt het veld van AI-Alignment (het uitlijnen van AI-gedrag met menselijke waarden) met het technische probleem van adversarial voorbeelden. Het stelt dat adversarial voorbeelden een prototypisch "warm-up" probleem zijn van perceptuele misalignering.
Noodzaak voor Dimensionale Alignering: Om adversarial voorbeelden echt op te lossen, moeten netwerken getraind worden om perceptuele manifolds te hebben die even laag-dimensionaal zijn als die van mensen. Dit vereist een fundamentele verschuiving in hoe we neurale netwerken trainen, waarschijnlijk verder gaan dan bestaande methoden zoals Adversarial Training.
Toekomstperspectief: De auteurs suggereren dat het oplossen van het probleem van adversarial voorbeelden een cruciale stap is om bredere uitdagingen in AI-Alignment aan te pakken, waarbij het uitlijnen van AI-gedrag over een exponentieel grote ruimte van invoer (beelden, tekst) mogelijk nog moeilijker is dan het huidige probleem van perceptuele kwetsbaarheid.

Samenvattend: De paper concludeert dat de "curse of dimensionality" van machine perceptuele manifolds de geometrische oorzaak is van adversarial kwetsbaarheid. Zolang machines concepten definiëren in een ruimte die exponentieel groter is dan die van mensen, zullen ze kwetsbaar blijven voor onzichtbare perturbaties. De oplossing ligt in het dwingen van dimensionale alignering tussen mens en machine.

Solving adversarial examples requires solving exponential misalignment

1. Het concept van de "Perceptuele Wereld" (De Manifold)

2. Het probleem: De "Exponentiële Misalignement"

3. De Oplossing: De "Dimensie" verlagen

Samenvatting in één zin:

Titel: Het oplossen van adversarial voorbeelden vereist het oplossen van exponentiële misalignering

1. Het Probleem: Adversarial Attacks en het Ontbreken van Robuustheid

2. Methodologie: Perceptual Manifolds (PM) en Dimensieanalyse

3. Belangrijkste Bijdragen en Hypothesen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

Fairness-Aware Multi-Group Target Detection in Online Discussion

Accounting for shared covariates in semi-parametric Bayesian additive regression trees

On the Impact of Sampling on Deep Sequential State Estimation

DKDL-Net: A Lightweight Bearing Fault Detection Model via Decoupled Knowledge Distillation and Low-Rank Adaptation Fine-tuning

The Z-Gromov-Wasserstein Distance