Stretching Beyond the Obvious: A Gradient-Free Framework to Unveil the Hidden Landscape of Visual Invariance

Each language version is independently generated for its own context, not a direct translation.

De Onzichtbare Regels van het Visuele Brein: Een Reis met "Stretch-and-Squeeze"

Stel je voor dat je een enorme bibliotheek hebt waar elke boekenplank een ander type "visuele kennis" bevat. In deze bibliotheek zitten miljoenen kleine bibliothecarissen (de neuronen of kunstmatige eenheden). Hun taak is om te beslissen: "Is dit een kopje?" of "Is dit een hond?".

Het probleem is: we weten precies welke foto's deze bibliothecarissen het leukst vinden (bijvoorbeeld een perfecte foto van een kopje). Maar we weten niet welke veranderingen ze niet merken. Kunnen ze een kopje herkennen als het gekanteld is? Als het grijs in plaats van wit is? Als het eruitziet als een schets?

Tot nu toe hebben wetenschappers geprobeerd deze regels te vinden door te gokken met simpele veranderingen (zoals draaien of verkleinen). Maar dit is alsof je probeert de grenzen van een zwembad te vinden door alleen maar met je tenen in het water te wippen. Je mist de echte diepte.

In dit nieuwe onderzoek introduceren de auteurs een slimme nieuwe methode genaamd Stretch-and-Squeeze (rekken en knijpen).

1. De Magische Machine: Hoe werkt het?

Stel je voor dat je een magische machine hebt die foto's kan maken uit niets (een generatieve AI). De onderzoekers gebruiken deze machine om te spelen met een spelletje van twee doelen:

Het "Stretch" (Rekken) doel: Ze willen een foto maken die er helemaal anders uitziet dan het origineel (zoals een kopje dat eruitziet als een abstract schilderij), maar waar de bibliothecaris toch nog steeds zegt: "Ja, dat is een kopje!"
- De analogie: Je rekkt de foto zo ver mogelijk uit in de "ruimte van de machine", maar je knijpt hem tegelijkertijd vast zodat de betekenis (het antwoord van de bibliothecaris) niet verandert.
Het "Squeeze" (Knijpen) doel: Ze willen een foto maken die er bijna hetzelfde uitziet als het origineel, maar waar de bibliothecaris plotseling zegt: "Nee, dat is geen kopje!"
- De analogie: Dit is een "hack" of een valstrik. Je knijpt de foto zo weinig mogelijk aan, maar je verandert toch net genoeg om de machine te bedriegen.

Door dit spelletje te spelen, ontdekken ze de echte grenzen van wat het systeem kan zien. Ze vinden niet alleen de simpele veranderingen, maar ook de vreemde, abstracte manieren waarop een kopje nog steeds als een kopje kan worden herkend.

2. De Verschillende Verdiepingen van de Bibliotheek

De onderzoekers keken naar een kunstmatig brein (een CNN, zoals ResNet50) dat bestaat uit verschillende lagen, net als verdiepingen in een wolkenkrabber:

De Begane Grond (Pixel-niveau): Hier wordt alleen gekeken naar lichte en donkere vlekjes. Als je hier "rekt", verandert de foto vooral in helderheid of contrast.
De Middelverdieping: Hier worden patronen en texturen herkend. Als je hier "rekt", verandert de textuur van het kopje (bijvoorbeeld van porselein naar hout), maar de vorm blijft.
De Topverdieping (Hoge laag): Hier wordt de betekenis begrepen. Als je hier "rekt", kan het kopje eruitzien als een heel ander object, of vanuit een heel vreemde hoek, maar de machine ziet het nog steeds als een kopje.

Het verrassende resultaat:
De manier waarop een kopje herkend wordt, hangt af van waar je in de bibliotheek kijkt. Een simpele draaiing (zoals we dat in het dagelijks leven doen) is niet de enige manier waarop het systeem invariante is. Het systeem is veel flexibeler dan we dachten!

3. De Strijd tussen de "Normale" en de "Robuuste" Machine

De onderzoekers vergeleken twee soorten kunstmatige breinen:

De Normale Machine: Gewoon getraind op foto's.
De Robuuste Machine: Getraind om niet bedrogen te worden door kleine hack-perturbaties (adversarial training).

Wat vonden ze?

Bij de Normale Machine: Hoe hoger je in de bibliotheek komt (hoe abstracter de kennis), hoe makkelijker het is voor mensen om de "gerekte" foto's te herkennen. Het lijkt alsof de machine op de topverdieping meer op een menselijk brein gaat lijken.
Bij de Robuuste Machine: Dit is het tegenovergestelde! De foto's die de robuuste machine herkent, zijn voor mensen heel makkelijk te begrijpen op de lage niveaus (helderheid/contrast). Maar zodra je naar de hoge, abstracte niveaus gaat, worden de foto's die de machine herkent raar en onbegrijpelijk voor mensen.

De les hieruit:
Het trainen van een machine om "veilig" te zijn tegen hacks (robust training) maakt hem niet per se slimmer of menselijker op het gebied van abstract denken. Het maakt hem juist op de hoge niveaus minder begrijpelijk voor ons. Het is alsof je een student traint om niet te worden bedrogen door trucs, maar daardoor vergeet hij hoe hij creatief moet denken.

4. Waarom is dit belangrijk voor de wetenschap?

Deze methode is speciaal omdat hij geen "achterdeur" nodig heeft.

Bij kunstmatige breinen kun je vaak in de code kijken.
Maar bij echte biologische breinen (van mensen of dieren) kun je niet in de code kijken. Je kunt alleen meten wat een paar neuronen doen.

Omdat "Stretch-and-Squeeze" geen ingewikkelde wiskundige afleidingen nodig heeft (het is "gradient-free"), werkt het ook perfect voor biologische neuronen. Je kunt het gebruiken om te ontdekken welke veranderingen een echt hersencel tolereert, zelfs als je maar een klein stukje van het brein kunt meten.

Samenvatting in één zin

De onderzoekers hebben een nieuwe manier bedacht om de "onzichtbare regels" van visuele herkenning te vinden door foto's extreem te vervormen terwijl ze de betekenis behouden, en ze ontdekten dat kunstmatige breinen die veilig zijn gemaakt tegen hackers, op hoge niveaus juist minder menselijk worden in hun manier van zien.

Each language version is independently generated for its own context, not a direct translation.

Hieronder volgt een gedetailleerde technische samenvatting van het paper "Stretching Beyond the Obvious: A Gradient-Free Framework to Unveil the Hidden Landscape of Visual Invariance", gepubliceerd bij ICLR 2026.

Probleemstelling

Het begrijpen van hoe visuele systemen (zowel biologisch als kunstmatig) beelden transformeren in representaties die herkenning mogelijk maken, is een fundamentele uitdaging. Bestaande methoden voor feature visualisatie, zoals het vinden van "Most Exciting Images" (MEIs), identificeren slechts een paar specifieke stimuli die een eenheid maximaal activeren. Dit is echter ontoereikend om de invariantiemanifold (de verzameling van transformaties waaronder de respons van een eenheid constant blijft) volledig te onthullen.

Traditionele tests gebruiken vaak vooraf gedefinieerde transformaties (zoals affiene transformaties: rotatie, schaling), die de werkelijke, complexe invarianties die een eenheid heeft geleerd, mogelijk niet volledig dekken. Er is een behoefte aan een methode die systematisch de grenzen van deze invarianties kan verkennen, zowel voor kunstmatige neurale netwerken (ANNs) als biologische neuronen, zonder afhankelijk te zijn van gradiënten of een specifiek model.

Methodologie: Stretch-and-Squeeze (SnS)

De auteurs introduceren Stretch-and-Squeeze (SnS), een onbevooroordeelde, model-agnostische en gradiëntvrije framework. Het doel is om systematisch stimuli te vinden die ofwel maximaal invariant zijn, ofwel kwetsbaar voor adversarial perturbaties.

Kerncomponenten:

Generatief Model ( $\psi$ ): Een voorgeïnstalleerd diep neurale netwerk (in dit geval een variant van Dosovitskiy & Brox, 2016) dat latent codes ( $\xi$ ) omzet in RGB-afbeeldingen. Dit zorgt voor een sterke prior op natuurlijke beelden.
Testnetwerk ( $\phi$ ): Het netwerk waarvan de invarianties onderzocht worden (bijv. ResNet50, VGG16, ViT).
Gradiëntvrije Optimizer: De Covariance Matrix Adaptation Evolutionary Strategy (CMA-ES) wordt gebruikt om de latent codes aan te passen.

Het Optimalisatieprobleem:
SnS formuleert het zoeken naar invarianties als een bi-objectief optimalisatieprobleem met twee tegenstrijdige doelen, gedefinieerd door twee laagindices $\kappa$ (waar de "stretching" plaatsvindt) en $\ell$ (waar de "squeezing" plaatsvindt):

Stretchen: Maximaliseer de afstand (dissimilariteit) van de representatie van een nieuwe stimulus ten opzichte van een referentiestimulus (bijv. een MEI) in een geselecteerde laag $\kappa$ .
Squeezen: Minimaliseer de verandering in de activatie van een doel-eenheid in een downstream laag $\ell$ (of maximaliseer de verandering voor adversarial attacks).

Er worden twee specifieke scenario's onderzocht:

Invariantie ( $\Xi_{inv}$ ): Zoek beelden die zo verschillend mogelijk zijn van de referentie in de representatieruimte van laag $\kappa$ (stretch), maar waarbij de activatie van de doel-eenheid in laag $\ell$ behouden blijft (squeeze).
Adversarial Attacks ( $\Xi_{adv}$ ): Het omgekeerde: minimaliseer de verandering in de representatie van laag $\kappa$ (squeezen), maar maximaliseer de verandering in de activatie van de doel-eenheid in laag $\ell$ (stretchen).

De oplossing wordt gevonden via Pareto-optimaliteit, waarbij een verzameling van niet-gedomineerde oplossingen wordt gegenereerd die de trade-off tussen deze twee doelen optimaliseren.

Belangrijkste Bijdragen

Nieuwe Framework: SnS is de eerste gradiëntvrije methode die systematisch invariantiemanifolds van visuele eenheden infereert, wat cruciaal is voor toepassing op "black-box" systemen en biologische neuronen waar gradiënten niet beschikbaar zijn.
Hiërarchische Analyse: De methode maakt het mogelijk om invarianties te verkennen op verschillende niveaus van abstractie (pixelruimte, middenlagen, diepe lagen), wat inzicht geeft in hoe invariantie hiërarchisch wordt opgebouwd.
Vergelijking Robust vs. Standaard: Het biedt een diepgaande vergelijking tussen standaard CNN's en L2-robust getrainde netwerken, waarbij nieuwe inzichten worden verkregen over de perceptuele uitlijning met mensen.
Toepasbaarheid op Neurofysiologie: De methode is getest met gesubsamplede neurale populaties, wat aantoont dat SnS geschikt is voor experimenten met beperkte opnamecapaciteit in het brein.

Resultaten

De auteurs hebben SnS toegepast op ResNet50 (standaard en L2-robust), ResNet18, VGG16 en Vision Transformers (ViT).

1. Effectiviteit en Vergelijking met Bestaande Methoden:

SnS genereerde effectieve adversarial voorbeelden en invariant beelden.
Invariant beelden gevonden door SnS waren verder verwijderd van de referentie in pixelruimte dan die gegenereerd door standaard affiene transformaties, terwijl ze toch de doel-eenheid activeerden. Dit toont aan dat SnS de werkelijke tolerantie-assen van een eenheid ontdekt, die complexer zijn dan eenvoudige transformaties.

2. Laagspecifieke Invarianties:

Pixelruimte (Low-level): Resulteerde voornamelijk in veranderingen in luminantie en contrast.
Middenlagen (Mid-level): Resulteerde in veranderingen in textuur en kleur.
Diepe lagen (High-level): Resulteerde in abstracte variaties zoals perspectiefveranderingen of meerdere objectinstanties.
PCA-analyse bevestigde dat deze drie categorieën van invariantie beelden goed van elkaar te onderscheiden zijn op pixelniveau.

3. Perceptuele Uitlijning (Mensen vs. Netwerken):

Standaard Netwerken: Invariant beelden gegenereerd door het "stretchen" van diepe lagen waren minder interpreteerbaar voor mensen en andere netwerken.
Robust Netwerken (L2): Invariant beelden uit diepe lagen werden minder interpreteerbaar voor mensen naarmate de laag dieper was.
Cruciaal Inzicht: Hoewel robust getrainde netwerken op pixelniveau beter overeenkomen met menselijke perceptie (hoge interpretatie van MEIs), verslechtert deze uitlijning in de diepere lagen. De "voordeel" van robust training in termen van menselijke interpretatie van invarianties neemt af naarmate men dieper in het netwerk gaat. Dit contrasteert met eerdere bevindingen over metamers, die een ander patroon lieten zien.

4. Toepasbaarheid op Biologische Systemen:

SnS bleef effectief zelfs wanneer de representatieruimte werd gesubsampled (bijv. slechts 100 van de 200.000 eenheden in een laag). Dit bevestigt de potentie voor toepassing in in vivo neurofysiologie-experimenten.

5. Vision Transformers (ViT):

Bij ViT's waren de invarianties gegenereerd uit midden- en diepe lagen meer vergelijkbaar en beter interpreteerbaar dan bij CNN's, wat overeenkomt met het idee dat ViT's minder strikt hiërarchische en meer globaal geïntegreerde features leren.

Significantie en Impact

Dit paper introduceert een krachtig nieuw instrument voor zowel deep learning als visuele neurowetenschap.

Voor Deep Learning: Het onthult dat adversarial training (robustheid) niet noodzakelijkerwijs leidt tot mens-achtige invarianties op alle hiërarchische niveaus. Het benadrukt dat de uitlijning tussen mens en machine complex en laag-afhankelijk is.
Voor Neurowetenschap: Omdat SnS geen gradiënten vereist en model-agnostisch is, kan het direct worden toegepast op biologische neuronen om hun "tuning properties" en invarianties te kaartten, zelfs zonder een perfect "digital twin" model. Dit opent de deur voor het bestuderen van visuele invarianties in het brein van primaten en andere diersoorten met een ongekende precisie.

Samenvattend biedt SnS een manier om de "verborgen landschappen" van visuele invariantie te ontsluiten, verder dan wat vooraf gedefinieerde transformaties of eenvoudige MEI-analyses kunnen onthullen.

Stretching Beyond the Obvious: A Gradient-Free Framework to Unveil the Hidden Landscape of Visual Invariance

De Onzichtbare Regels van het Visuele Brein: Een Reis met "Stretch-and-Squeeze"

1. De Magische Machine: Hoe werkt het?

2. De Verschillende Verdiepingen van de Bibliotheek

3. De Strijd tussen de "Normale" en de "Robuuste" Machine

4. Waarom is dit belangrijk voor de wetenschap?

Samenvatting in één zin

Probleemstelling

Methodologie: Stretch-and-Squeeze (SnS)

Belangrijkste Bijdragen

Resultaten

Significantie en Impact

Meer zoals dit

VerifAI: A Verifiable Open-Source Search Engine for Biomedical Question Answering

Unbiased Rectification for Sequential Recommender Systems Under Fake Orders

Self-Sovereign Agent

Automated Standardization of Legacy Biomedical Metadata Using an Ontology-Constrained LLM Agent

GAN-Enhanced Deep Reinforcement Learning for Semantic-Aware Resource Allocation in 6G Network Slicing