Layer by layer, module by module: Choose both for optimal OOD probing of ViT

Deze studie toont aan dat voor de optimale out-of-distribution-probing van Vision Transformers de beste prestaties worden behaald door zowel de juiste modellaag als het specifieke moduletype (feedforward-netwerk bij sterke distributieveranderingen versus genormaliseerde self-attention bij zwakke veranderingen) te selecteren.

Ambroise Odonnat, Vasilii Feofanov, Laetitia Chapel, Romain Tavenard, Ievgen Redko

Gepubliceerd 2026-03-06
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Titel: Waarom de "laatste stap" niet altijd de beste is: Een gids voor het begrijpen van AI-oog

Stel je voor dat een Vision Transformer (ViT) een enorme, slimme kunstenaar is die miljoenen foto's heeft bekeken om te leren wat een hond, een bloem of een auto is. Deze kunstenaar werkt in lagen, alsof hij door een reeks kamers loopt. In elke kamer (of "laag") wordt de foto steeds verder verwerkt en geanalyseerd.

Traditioneel dachten onderzoekers: "De beste analyse vind je in de allerlaatste kamer, vlak voordat de kunstenaar zijn oordeel velt." Maar dit nieuwe onderzoek, geschreven door Ambroise Odonnat en zijn team, zegt: "Nee, dat klopt niet altijd!"

Hier is wat ze hebben ontdekt, vertaald naar begrijpelijke taal:

1. Het probleem: De "Verkeerde Kaart" (Verdelingsschift)

Stel je voor dat deze kunstenaar is opgeleid met foto's van strakke, professionele studio-opnames van honden. Maar nu moet hij plotseling foto's analyseren van honden in de sneeuw, met wazige beweging of met een tekenstijl (zoals een schets).

  • In de ideale wereld (ID): Als de nieuwe foto's lijken op de oude, werkt de kunstenaar perfect. De laatste kamer (de "finale") geeft het beste antwoord.
  • In de echte wereld (OOD - Out-of-Distribution): Als de foto's er heel anders uitzien dan waar hij voor is opgeleid, raakt de kunstelaar in de laatste kamer in paniek. Hij probeert te hard om zijn oude kennis toe te passen en maakt fouten. De "laatste stap" is dan juist het zwakste punt.

De les: Hoe groter het verschil tussen de training en de echte situatie, hoe slechter de laatste kamer presteert.

2. De oplossing: Kijk naar de tussenkamers

Het onderzoek toont aan dat de tussenliggende kamers (de "intermediate layers") veel robuuster zijn. Ze zijn flexibeler en minder vastgepind op de specifieke details van de training.

  • Analogie: Stel je voor dat je een boek leest. De laatste zin vat het verhaal samen, maar als je het boek in een andere taal moet uitleggen, helpt die samenvatting misschien niet. De zinnen halverwege het verhaal bevatten vaak de kern van de actie en de emotie, die makkelijker te vertalen zijn naar een nieuwe context.

3. De fijne draad: Welke kamer precies?

Dit is het meest interessante deel. De auteurs keken niet alleen naar de kamers, maar naar de specifieke onderdelen binnen die kamers. Een transformer-kamer bestaat uit twee hoofdonderdelen:

  1. De Opmerker (Self-Attention): Kijkt naar de relaties tussen verschillende delen van de afbeelding.
  2. De Denker (Feedforward Network): Verwerkt de informatie die de Opmerker heeft gevonden.

Het team ontdekte dat je niet zomaar naar het einde van de kamer moet kijken, maar naar waar in het proces je kijkt:

  • Scenario A: Grote Veranderingen (Sneeuw, Ruis, Schetsen)

    • Wat werkt het beste? Kijk naar de activering binnen de "Denker" (Feedforward Network).
    • Analogie: Dit is als kijken naar de ruwe notities van de kunstenaar terwijl hij nog aan het denken is. In deze fase zit de zuivere, robuuste betekenis van de afbeelding, voordat de kunstenaar probeert het in een strakke, maar kwetsbare, conclusie te gieten.
    • Waarom? De "Denker" heeft een grotere ruimte om te denken (hij vergroot de data tijdelijk), waardoor hij beter kan onderscheiden wat belangrijk is, zelfs als de afbeelding vies of wazig is.
  • Scenario B: Kleine Veranderingen (Normale foto's)

    • Wat werkt het beste? Kijk naar de uitslag van de "Opmerker" (Self-Attention) of de genormaliseerde output.
    • Analogie: Als de foto's gewoon zijn, is de samenvatting van de "Opmerker" al perfect genoeg. Je hoeft niet diep in de gedachten van de kunstenaar te duiken.

Samenvatting in één zin

Als je een AI-model wilt gebruiken op foto's die er heel anders uitzien dan waarvoor het is getraind (zoals in de sneeuw of als schets), stop dan niet met kijken bij de laatste kamer. Kijk in plaats daarvan naar de tussenliggende "denkprocessen" binnen de kamer; daar zit de echte, betrouwbare intelligentie verstopt.

De boodschap voor de praktijk:
Gebruik de "laatste stap" alleen als je zeker weet dat de situatie precies hetzelfde is als de training. Anders, zoek naar de "tussenstap" in het denkproces van de AI. Dat is waar de echte magie gebeurt.