SPoT: Subpixel Placement of Tokens in Vision Transformers

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een Vision Transformer (een slimme AI die beelden herkent) laat kijken naar een foto. De standaardmethode werkt als een strenge bakker: hij snijdt de foto in precies gelijke vierkante stukjes (zoals een taart of een raster). De AI kijkt dan naar elk stukje en probeert te raden wat er op de foto staat.

Het probleem? Soms zit het belangrijkste detail (bijvoorbeeld de neus van een kat) precies op de lijn tussen twee stukjes. De bakker snijdt de neus dan in tweeën, of hij mist hem helemaal omdat hij net in een ander vakje valt. De AI moet dan "met de vork in de soep" proberen te eten: het kan, maar het is inefficiënt en frustrerend.

SPoT (Subpixel Placement of Tokens) is de oplossing die de onderzoekers van de Universiteit van Oslo hebben bedacht. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Van Raster naar Vrij Spel

In plaats van de foto in strakke vierkanten te snijden, laat SPoT de AI vrij rondlopen op de foto.

De oude manier: Je mag alleen kijken in de vakjes van een schaakbord.
De SPoT-methode: Je mag met een vergrootglas over de hele foto bewegen, zelfs op de millimeter. Je kunt precies op de neus van de kat focussen, of op de ogen van een vogel, zonder dat je gebonden bent aan een raster.

2. De "Oracle" (De Orakel)

De onderzoekers hebben een slimme truc bedacht om te ontdekken waar de AI het beste moet kijken. Ze noemen dit SPoT-ON (Oracle-guided search).

De Analogie: Stel je voor dat je een blindeman bent die een foto moet beschrijven. Normaal gesproken zou je willekeurig rondlopen. De "Orakel" is een onzichtbare gids die je precies naar de belangrijkste plekken leidt.
De Orakel probeert duizenden posities uit en zegt: "Kijk hier, dit is de neus! Kijk daar, dat is de staart!"
Het resultaat is verbluffend: De AI kan een foto bijna net zo goed herkennen met slechts 12,5% van de stukjes die hij normaal gebruikt. Het is alsof je een hele maaltijd kunt proeven door slechts één hap te nemen, zolang je die hap maar op het juiste moment en de juiste plek neemt.

3. Waarom is dit zo slim?

Efficiëntie: Omdat de AI minder "stukjes" hoeft te verwerken, wordt hij veel sneller en verbruikt hij minder energie. Dit is geweldig voor apps op je telefoon of voor realtime camera's.
Flexibiliteit: De AI hoeft niet meer te worstelen met de "strenge bakker". Hij kan zich aanpassen aan de foto. Als een object schuin staat, kan de AI daarop focussen in plaats van dat hij de randen van zijn vierkante vakjes moet negeren.
Interpretatie: Het is makkelijker te begrijpen waarom de AI iets ziet. Je kunt zien op welke exacte pixel hij zijn aandacht vestigt, in plaats van op een groot, vaag vierkant.

4. Wat hebben ze ontdekt?

De onderzoekers hebben verschillende manieren getest om te beslissen waar de AI moet kijken:

Willekeurig: Niet zo goed.
Centraal: Kijken naar het midden van de foto (vaak goed, want objecten zitten daar vaak).
Opvallend (Salient): Kijken naar de delen van de foto die het meest opvallen (zoals een felgekleurde bloem). Dit werkt het beste als je weinig "stukjes" mag gebruiken.
De verrassing: Als je veel stukjes mag gebruiken, werkt een strak raster juist weer beter. Maar als je weinig stukjes hebt (spaarsamen), is het vrij bewegen (SPoT) een enorme winst.

Conclusie

SPoT is als het geven van een freedom pass aan een AI. In plaats van hem te dwingen om door een strak raam te kijken, laten we hem door een open raam naar buiten kijken en precies op de vogel focussen die hij wil zien. Hierdoor wordt de AI sneller, slimmer en efficiënter, zonder dat hij zijn intelligentie verliest.

Het is een stap in de richting van AI die niet alleen "rekenkracht" gebruikt, maar ook "strategie": minder is meer, zolang je maar op de juiste plekken kijkt.

Each language version is independently generated for its own context, not a direct translation.

Titel: SPoT: Subpixel Placement of Tokens in Vision Transformers

Auteurs: Martine Hjelkrem-Tan, Marius Aasan, Gabriel Y. Arteaga, en Adín Ramírez Rivera (Universiteit van Oslo)

1. Het Probleem

Vision Transformers (ViT) zijn krachtige modellen die van nature goed kunnen omgaan met sparsiteit (het verwerken van minder data voor efficiëntie). Echter, standaard tokenisatiemethodes beperken features tot een discreet rooster van patches (bijv. een vast raster van 14x14 blokken). Deze discretisatie creëert twee fundamentele beperkingen:

Misalignement: Belangrijke visuele kenmerken (zoals randen, texturen of objectcentra) vallen vaak niet perfect samen met de vaste rasterlijnen. Een feature kan over meerdere patches worden verdeeld of deels buiten een patch vallen, wat de informatiedichtheid verlaagt.
Combinatorische complexiteit: Het selecteren van een optimale subset van patches uit een vast rooster is een NP-moeilijk probleem (een variant van het knapsack-probleem). Dit maakt het moeilijk om met gradiënt-based methoden naar de beste set tokens te zoeken, omdat de zoekruimte discreet en niet-differentieerbaar is.

De auteurs vergelijken dit met het proberen soep te eten met een vork: het is mogelijk, maar inefficiënt en frustrerend omdat je niet precies kunt kiezen wat je oppakt.

2. Methodologie: SPoT

De auteurs stellen SPoT (Subpixel Placement of Tokens) voor, een nieuw tokenisatiekader dat features plaatst op continue subpixel-posities in plaats van ze te beperken tot een vast rooster.

Continue Ruimte: In plaats van een discrete verzameling $\Omega_{grid}$ , definiëren ze een continue ruimte $\Omega_{subpix} = [0, H-1] \times [0, W-1]$ . Tokens kunnen op elk willekeurig punt $(h, w)$ binnen het beeld worden geplaatst.
Bilineaire Interpolatie: Om features te extraheren op deze continue posities, gebruiken ze een bilineaire interpolatiefunctie $q$ met een venstergrootte $k$ . Dit maakt het mogelijk om gradients te berekenen ten opzichte van de token-posities, waardoor gradiënt-gebaseerde optimalisatie mogelijk wordt.
SPoT-ON (Oracle-Guided Neighborhood Search): Om de potentie van deze methode te kwantificeren, introduceren ze een analyse-tool genaamd SPoT-ON. Hierbij wordt de encoder "bevroren" en worden de token-posities voor elk afzonderlijk beeld geoptimaliseerd via gradiëntdaling om de verliesfunctie te minimaliseren. Dit fungeert als een "orakel" dat de theoretisch beste posities blootlegt, hoewel dit te rekenintensief is voor inferentie.
Ruimtelijke Priors: Omdat er geen implicit ruimtelijk bias meer is (zoals bij een rooster), testen de auteurs verschillende initialisatie-priors voor de token-locaties:
- Uniform: Willekeurige verdeling.
- Gaussisch: Centraal gebias (objecten zitten vaak in het midden).
- Salient: Gebaseerd op visuele salientiekaarten (waar het oog naar kijkt).
- Isotropic/Center: Gestructureerde verdelingen.

3. Belangrijkste Bijdragen

SPoT Framework: Een nieuw tokenisatiekader dat continue subpixel-posities toestaat, wat de robuustheid en efficiëntie van ViTs aanzienlijk verbetert.
SPoT-ON Analyse: Een tool die empirisch aantoont dat zorgvuldig geselecteerde, schaarse token-plaatsingen (met slechts ~12,5% van de oorspronkelijke tokens) beter presteren dan dichte roosters. Het biedt een bovengrens voor prestaties die alleen door het veranderen van wat het model "ziet" kan worden bereikt.
Inzicht in Sparsiteit: Systematisch onderzoek toont aan dat in schaarse regimes object-gerichte priors (zoals salientie) beter werken, terwijl in dichte regimes gelijke ruimtelijke dekking cruciaal is.
Generalisatie: Geoptimaliseerde token-posities die door één model zijn gevonden, verbeteren de prestaties van andere, onafhankelijk getrainde modellen, wat suggereert dat deze posities fundamentele structuren van de data vastleggen in plaats van model-specifieke artefacten.

4. Resultaten

De experimenten zijn uitgevoerd op ImageNet-1k en ImageNet-21k met ViT-B/16 architecturen (supervised en self-supervised MAE).

Prestatieverbetering: In extreme schaarse settings (12,5% tokens) behaalde SPoT-ON (geoptimaliseerd) een nauwkeurigheid van 90,9%, vergeleken met 74,0% voor een geoptimaliseerd rooster en 61,7% voor de standaard grid-basis. Dit is een verbetering van bijna 17 procentpunten ten opzichte van de beste grid-methode.
Priors:
- In schaarse settings (25 tokens) presteerde de Salient prior (gebaseerd op objecten) het best.
- In dichte settings (196 tokens) was de Regelmatige Grid het meest effectief, omdat brede dekking belangrijker wordt dan alleen objectfocus.
Doorvoer vs. Nauwkeurigheid: SPoT biedt een superieur compromis tussen doorvoer (images per seconde) en nauwkeurigheid. Het behoudt veel meer van de volledige modelnauwkeurigheid bij hoge doorvoer dan bestaande methoden zoals PatchDropout of ToMe (Token Merging).
Robuustheid: Adversariale tests (waarbij tokens op achtergronden of randen worden geplaatst) leiden tot een drastische daling in prestaties, wat bevestigt dat het model echt afhankelijk is van semantisch relevante features en niet van triviale spatiale correlaties.

5. Betekenis en Toekomstperspectief

SPoT redefineert sparsiteit niet als een beperking, maar als een strategisch voordeel. Door de discretisatie van het rooster los te laten, maken de auteurs het mogelijk om tokens te positioneren waar de informatie het meest waardevol is.

Interpretatie: Het werk toont aan dat ViTs geen vaste roosters nodig hebben; ze kunnen werken met een "visuele zak met woorden" (visual bag-of-words) waarbij de volgorde en exacte positie continu zijn.
Toekomst: De auteurs zien de ontwikkeling van een leerbaar "policy network" als de volgende stap. In plaats van een dure orakel te gebruiken, zou een lichtgewicht netwerk (bijv. een CNN) kunnen voorspellen waar de beste tokens moeten zitten op basis van lage-niveau features, waardoor de methode praktisch toepasbaar wordt voor inferentie.
Toepassingen: Naast classificatie is SPoT veelbelovend voor taken die ruimtelijk redeneren vereisen, zoals objectdetectie en videobegrip, waar spatiotemporale priors kunnen worden toegepast.

Kortom, SPoT opent een nieuwe richting voor flexibele, efficiënte en interpreteerbare Vision Transformer-architecturen door de beperking van het vaste raster te doorbreken.

SPoT: Subpixel Placement of Tokens in Vision Transformers

1. Van Raster naar Vrij Spel

2. De "Oracle" (De Orakel)

3. Waarom is dit zo slim?

4. Wat hebben ze ontdekt?

Conclusie

Titel: SPoT: Subpixel Placement of Tokens in Vision Transformers

1. Het Probleem

2. Methodologie: SPoT

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Toekomstperspectief

Meer zoals dit

Speculating Experts Accelerates Inference for Mixture-of-Experts

A Visualization for Comparative Analysis of Regression Models

Maximizing mutual information between user-contexts and responses improve LLM personalization with no additional data

BrainSCL: Subtype-Guided Contrastive Learning for Brain Disorder Diagnosis

TTQ: Activation-Aware Test-Time Quantization to Accelerate LLM Inference On The Fly