Simple Self Organizing Map with Vision Transformers

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een groepje jonge kunstenaars (de Vision Transformers of ViT) hebt die fantastisch kunnen schilderen, maar alleen als ze een enorme bibliotheek met miljoenen voorbeelden hebben om naar te kijken. Als je ze echter alleen een paar foto's geeft, raken ze in de war. Ze hebben geen "buikgevoel" of intuïtie over hoe de wereld eruitziet; ze moeten alles letterlijk van nul af aan leren.

Aan de andere kant heb je een oude, ervaren leraar (Self-Organizing Maps of SOM). Deze leraar is geweldig in het ordenen van dingen. Als je hem een stapel losse foto's geeft, legt hij ze automatisch in een mooi patroon neer: alle bloemen bij elkaar, alle auto's bij elkaar, en zo verder. Hij heeft een sterke "inductieve bias" (een ingebouwd gevoel voor orde), maar hij is niet zo slim in het begrijpen van de fijne details van de foto's zelf.

Het idee van dit onderzoek is simpel: laat ze samenwerken!

De auteurs van dit paper, Alan en Kaiwen, hebben een nieuwe methode bedacht genaamd ViT-SOM. Ze hebben deze twee tegenpolen aan elkaar gekoppeld om elkaars zwakke punten op te vullen. Hier is hoe het werkt, vertaald naar alledaagse beelden:

1. Het Probleem: De "Grote Leerling" en de "Ordehouder"

De ViT (De Kunstenaar): Kan heel complexe patronen zien, maar heeft een enorme hoeveelheid training nodig. Op kleine datasets (zoals een schoolproject met maar 100 foto's) faalt hij omdat hij geen intuïtie heeft.
De SOM (De Ordehouder): Is geweldig in het groeperen van dingen op basis van gelijkenis, maar kan de details van de afbeeldingen zelf niet goed "lezen" of begrijpen.

2. De Oplossing: Een Symbiose

Stel je voor dat je de kunstenaar (ViT) naast de leraar (SOM) zet in een klaslokaal.

De ViT kijkt naar de foto's en haalt er de belangrijke details uit (zoals de vorm van een oog of een wiel).
De SOM neemt die details en zegt: "Hé, deze twee foto's lijken op elkaar, dus we zetten ze naast elkaar op dit bord."

Door dit te doen, krijgt de ViT een soort "rode draad" of een mentale kaart die hem helpt om de foto's beter te ordenen, zelfs als er maar weinig voorbeelden zijn. De SOM krijgt daarentegen de superkracht van de ViT om de foto's veel scherper te zien.

3. Hoe werkt het technisch? (Maar dan simpel)

In plaats van dat de computer foto's één voor één bekijkt (wat traag is), gebruiken ze een slimme truc:

Ze laten de ViT de foto's omzetten in een soort "geheime code" (een vector).
De SOM kijkt naar deze code en zegt: "Deze code hoort bij groep A, die bij groep B."
Als de computer een fout maakt (bijvoorbeeld: hij denkt dat een hond een kat is), past de SOM de "kaart" een beetje aan, en die aanpassing stroomt terug naar de ViT. Zo leert de ViT sneller en beter, zonder dat hij duizenden voorbeelden nodig heeft.

Wat hebben ze ontdekt?

De resultaten zijn verrassend goed:

Bij het groeperen (zonder antwoorden): Hun nieuwe systeem (ViT-SOM) was beter in het ordenen van foto's dan oudere systemen, en gebruikte zelfs minder rekenkracht.
Bij het herkennen (met antwoorden): Op kleine datasets (zoals foto's van bloemen of huisnummers) was hun systeem veel beter dan de grote, bekende modellen (zoals ResNet of Swin Transformer). Het was alsof hun kleine, slimme teamje een race won tegen een gigantische vrachtwagen.

De Grootste Les

Dit onderzoek laat zien dat je niet altijd de grootste, meest complexe AI-modellen nodig hebt. Soms is het slim om een moderne, krachtige technologie (ViT) te combineren met een ouderwetse, maar slimme methode (SOM). Het is als het geven van een GPS-systeem aan een ervaren chauffeur: de chauffeur kent de weg (de orde), maar de GPS zorgt ervoor dat hij nooit verdwaalt, zelfs niet op een onbekend stukje weg.

Kortom: ViT-SOM is een manier om AI-modellen slimmer te maken op kleine datasets, door ze een "buikgevoel" voor orde te geven.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Het artikel adresseert twee fundamentele beperkingen in het huidige diepe leren:

Vision Transformers (ViTs): Hoewel ViTs uitstekende prestaties leveren op grote datasets, kampen ze met een gebrek aan inductieve bias (zoals ruimtelijke invariantheid). Dit resulteert in slechte prestaties wanneer ze worden getraind op kleine of beperkte datasets. Bestaande oplossingen (zoals pretext-taken of kennisdistillatie van CNN's) lossen dit impliciet op, maar voegen geen inherente ruimtelijke structuur toe.
Self-Organizing Maps (SOMs): SOMs zijn een krachtig zelftoezichtend kader dat van nature topologie en ruimtelijke organisatie behoudt, wat een ideale inductieve bias zou zijn voor ViTs. Echter, klassieke SOMs hebben een zwakke feature abstraction (karaktertrekextractie) en worden vaak geassocieerd met verouderde architecturen. Bestaande hybride modellen gebruiken voornamelijk CNN's of RNN's (zoals LSTM) in plaats van moderne ViT-architecturen.

Er bestaat dus een onderzoekslacune in het combineren van de sterke kenmerkextractie van ViTs met de inherente topologische voordelen van SOMs.

Methodologie: ViT-SOM

De auteurs stellen ViT-SOM voor, een nieuw raamwerk dat ViTs en SOMs integreert om de sterke punten van beide architecturen te benutten.

Architectuur:
- Het model gebruikt een "Tiny" versie van een Vision Transformer (ViT) als encoder.
- In plaats van de embedding-vector direct naar een decoder of classificatielaag te sturen, wordt deze ingevoerd in een SOM-laag.
- De SOM-laag fungeert als een zelftoezichtend mechanisme dat de embedding-vector traint om de topologie van de data te behouden.
Trainingsproces:
- Parallelle Berekening: Om de inefficiëntie van de sequentiële update van klassieke SOMs op te lossen, gebruiken de auteurs een batch-compatibel framework. De "Best Matching Units" (BMU's) voor alle samples worden parallel berekend.
- Verliesfunctie: Het totale verlies ( $L_{total}$ ) is een gewogen som van de standaard neurale netwerkvreerlies ( $L_{nn}$ , zoals reconstructie- of classificatieverlies) en het SOM-verlies ( $L_{som}$ ):
  $L_{total} = L_{nn} + \gamma \cdot L_{som}$
  Waarbij $\gamma$ een hyperparameter is (0.005 voor clustering, 0.01 voor classificatie) die het belang van topologische organisatie reguleert.
- Afstandsmeting: In plaats van Euclidische of Manhattan-afstanden (die lastig zijn in hoge dimensies), gebruiken de auteurs cosine-afstand voor de berekening van de afstand tussen input en prototypes. Dit vermindert het effect van de "curse of dimensionality" in de latent space van ViTs.
- Temperatuurverval: De invloed van de buurt (neighborhood) wordt gestuurd door een temperatuurparameter $T(k)$ die exponentieel afneemt tijdens het trainen, wat zorgt voor een brede initiële scheiding van prototypes en fijne afstelling in latere stadia.

Belangrijkste Bijdragen

Novel Architectuur: De eerste exploratie van de synergie tussen ViTs en SOMs, waarbij ViTs de feature-extractie verbeteren en SOMs de nodige inductieve bias voor kleine datasets bieden.
Efficiëntie en Prestatie: Het demonstreren dat een eenvoudige integratie van SOM in een ViT leidt tot state-of-the-art resultaten op kleine datasets, zonder complexe architecturale wijzigingen.
Open Source: De code is publiek beschikbaar gesteld, wat de reproduceerbaarheid en verdere research in dit gebied faciliteert.

Resultaten

De auteurs evalueren ViT-SOM op zowel onbewaakte (clustering) als bewaakte (classificatie) taken op diverse datasets (MNIST, CIFAR-10/100, Flowers17, SVHN, etc.).

Clustering (Onbewaakt):
- ViT-SOM behaalde aanzienlijk hogere purity scores dan bestaande methoden zoals SOM-VAE en DESOM (een CNN-gebaseerde variant).
- Op de MNIST-dataset behaalde ViT-SOM (24x24) een score van 0.936, vergeleken met 0.934 voor DESOM, maar met 24% minder parameters.
- De UMAP-visualisaties tonen aan dat de latent space semantisch goed georganiseerd wordt, waarbij vergelijkbare klassen (bijv. cijfers) zich topologisch nabij elkaar vormen.
Classificatie (Bewaakt):
- ViT-SOM-cls presteerde beter dan gevestigde baselines zoals ResNet34, Swin-T, en DeiT-T op alle geteste kleine datasets.
- Op CIFAR-100 overtrof het de Swin Transformer met meer dan 14% nauwkeurigheid.
- Op Flowers17 was de verbetering ten opzichte van ResNet34 meer dan 17%.
- Cruciaal: Deze prestaties werden bereikt met tot 79% minder trainbare parameters dan de concurrenten. Het model presteerde ook beter dan een gereproduceerde standaard ViT (ViT-cls), wat aantoont dat de SOM-laag een waardevolle inductieve bias toevoegt.

Betekenis en Conclusie

Dit werk bewijst dat het combineren van de krachtige kenmerkextractie van Vision Transformers met de inherente topologische structuur van Self-Organizing Maps een zeer effectieve strategie is voor het trainen van modellen op kleine datasets.

De belangrijkste implicaties zijn:

Overbrugging van een Kwestie: Het lost het probleem van ViT's gebrek aan inductieve bias op zonder afhankelijk te zijn van enorme datasets of complexe distillatie-technieken.
Efficiëntie: Het model is niet alleen nauwkeuriger, maar ook aanzienlijk lichter (minder parameters), wat het ideaal maakt voor toepassingen met beperkte rekenkracht of data.
Toekomstperspectief: Het opent een nieuw onderzoeksgebied waarin klassieke zelforganiserende concepten worden herontdekt en versterkt door moderne transformer-architecturen. De auteurs merken wel op dat de inferentie-latentie door de BMU-zoekopdracht nog geoptimaliseerd kan worden.

Simple Self Organizing Map with Vision Transformers

1. Het Probleem: De "Grote Leerling" en de "Ordehouder"

2. De Oplossing: Een Symbiose

3. Hoe werkt het technisch? (Maar dan simpel)

Wat hebben ze ontdekt?

De Grootste Les

Probleemstelling

Methodologie: ViT-SOM

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks