Vision Transformers Need More Than Registers

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een slimme camera hebt die foto's moet begrijpen. Deze camera is een Vision Transformer (ViT), een soort kunstmatige intelligentie die heel goed is in het herkennen van dingen, zoals een hond of een auto. Maar er zit een groot probleem aan deze camera: als je hem vraagt om te vertellen waar precies de hond staat op de foto, kijkt hij vaak naar de verkeerde plekken.

In plaats van naar de hond te kijken, kijkt hij naar de achtergrond: naar de lucht, de bomen of de muur. Hij denkt: "Ah, er is een hond, dus ik moet ook naar die lucht kijken, want dat hoort erbij." Dit is wat de onderzoekers "Lazy Aggregation" (luie aggregatie) noemen. De camera is te lui om precies te zoeken en pakt de makkelijkste, meest algemene hint (de achtergrond) om zijn antwoord te geven.

Het Probleem: De Luie Camera

De onderzoekers ontdekten dat deze camera's, ongeacht hoe ze getraind zijn (met menselijke labels, met tekst, of helemaal zelfstandig), allemaal dezelfde "luie" gewoonte ontwikkelen. Ze gebruiken de achtergrond als een korte weg om het antwoord te vinden.

De Analogie: Stel je voor dat je een klasje leerlingen hebt die een examen moeten maken over een foto van een hond. De slimme leerlingen (ConvNets) kijken precies naar de hond. De luie leerlingen (ViTs) kijken naar de lucht en de grond, denken: "Honden zitten vaak op gras, dus gras is het antwoord," en halen toch een goed cijfer voor het algemene examen. Maar als je ze vraagt om de hond te markeren, wijzen ze op het gras.

De Oplossing: LazyStrike (De "Luie-Stopper")

De onderzoekers hebben een nieuwe methode bedacht genaamd LaSt-ViT (of "LazyStrike"). Dit is als een strenge leraar die de luie leerlingen dwingt om zich te concentreren op wat er echt belangrijk is.

Hoe werkt het?

De Stemmen: De camera kijkt naar alle stukjes van de foto (de "patches"). Sommige stukjes zijn de hond (belangrijk), andere zijn de lucht (onbelangrijk).
De Stabiliteit: De luie camera geeft vaak veel stemmen aan de onbelangrijke stukjes. De nieuwe methode kijkt naar welke stukjes "stabiel" zijn. De hond ziet er overal op de foto ongeveer hetzelfde uit (stabiel), terwijl de achtergrond vaak chaotisch is.
De Selectie: De methode zegt: "We negeren de luie stukjes die naar de achtergrond wijzen. We verzamelen alleen de stemmen van de stukjes die echt over de hond gaan."

Dit zorgt ervoor dat de camera eindelijk leert om naar de hond te kijken en niet naar de lucht.

Waarom is dit belangrijk?

Vroeger dachten mensen dat dit probleem op te lossen was door extra "registers" (zoals een notitieblok) toe te voegen aan de camera. Maar de onderzoekers zeggen: "Nee, je hebt meer nodig dan alleen een notitieblok." Het probleem zit dieper in hoe de camera denkt.

Met hun nieuwe methode (LazyStrike) gebeurt er iets magisch:

De camera wordt niet alleen beter in het herkennen van dieren, maar ook in het precies lokaliseren ervan.
Het werkt voor alle soorten training: of je nu de camera leert met menselijke labels, met tekst, of zonder enige hulp.
Het is alsof je de camera een bril geeft die de achtergrond uitdempt en de hond fel verlicht.

Samenvatting in één zin

Deze paper laat zien dat Vision Transformers vaak te lui zijn en naar de achtergrond kijken in plaats van naar het object; met de nieuwe "LazyStrike"-methode dwingen we ze om eindelijk naar de echte inhoud te kijken, waardoor ze veel slimmer en nauwkeuriger worden.

Each language version is independently generated for its own context, not a direct translation.

1. Het Probleem: "Lazy Aggregation" in Vision Transformers

Hoewel Vision Transformers (ViTs) de facto standaard zijn geworden voor beeldherkenning en als universele feature-extractoren dienen, vertonen ze systematische artefacten onder verschillende supervisie-paradigma's (volledig gesuperviseerd, tekst-gesuperviseerd zoals CLIP, en zelf-supervisie zoals DINO).

De Kern van het Probleem: Het paper identificeert een fundamenteel gedrag genaamd "Lazy Aggregation" (luie aggregatie). ViTs neigen ertoe om semantisch irrelevante achtergrondpatches te gebruiken als "shortcuts" om globale semantiek te representeren, in plaats van zich te focussen op het werkelijke voorgrondobject.
Oorzaak: Dit gedrag wordt gedreven door twee factoren:
1. Grofkorrelige semantische supervisie: Image-level labels (in plaats van patch-level) bieden geen ruimtelijke richtlijnen.
2. Globale afhankelijkheden: De self-attention mechanismen laten toe dat voorgrond-informatie diffunderen naar achtergrondpatches.
Gevolg: De CLS-token (die de globale representatie vastlegt) wordt gedomineerd door achtergrondinformatie. Dit leidt tot:
- Slechte prestaties in dichte taken (zoals segmentatie en objectlocatie).
- Het verschijnen van "high-norm tokens" (patches met abnormaal hoge feature-normen) die de aandacht verstoren.
- Het feit dat bestaande oplossingen zoals "Registers" (extra tokens om artefacten op te vangen) slechts symptoombestrijding zijn en de onderliggende oorzaak niet aanpakken.

2. Methodologie: Analyse en Oplossing (LaSt-ViT)

A. Analyse en Nieuwe Metriek

De auteurs introduceren twee nieuwe concepten om het probleem kwantitatief te analyseren:

Patch Score: De gelijkenis tussen een individuele patch en de CLS-token (globale representatie). Een hoge score in achtergrondgebieden duidt op een artefact.
Point-in-Box (PiB): Een metriek die meet of de patch met de hoogste score zich binnen de annotatie van het voorgrondobject bevindt. ViTs scoren hier significant lager dan ConvNets (bijv. ViT ~42% vs ResNet ~68%), wat aantoont dat de CLS-token vaak "kijkt" naar de achtergrond.

B. De Oplossing: LaSt-ViT (LazyStrike ViT)

In plaats van extra tokens toe te voegen (zoals Registers), stelt het paper een frequentie-bewuste selectieve aggregatie voor. Het doel is om de CLS-token te "verankeren" bij stabiele voorgrondfeatures.

Stabiliteits Score: Het model berekent een stabiliteitscore voor elke patch-token. De aanname is dat voorgrondinformatie semantisch homogener is en minder variatie vertoont in de kanaal-dimensie dan achtergrondruis.
- Dit wordt bereikt door een 1D Fourier-transformatie toe te passen op de feature-kanalen van elke patch.
- Een laagdoorlaatfilter (Low-Pass Filter) wordt toegepast om de "stabiele" componenten te isoleren.
- De stabiliteitscore ( $S_{i,j}$ ) vergelijkt de originele patch met de gefilterde versie.
Selectieve Aggregatie (Top-K Pooling):
- Voor elk feature-kanaal worden de $K$ meest stabiele patches geselecteerd.
- De CLS-token wordt bijgewerkt door alleen deze stabiele (waarschijnlijk voorgrond) patches te aggregeren, in plaats van alle patches of een gemiddelde te nemen.
- Een "Vote Count" mechanisme bepaalt welke patches het vaakst als stabiel worden geselecteerd; deze corresponderen consistent met het voorgrondobject.

3. Belangrijkste Bijdragen

Systematische Analyse: Het paper onthult dat artefacten in ViTs voortkomen uit een fundamenteel "lazy aggregation" mechanisme dat al vroeg in het trainingsproces optreedt en blijft bestaan, ongeacht het supervisie-type.
Hypothese: Het koppelt grofkorrelige supervisie en globale attention aan het gebruik van achtergrondpatches als shortcuts, wat leidt tot misalignement in dichte features.
LaSt-ViT: Een eenvoudige, effectieve methode die de CLS-token focust op voorgrondinformatie zonder de architectuur ingrijpend te veranderen of post-hoc fine-tuning te vereisen.
Universele Verbetering: De methode werkt consistent over 12 benchmarks en verschillende supervisie-types (label, tekst, zelf-supervisie).

4. Resultaten

De methode werd getest op diverse taken en presteerde overtuigend:

Eliminatie van Artefacten:
- De Point-in-Box (PiB) score van ViTs met LaSt-ViT stijgt aanzienlijk (bijv. van 42.7% naar 55.1% bij volledig gesuperviseerde ViT, en van 44.5% naar 69.7% bij DINO), benaderend de prestaties van ConvNets.
- Het High-Norm Token fenomeen verdwijnt volledig, wat aantoont dat dit een symptoom is van de lazy aggregation en niet een onafhankelijk probleem.
Dense Tasks (Segmentatie & Detectie):
- Semantische Segmentatie: Grote verbeteringen in mIoU op benchmarks zoals Pascal VOC, Cityscapes en ADE20K. Bijvoorbeeld, CLIP (ViT-B/16) op Pascal VOC steeg van 49.0% naar 75.0% mIoU.
- Open-Vocabulary Detectie: Significant betere prestaties op OV-COCO en OV-LVIS, waarbij ViT-based modellen nu concurreren met of beter presteren dan ConvNet-based baselines.
- Object Discovery (Zelf-supervisie): De CorLoc score op VOC en COCO verbetert, waarbij LaSt-ViT de state-of-the-art DINO-seg en LOST methodes overtreft, terwijl het ook computatie-efficiënter is (geen zware eigenvector-berekeningen nodig).
Generalisatie: De verbeteringen zijn consistent voor zowel ViT-B als ViT-L en voor verschillende pre-training methoden (CLIP, DINO, ImageNet-supervisie).

5. Betekenis en Conclusie

Dit paper biedt een nieuw perspectief op het gedrag van Vision Transformers. Het weerlegt het idee dat "Registers" de oplossing zijn voor ViT-artefacten en toont aan dat het probleem ligt in de aggregatiestrategie zelf.

Fundamenteel Inzicht: ViTs zijn "lui" en gebruiken achtergrondinformatie om image-level loss te minimaliseren.
Praktische Impact: LaSt-ViT biedt een eenvoudige, plug-and-play oplossing die de interpretatie van ViTs verbetert (de CLS-token kijkt nu echt naar het object) en de prestaties op dichte visuele taken drastisch verhoogt zonder de noodzaak van complexe architecturale wijzigingen.
Toekomst: Het paper suggereert dat dit mechanisme ook van toepassing is op andere sequence-modellen (zoals Mamba en LLMs), wat een nieuwe richting voor toekomstig onderzoek opent.

Kortom: Vision Transformers hebben meer nodig dan alleen registers; ze hebben een mechanisme nodig dat hen dwingt om de juiste (voorgrond) informatie te selecteren in plaats van de makkelijkste (achtergrond) shortcuts te nemen.

Vision Transformers Need More Than Registers

Het Probleem: De Luie Camera

De Oplossing: LazyStrike (De "Luie-Stopper")

Waarom is dit belangrijk?

Samenvatting in één zin

1. Het Probleem: "Lazy Aggregation" in Vision Transformers

2. Methodologie: Analyse en Oplossing (LaSt-ViT)

A. Analyse en Nieuwe Metriek

B. De Oplossing: LaSt-ViT (LazyStrike ViT)

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation