Vision Transformers Need More Than Registers

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen sehr schlauen, aber etwas faulen Assistenten, der Ihnen Bilder beschreibt. Dieser Assistent ist ein Vision Transformer (ViT) – eine Art künstliches Gehirn, das heute in vielen KI-Systemen für die Bilderkennung verwendet wird.

Das Problem ist: Dieser Assistent hat eine seltsame Angewohnheit. Wenn er ein Bild sieht (zum Beispiel einen Hund), ignoriert er oft den Hund selbst und konzentriert sich stattdessen auf den Hintergrund (den Rasen, den Zaun, den Himmel).

Warum? Weil es für ihn einfacher ist. Der Hintergrund ist riesig und überall. Der Hund ist klein. Der Assistent denkt sich: „Wenn ich einfach den ganzen Hintergrund analysiere, kann ich den Hund ja auch irgendwie erraten, ohne mich wirklich anzustrengen." In der Fachsprache nennt man das „lazy aggregation" (faule Zusammenfassung).

Hier ist die Geschichte der Lösung, die die Autoren dieses Papers gefunden haben, einfach erklärt:

1. Das Problem: Der faule Assistent

Stellen Sie sich vor, Sie geben Ihrem Assistenten eine Aufgabe: „Finde den Hund auf dem Bild!"

Der normale KI-Assistent (ViT): Er schaut sich den riesigen blauen Himmel an, den grünen Rasen und den Zaun. Er denkt: „Aha, Himmel und Gras sind typisch für einen Park, also muss da ein Hund sein." Er hat die richtige Antwort, aber er hat den Hund gar nicht wirklich gesehen!
Der Vergleich (ConvNet): Ein älterer, traditioneller KI-Assistent (wie ein ResNet) würde sich direkt auf den Hund konzentrieren, weil er so trainiert ist, dass er genau hinschaut.

Das Problem ist, dass der moderne KI-Assistent zwar die richtige Antwort gibt (er erkennt das Bild), aber wenn man ihn bittet, genau zu sagen, wo der Hund ist (z. B. für eine selbstfahrende Autokamera), versagt er. Er zeigt auf den Himmel, nicht auf den Hund.

2. Die Diagnose: Warum ist er so faul?

Die Forscher haben herausgefunden, dass zwei Dinge den Assistenten verwöhnen:

Der Hintergrund ist riesig: In den meisten Bildern ist mehr Hintergrund als Vordergrund.
Der Assistent darf „abkürzen": Die KI ist so programmiert, dass sie globale Zusammenhänge schnell erfassen darf. Da der Hintergrund so groß ist, lernt der Assistent schnell: „Ich muss mich nicht anstrengen, den kleinen Hund zu finden. Ich schaue einfach auf den riesigen Hintergrund, das reicht für die Punkte."

Das Ergebnis: Der Assistent entwickelt eine Art „faule Gewohnheit". Er vermischt die Informationen des Hundes mit dem Hintergrund, bis man sie gar nicht mehr unterscheiden kann.

3. Die Lösung: „LazyStrike" (Der Faulheits-Stopper)

Die Autoren haben eine neue Methode namens LaSt-ViT (LazyStrike ViT) entwickelt. Stellen Sie sich das wie einen strengen Trainer vor, der dem faulen Assistenten sagt: „Hör auf, auf den Hintergrund zu schauen! Schau genau hin!"

Wie funktioniert das?

Der Filter: Der Trainer gibt dem Assistenten eine spezielle Brille. Diese Brille filtert die Informationen heraus. Sie sagt: „Alles, was sich im Hintergrund verändert oder unruhig ist, ignorieren wir. Wir schauen nur auf die Teile, die stabil und wichtig sind."
Die Auswahl: Anstatt alle Informationen (Hintergrund + Vordergrund) gleichmäßig zu mischen, wählt der Assistent jetzt nur die besten, stabilsten Teile aus – also genau den Hund.
Das Ergebnis: Der „CLS-Token" (das ist das Gehirn des Assistenten, das die Gesamtaussage trifft) wird nun fest an den Vordergrund gebunden. Er kann nicht mehr auf den Hintergrund ausweichen.

4. Warum ist das wichtig?

Früher dachten viele, das Problem liege an speziellen „Register"-Tokens (wie Notizzetteln, die man dem Assistenten gibt, um Dinge zu speichern). Die Autoren sagen: Nein, das ist nur ein Symptom, nicht die Ursache.

Mit ihrer Methode „LazyStrike" passiert Folgendes:

Der Assistent wird besser im Finden von Objekten (z. B. in selbstfahrenden Autos).
Er funktioniert besser bei allen Arten von Aufgaben, egal ob er mit Bildern, Texten oder ohne Labels trainiert wurde.
Er ist schneller und effizienter, weil er nicht mehr unnötig den ganzen Hintergrund analysiert.

Zusammenfassung in einem Satz

Die Vision Transformer waren wie faule Schüler, die den Hintergrund abschrieben, um die Hausaufgaben zu machen; die neue Methode „LazyStrike" zwingt sie, sich endlich auf die eigentliche Aufgabe (den Vordergrund) zu konzentrieren, was sie zu viel besseren und zuverlässigeren Helfern macht.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Vision Transformer (ViT) sind zum De-facto-Standard für die Bilderkennung geworden und dienen als allgemeine Feature-Extraktoren für verschiedene Aufgaben (von der Objekterkennung bis zur semantischen Segmentierung). Trotz ihres Erfolgs zeigen ViTs jedoch unter verschiedenen Überwachungsparadigmen (vollständig überwacht, textbasiert, selbstüberwacht) systematische Artefakte in ihren dichten Features.

Die Hauptprobleme sind:

Attention Deficit & High-Norm Tokens: In überwachten Modellen fehlt oft eine korrekte Aufmerksamkeit auf Vordergrundobjekte. In selbstüberwachten Modellen (wie DINO) treten "High-Norm Tokens" auf, die den Hintergrund dominieren und die Objektlokalisierung stören.
Fehlende semantische Ausrichtung: Modelle wie CLIP produzieren Features, die nicht präzise mit textuellen Hinweisen oder Vordergrundregionen übereinstimmen.
Ursache: Bisherige Lösungen (wie das Einfügen von "Registers" in ViTs) behandeln nur Symptome, nicht die Ursache. Die Autoren identifizieren einen fundamentalen Mechanismus: Lazy Aggregation (faule Aggregation).

Die Hypothese: ViTs nutzen semantisch irrelevante Hintergrund-Patches als "Abkürzungen" (Shortcuts), um globale Semantik darzustellen. Da natürliche Bilder oft mehr Hintergrund als Vordergrund enthalten und die Überwachung nur auf Bild-Ebene (Coarse-grained) erfolgt, lernt das Modell früh im Training, globale Informationen über den Hintergrund zu "diffundieren", anstatt sich auf das Vordergrundobjekt zu konzentrieren. Dies führt zu hohen Patch-Scores im Hintergrund, obwohl die Klassifikationsgenauigkeit hoch bleibt.

2. Methodik: LaSt-ViT (LazyStrike ViT)

Um dieses Problem zu lösen, schlagen die Autoren LaSt-ViT vor, einen Ansatz, der die Aggregation von Patch-Features in den CLS-Token (Global Representation) neu formuliert.

Analyse-Metriken:
- Patch Score: Ähnlichkeit zwischen einem Patch-Feature und dem globalen CLS-Token. Hohe Scores im Hintergrund deuten auf Artefakte hin.
- Point-in-Box (PiB): Eine Metrik, die misst, ob der Patch mit dem höchsten Score innerhalb des annotierten Vordergrund-Bounding-Box liegt. ViTs haben hier deutlich schlechtere Werte als ConvNets.
Der LaSt-ViT Algorithmus:
Der Kern der Methode ist eine frequenzbewusste selektive Aggregation. Die Autoren nutzen die Beobachtung, dass Vordergrund-Signale semantisch homogener sind als Hintergrund (der oft vielfältiger ist).
1. Stabilitäts-Score (Stability Score): Für jeden Patch wird eine 1D-Fourier-Transformation über die Kanal-Dimension durchgeführt. Durch Anwendung eines Tiefpassfilters (Low-Pass Filter) werden stabile (wenig variierende) Kanäle identifiziert.
2. Selektive Aggregation: Anstatt alle Patches gleich zu gewichten, berechnet das Modell für jeden Kanal die Stabilität jedes Patches.
3. Top-K Pooling: Für jeden Kanal werden nur die $K$ stabilsten Patches (Tokens) ausgewählt und gemittelt, um den CLS-Token zu aktualisieren.
4. Vote Count: Ein Patch erhält einen "Stimmen"-Wert, basierend darauf, wie oft er in den Top-K für verschiedene Kanäle gewählt wurde. Hohe Votes korrelieren stark mit Vordergrundregionen.

Dieser Prozess zwingt den CLS-Token, sich auf stabile, vordergrundrelevante Features zu konzentrieren und ignoriert die "faule" Aggregation über den Hintergrund.

3. Wichtige Beiträge

Systematische Analyse: Die Autoren definieren und analysieren Artefakte in ViTs einheitlich über verschiedene Überwachungsarten hinweg mittels Patch Score und PiB. Sie zeigen, dass der Bias zugunsten des Hintergrunds von Trainingsbeginn an existiert.
Ursachenklärung: Sie stellen die Hypothese auf, dass "Lazy Aggregation" durch die Kombination aus grobkörniger semantischer Überwachung (Bild-Level-Labels) und globalen Abhängigkeiten (Self-Attention) entsteht.
LaSt-ViT: Entwicklung einer einfachen, frequenzbasierten Methode, die den CLS-Token effektiv an Vordergrundregionen ankernt, ohne die Architektur grundlegend zu ändern oder Nachtrainings-Schritte zu benötigen.
Umfassende Validierung: Demonstration, dass die Methode Artefakte (inklusive High-Norm Tokens) eliminiert und die Leistung über 12 Benchmarks verbessert.

4. Ergebnisse

Die Methode wurde unter drei verschiedenen Überwachungssettings getestet:

Vollständig überwacht (Supervised):
- Auf ImageNet bleibt die Klassifikationsgenauigkeit erhalten oder verbessert sich leicht.
- Die Point-in-Box (PiB) Score verbessert sich drastisch (z.B. von 42,7% auf 55,1% bei ViT-B).
- Es entsteht eine "emergente" semantische Segmentierungsfähigkeit (ähnlich wie bei DINO), die normalerweise nur bei selbstüberwachten Modellen beobachtet wurde.
Text-überwacht (CLIP-Typ):
- Deutliche Verbesserungen bei Zero-Shot Semantic Segmentation auf Benchmarks wie Pascal VOC, Cityscapes und ADE20K (z.B. mIoU auf VOC steigt von 49,0% auf 75,0% bei ViT-B/16).
- Verbesserte Leistung bei Open-Vocabulary Object Detection und Segmentierung (OV-COCO, OV-LVIS).
Selbstüberwacht (DINO-Typ):
- Deutliche Steigerung der Object Discovery Leistung (CorLoc Score), z.B. auf VOC 2007 (64,4%) und COCO (51,6%).
- Die Methode ist effizienter als vorherige State-of-the-Art-Methoden (z.B. LOST), da sie keine aufwendigen Eigenvektor-Berechnungen benötigt.
Vergleich mit "Registers":
- Im Gegensatz zu "Registers", die High-Norm Tokens nur verschieben, eliminiert LaSt-ViT die Ursache der Artefakte vollständig. Die High-Norm Phänomene verschwinden, wenn die Lazy Aggregation unterdrückt wird.

5. Bedeutung und Fazit

Das Paper bietet einen neuen Blickwinkel auf das Verhalten von Vision Transformern. Es widerlegt die Annahme, dass Artefakte wie High-Norm Tokens oder schlechte Segmentierung nur durch zusätzliche Token (Registers) oder komplexe Nachbearbeitung gelöst werden müssen.

Stattdessen zeigt die Arbeit, dass das Problem in der fundamentalen Lernstrategie des ViT liegt: dem "faulen" Ausweichen auf Hintergrundinformationen. Durch die Einführung von LaSt-ViT wird gezeigt, dass eine einfache, frequenzbasierte Selektion der Tokens ausreicht, um ViTs zu zwingen, sich auf relevante Vordergrundmerkmale zu konzentrieren. Dies führt zu robusteren, besser interpretierbaren Modellen, die über verschiedene Supervision-Paradigmen hinweg konsistent bessere Ergebnisse bei dichten Vorhersageaufgaben liefern. Die Arbeit etabliert damit einen neuen Standard für das Verständnis und die Verbesserung von ViT-Architekturen.

Vision Transformers Need More Than Registers

1. Das Problem: Der faule Assistent

2. Die Diagnose: Warum ist er so faul?

3. Die Lösung: „LazyStrike" (Der Faulheits-Stopper)

4. Warum ist das wichtig?

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik: LaSt-ViT (LazyStrike ViT)

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation