Vision Transformers Need More Than Registers

Die Arbeit identifiziert eine träge Aggregation von semantisch irrelevanten Hintergrund-Patches als Ursache für Artefakte in Vision Transformern und schlägt eine selektive Integration von Patch-Features in den CLS-Token vor, um diese zu reduzieren und die Leistung über 12 Benchmarks hinweg zu verbessern.

Cheng Shi, Yizhou Yu, Sibei Yang

Veröffentlicht 2026-02-27
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen sehr schlauen, aber etwas faulen Assistenten, der Ihnen Bilder beschreibt. Dieser Assistent ist ein Vision Transformer (ViT) – eine Art künstliches Gehirn, das heute in vielen KI-Systemen für die Bilderkennung verwendet wird.

Das Problem ist: Dieser Assistent hat eine seltsame Angewohnheit. Wenn er ein Bild sieht (zum Beispiel einen Hund), ignoriert er oft den Hund selbst und konzentriert sich stattdessen auf den Hintergrund (den Rasen, den Zaun, den Himmel).

Warum? Weil es für ihn einfacher ist. Der Hintergrund ist riesig und überall. Der Hund ist klein. Der Assistent denkt sich: „Wenn ich einfach den ganzen Hintergrund analysiere, kann ich den Hund ja auch irgendwie erraten, ohne mich wirklich anzustrengen." In der Fachsprache nennt man das „lazy aggregation" (faule Zusammenfassung).

Hier ist die Geschichte der Lösung, die die Autoren dieses Papers gefunden haben, einfach erklärt:

1. Das Problem: Der faule Assistent

Stellen Sie sich vor, Sie geben Ihrem Assistenten eine Aufgabe: „Finde den Hund auf dem Bild!"

  • Der normale KI-Assistent (ViT): Er schaut sich den riesigen blauen Himmel an, den grünen Rasen und den Zaun. Er denkt: „Aha, Himmel und Gras sind typisch für einen Park, also muss da ein Hund sein." Er hat die richtige Antwort, aber er hat den Hund gar nicht wirklich gesehen!
  • Der Vergleich (ConvNet): Ein älterer, traditioneller KI-Assistent (wie ein ResNet) würde sich direkt auf den Hund konzentrieren, weil er so trainiert ist, dass er genau hinschaut.

Das Problem ist, dass der moderne KI-Assistent zwar die richtige Antwort gibt (er erkennt das Bild), aber wenn man ihn bittet, genau zu sagen, wo der Hund ist (z. B. für eine selbstfahrende Autokamera), versagt er. Er zeigt auf den Himmel, nicht auf den Hund.

2. Die Diagnose: Warum ist er so faul?

Die Forscher haben herausgefunden, dass zwei Dinge den Assistenten verwöhnen:

  1. Der Hintergrund ist riesig: In den meisten Bildern ist mehr Hintergrund als Vordergrund.
  2. Der Assistent darf „abkürzen": Die KI ist so programmiert, dass sie globale Zusammenhänge schnell erfassen darf. Da der Hintergrund so groß ist, lernt der Assistent schnell: „Ich muss mich nicht anstrengen, den kleinen Hund zu finden. Ich schaue einfach auf den riesigen Hintergrund, das reicht für die Punkte."

Das Ergebnis: Der Assistent entwickelt eine Art „faule Gewohnheit". Er vermischt die Informationen des Hundes mit dem Hintergrund, bis man sie gar nicht mehr unterscheiden kann.

3. Die Lösung: „LazyStrike" (Der Faulheits-Stopper)

Die Autoren haben eine neue Methode namens LaSt-ViT (LazyStrike ViT) entwickelt. Stellen Sie sich das wie einen strengen Trainer vor, der dem faulen Assistenten sagt: „Hör auf, auf den Hintergrund zu schauen! Schau genau hin!"

Wie funktioniert das?

  • Der Filter: Der Trainer gibt dem Assistenten eine spezielle Brille. Diese Brille filtert die Informationen heraus. Sie sagt: „Alles, was sich im Hintergrund verändert oder unruhig ist, ignorieren wir. Wir schauen nur auf die Teile, die stabil und wichtig sind."
  • Die Auswahl: Anstatt alle Informationen (Hintergrund + Vordergrund) gleichmäßig zu mischen, wählt der Assistent jetzt nur die besten, stabilsten Teile aus – also genau den Hund.
  • Das Ergebnis: Der „CLS-Token" (das ist das Gehirn des Assistenten, das die Gesamtaussage trifft) wird nun fest an den Vordergrund gebunden. Er kann nicht mehr auf den Hintergrund ausweichen.

4. Warum ist das wichtig?

Früher dachten viele, das Problem liege an speziellen „Register"-Tokens (wie Notizzetteln, die man dem Assistenten gibt, um Dinge zu speichern). Die Autoren sagen: Nein, das ist nur ein Symptom, nicht die Ursache.

Mit ihrer Methode „LazyStrike" passiert Folgendes:

  • Der Assistent wird besser im Finden von Objekten (z. B. in selbstfahrenden Autos).
  • Er funktioniert besser bei allen Arten von Aufgaben, egal ob er mit Bildern, Texten oder ohne Labels trainiert wurde.
  • Er ist schneller und effizienter, weil er nicht mehr unnötig den ganzen Hintergrund analysiert.

Zusammenfassung in einem Satz

Die Vision Transformer waren wie faule Schüler, die den Hintergrund abschrieben, um die Hausaufgaben zu machen; die neue Methode „LazyStrike" zwingt sie, sich endlich auf die eigentliche Aufgabe (den Vordergrund) zu konzentrieren, was sie zu viel besseren und zuverlässigeren Helfern macht.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →