Scaling Laws in Patchification: An Image Is Worth 50,176 Tokens And More

Die Studie zeigt, dass eine Verkleinerung der Patch-Größe bis hin zur Pixel-Tokenisierung (1x1) die Leistung von Vision-Transformern und Mamba-Modellen auf verschiedenen Aufgaben konsistent verbessert, was zu einer neuen nicht-kompressiven Paradigmen für das visuelle Verständnis führt.

Feng Wang, Yaodong Yu, Guoyizhe Wei, Wei Shao, Yuyin Zhou, Alan Yuille, Cihang Xie

Veröffentlicht 2026-02-23
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Das große Rätsel: Warum wir Bilder "zerhacken"

Stell dir vor, du möchtest einem Computer beibringen, ein Bild zu verstehen. Früher (und auch heute noch bei vielen Modellen) hat man das Bild wie einen riesigen Mosaikstein in viele kleine, quadratische Kacheln zerhackt.

  • Der alte Weg (Patchification): Wenn du ein Bild von 224x224 Pixeln hast, schneidet das Computer-Modell es in 16x16 große Kacheln. Das sind dann nur noch 196 "Worte" (Tokens), die das Modell verarbeitet.
  • Das Problem: Das ist wie beim Lesen eines Buches, bei dem man jeden zweiten Buchstaben weglässt, um schneller zu lesen. Man spart Zeit, verliert aber Details. Ein feiner Hauch auf einer Wange oder ein winziges Detail in einem Auge geht dabei verloren. Die Forscher nennen das "komprimierte Kodierung".

Die neue Entdeckung: "Ein Pixel ist ein Wort"

Die Autoren dieses Papiers haben sich gefragt: Was passiert, wenn wir aufhören zu hacken? Was, wenn wir dem Computer erlauben, jeden einzelnen Pixel als eigenes Wort zu behandeln?

Das ist, als würde man aufhören, das Buch in grobe Abschnitte zu teilen, und stattdessen jedes einzelne Buchstaben einzeln lesen.

Das Ergebnis war überraschend:
Je kleiner die Kacheln wurden (von 16x16 runter auf 8x8, 4x4, bis hin zu 1x1 – also jedem einzelnen Pixel), desto besser wurde das Modell.

  • Es war kein "vielleicht". Es war eine klare Regel: Je mehr Details das Modell sehen durfte, desto klüger wurde es.
  • Am Ende haben sie ein Bild in 50.176 einzelne Wörter zerlegt (statt der üblichen 196). Das ist wie ein riesiger Roman, den das Modell auf einmal lesen muss.

Warum war das bisher nicht möglich? (Der Hardware-Horror)

Du fragst dich jetzt vielleicht: "Warum machen das alle nicht einfach so?"

Die Antwort ist: Es war zu teuer.

  • Der alte Computer: Vor ein paar Jahren hätte ein Computer, der versucht, 50.000 Wörter auf einmal zu lesen, sofort den Geist aufgegeben (Speicherüberlauf). Das war wie der Versuch, einen Ozean in einen Eimer zu füllen.
  • Die neue Realität: Dank neuer, schnellerer Grafikkarten (wie den A100 GPUs) und clevererer Software ist das heute machbar. Es kostet zwar noch viel Energie, aber es funktioniert.

Die drei wichtigsten Erkenntnisse (in einfachen Metaphern)

  1. Das "Detail-Paradies":
    Bisher dachten wir, dass grobe Kacheln reichen, um ein Bild zu verstehen. Die Studie zeigt: Nein! Die feinen Details, die wir vorher weggelassen haben, sind extrem wichtig. Ein Modell, das Pixel für Pixel liest, versteht die Welt besser, als wenn es nur grobe Flecken sieht.

  2. Der "Übersetzer" wird überflüssig:
    Bei Aufgaben wie "Semantische Segmentierung" (also: Markiere jedes Pixel, ob es ein Auto, ein Baum oder ein Hund ist), brauchten Computer bisher einen extra "Übersetzer" (einen Decoder), der die groben Kacheln wieder in feine Linien verwandelte.

    • Die Entdeckung: Wenn das Modell die Bilder schon so fein sieht (Pixel für Pixel), braucht es diesen Übersetzer gar nicht mehr! Das Modell kann die Aufgabe direkt lösen. Das macht die Architektur viel einfacher und eleganter.
  3. Mehr Parameter vs. Bessere Details:
    Normalerweise versucht man, KI-Modelle schlauer zu machen, indem man sie riesig macht (mehr Parameter, mehr "Gehirnmasse"). Aber irgendwann stößt man an eine Wand.

    • Die Studie zeigt: Es ist oft effektiver, dem Modell mehr Details zu geben (kleinere Kacheln), als es nur größer zu machen. Ein kleineres Modell mit Pixel-Details schlägt oft ein riesiges Modell mit groben Kacheln.

Fazit: Ein neuer Weg für die KI

Die Forscher sagen im Grunde: "Wir haben zu lange kompromisslos Bilder komprimiert, nur weil die Computer damals zu schwach waren."

Heute, wo die Hardware stärker ist, sollten wir aufhören, Bilder zu "zerhacken". Wir sollten sie so behandeln, wie sie sind: als eine riesige Ansammlung von Details.

Die große Metapher am Ende:
Stell dir vor, du hast eine Landkarte.

  • Der alte Weg: Du schaust dir nur die großen Städte an (Kacheln). Du weißt, wo Paris ist, aber nicht, wie die Straßen in den kleinen Dörfern aussehen.
  • Der neue Weg: Du schaust dir jede einzelne Straße und jedes Haus an (Pixel).
    Die Studie beweist: Wenn du jedes Haus kennst, bist du ein viel besserer Navigator als wenn du nur die Städte kennst – auch wenn es mehr Arbeit ist, die Karte zu lesen.

Das ist die Zukunft der Bilderkennung: Nicht komprimieren, sondern alles sehen.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →