Revisiting Autoregressive Models for Generative Image Classification

Die Arbeit zeigt, dass autoregressive Generative-Modelle durch die Nutzung von Any-Order-Architekturen zur Mittelung über mehrere Token-Reihenfolgen nicht nur effizientere und leistungsfähigere Bildklassifikatoren als Diffusionsmodelle werden, sondern auch mit modernen diskriminativen Modellen konkurrieren können.

Ilia Sudakov, Artem Babenko, Dmitry Baranchuk

Veröffentlicht 2026-03-20
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Der starre Blickwinkel

Stell dir vor, du möchtest ein Bild erkennen, zum Beispiel einen Hund.
Die meisten modernen KI-Modelle (die sogenannten Diffusionsmodelle, die gerade sehr populär sind) arbeiten wie ein Künstler, der ein Bild von groben Umrissen bis hin zu feinen Details malt. Das funktioniert super, ist aber langsam.

Frühere Modelle, die autoregressiv (AR) arbeiten, funktionierten wie jemand, der ein Bild Zeile für Zeile liest – genau wie wir einen Text lesen: von links nach rechts, von oben nach unten.

  • Das Problem: Wenn du ein Bild nur in einer festen Reihenfolge (Zeile 1, dann Zeile 2, dann Zeile 3...) betrachtest, verpasst du vielleicht wichtige Zusammenhänge. Es ist, als würdest du versuchen, ein Puzzle zu lösen, indem du nur die linke Hälfte zuerst legst und dann die rechte. Wenn das erste Stück (der linke Rand) dich in die Irre führt, ist das ganze Bild falsch.

Die Forscher aus diesem Papier haben festgestellt: Die Reihenfolge, in der die KI das Bild "liest", ist entscheidend. Manchmal erkennt sie einen Hund, wenn sie von links nach rechts liest. Aber wenn sie von rechts nach links liest, denkt sie vielleicht, es sei eine Katze.

Die Lösung: Der "Alles-ist-möglich"-Ansatz

Die Forscher haben sich gedacht: "Warum sich auf eine Lesart festlegen? Warum nicht alle möglichen Lesarten ausprobieren?"

Stell dir vor, du hast eine Gruppe von Experten, die alle dasselbe Bild betrachten, aber jeder schaut es aus einer anderen Perspektive an:

  • Experte A liest von links nach rechts.
  • Experte B liest von rechts nach links.
  • Experte C fängt in der Mitte an und springt hin und her.
  • Experte D liest erst die obere Hälfte, dann die untere.

Jeder Experte gibt seine Meinung ab. Wenn man nun alle diese Meinungen zusammenzählt und mittelt, erhält man eine viel genauere und robustere Antwort als wenn man sich nur auf einen einzigen Experten verlässt.

Das ist genau das, was die Autoren mit ihren RandAR-Modellen gemacht haben. Sie nutzen ein KI-Modell, das Bilder in beliebiger Reihenfolge von "Token" (kleinen Bildteilen) verstehen kann. Sie lassen das Modell das Bild tausende Male in zufälligen Reihenfolgen "durchgehen" und mitteln die Ergebnisse.

Warum ist das so cool? (Die drei Vorteile)

1. Es ist viel schneller (Der Sprinter vs. der Marathonläufer)

  • Diffusionsmodelle (die alten Favoriten): Um ein Bild zu erkennen, müssen sie oft 100 bis 250 kleine Schritte machen. Das ist wie ein Marathonläufer, der langsam aber sicher ans Ziel kommt.
  • Das neue AR-Modell: Es braucht nur einen einzigen Blick (einen "Forward Pass"), um die Wahrscheinlichkeit zu berechnen. Selbst wenn wir es 20-mal in verschiedenen Reihenfolgen laufen lassen, ist es immer noch bis zu 25-mal schneller als die Diffusionsmodelle. Es ist wie ein Sprinter, der das Ziel erreicht, während der Marathonläufer noch bei der Hälfte ist.

2. Es ist robuster (Der schlaue Detektiv)

  • Normale KI-Modelle machen oft Fehler, wenn das Bild verrauscht ist oder eine ungewöhnliche Perspektive hat (z. B. ein Hund, der auf dem Kopf steht). Sie schauen oft nur auf "Tricks" (z. B. "Oh, das ist braun und hat vier Beine, also ist es ein Hund").
  • Da unser neues Modell das Bild aus vielen Blickwinkeln betrachtet, verliert es diese Tricks nicht so leicht. Es versteht das Bild ganzheitlich. In Tests hat es sich gegen "Out-of-Distribution"-Daten (also Daten, die es nie gesehen hat) viel besser geschlagen als die alten Modelle.

3. Es ist fast so gut wie die Besten (Der Underdog, der gewinnt)

  • Normalerweise sind die "Generativen" Modelle (die Bilder erstellen können) schlechter darin, Bilder nur zu erkennen, als die spezialisierten "Diskriminativen" Modelle (die nur erkennen, aber nichts erstellen können).
  • Das neue Modell hat jedoch einen Meilenstein erreicht: Es ist fast so gut wie die allerbesten spezialisierten Erkennungs-KIs (wie DINOv2), kann aber gleichzeitig Bilder generieren. Es ist wie ein Koch, der nicht nur ein Gericht kochen, sondern auch blind schmecken kann, was genau drin ist – und dabei genauso gut ist wie ein professioneller Blindtest-Spezialist.

Zusammenfassung in einem Satz

Die Forscher haben herausgefunden, dass man KI-Modelle für die Bilderkennung viel besser macht, wenn man sie nicht wie einen starren Leser behandelt, sondern wie eine Menge von Detektiven, die das Bild aus allen möglichen Winkeln betrachten und ihre Ergebnisse zusammenfassen. Das Ergebnis ist ein System, das schneller, genauer und robuster ist als die bisherigen Spitzenreiter.

Der Clou: Sie haben gezeigt, dass man nicht unbedingt den "langsamsten, aber gründlichsten" Weg gehen muss, um das beste Ergebnis zu erzielen. Manchmal ist es besser, viele schnelle, unterschiedliche Perspektiven zu kombinieren.

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →