Self-Attention And Beyond the Infinite: Towards Linear Transformers with Infinite Self-Attention

Die Arbeit stellt Infinite Self-Attention (InfSA) und dessen lineare Variante Linear-InfSA vor, die durch eine spektrale Umformulierung als Neumann-Reihe über Token-Graphen den quadratischen Rechenaufwand von Softmax-Attention umgehen, skalierbare Vision-Transformer mit bis zu 332.000 Tokens ermöglichen und dabei auf ImageNet-1K eine um 3,2 Prozentpunkte höhere Genauigkeit sowie eine 13-fach bessere Energieeffizienz im Vergleich zu herkömmlichen Modellen erreichen.

Giorgio Roffo, Luke Palmer

Veröffentlicht 2026-03-10
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Der überforderte Bibliothekar

Stell dir vor, du hast eine riesige Bibliothek mit Millionen von Büchern (das sind die Bilder, die ein Computer sehen soll). Ein herkömmlicher KI-Modell (ein Transformer) ist wie ein extrem fleißiger, aber langsam arbeitender Bibliothekar.

Wenn dieser Bibliothekar ein neues Buch (ein Bild) analysiert, muss er jedes einzelne Buch mit jedem anderen Buch vergleichen, um zu verstehen, was wichtig ist.

  • Bei 100 Büchern macht er 10.000 Vergleiche.
  • Bei 1.000 Büchern macht er 1 Million Vergleiche.
  • Bei einem hochauflösenden Foto mit 300.000 „Büchern" (Pixel-Teilen) müsste er 90 Billionen Vergleiche anstellen.

Das ist wie der Versuch, eine Nadel im Heuhaufen zu finden, indem man jeden Strohhalm einzeln mit jedem anderen Strohhalm vergleicht. Es dauert ewig, verbraucht riesige Mengen Strom und sprengt den Speicher des Computers. Das nennt man den „quadratischen Kosten"-Effekt.

Die Lösung: Ein neuer Ansatz namens „InfSA"

Die Autoren Giorgio Roffo und Luke Palmer haben eine neue Methode namens Infinite Self-Attention (InfSA) entwickelt. Sie sagen: „Warum vergleichen wir alles mit allem? Lass uns stattdessen ein soziales Netzwerk daraus machen."

Stell dir vor, jedes Buch in der Bibliothek ist eine Person auf einer Party.

  • Der alte Weg (Softmax): Jeder ruft laut: „Ich schaue auf alle anderen!" Das ist laut, chaotisch und ineffizient.
  • Der neue Weg (InfSA): Wir betrachten die Party als ein diffusives Netzwerk. Wenn eine Person eine Information hat, fließt diese nicht nur zu ihren direkten Nachbarn, sondern breitet sich wie ein Gerücht durch die ganze Gruppe aus.

Die Magie der „Unendlichen" Schritte

Normalerweise hört ein Computer nach einem Schritt auf zu hören. InfSA fragt: „Was passiert, wenn wir das Gerücht unendlich oft weitergeben?"

  • Stell dir vor, du wirfst einen Stein in einen Teich. Die Wellen breiten sich aus, prallen von den Ufern ab und überlagern sich.
  • InfSA berechnet nicht nur die erste Welle, sondern summiert alle Wellen, die jemals entstehen würden.
  • Das Ergebnis ist eine Landkarte der Wichtigkeit: Welche Personen (Bilder-Teile) sind die „Super-Verbreiter" der Information? Wer ist das Zentrum des Geschehens?

Das ist mathematisch gesehen wie eine Markov-Kette (eine Art Zufallswanderung). Ein Token (ein Bild-Teil) ist wie ein Wanderer, der zufällig von Punkt zu Punkt springt. InfSA zählt, wie oft ein Wanderer an einem bestimmten Ort landet, bevor er das Spiel verlässt. Orte, die oft besucht werden, sind wichtig.

Der Clou: Die lineare Abkürzung (Linear-InfSA)

Das Berechnen dieser „unendlichen Wellen" ist immer noch schwer. Also haben die Autoren eine geniale Abkürzung erfunden: Linear-InfSA.

Statt jeden einzelnen Pfad zu berechnen, fragen sie: „Was ist der Hauptstrom?"

  • Stell dir einen Fluss vor. Es gibt viele kleine Bäche, aber der Fluss hat einen Hauptstrom, der die meiste Energie trägt.
  • Linear-InfSA ignoriert die kleinen Bäche und konzentriert sich nur auf diesen einen, dominanten Hauptstrom (den sogenannten Haupt-Eigenvektor).
  • Der Vorteil: Die Rechenzeit wächst jetzt nur noch linear mit der Größe des Bildes. Wenn das Bild doppelt so groß ist, dauert es nur doppelt so lange, nicht viermal so lange.

Warum ist das so cool? (Die Ergebnisse)

Die Autoren haben ihre Methode in einen Vision Transformer (ViT) eingebaut und getestet. Hier sind die Ergebnisse in einfachen Worten:

  1. Super schnell und sparsam:
    Auf einem starken Grafikprozessor (A100) schafft ihr Modell 231 Bilder pro Sekunde. Ein normales Modell schafft nur 17. Das ist 13-mal schneller! Und es verbraucht dabei 13-mal weniger Energie pro Bild. Das ist wie der Unterschied zwischen einem alten Diesel-LKW und einem modernen Elektro-Sportwagen.

  2. Bilder in riesiger Auflösung:
    Normale Modelle platzen bei sehr hohen Auflösungen (z. B. 9216x9216 Pixel), weil der Speicher voll läuft. Das InfSA-Modell schafft das problemlos. Es kann ein Bild so groß wie ein ganzer Fußballplatz analysieren, ohne zu ersticken.

  3. Besserer Fokus:
    Wenn man sich ansieht, wohin das Modell schaut, sieht man einen großen Unterschied:

    • Normale Modelle: Schauen oft auf den Hintergrund oder verteilen ihre Aufmerksamkeit ungenau (wie jemand, der im Raum herumstarrt).
    • InfSA: Schaut genau auf das Objekt (z. B. das Gesicht einer Person oder ein Tier). Die Aufmerksamkeit ist scharf und präzise.
  4. Bessere Noten:
    Auf dem Standard-Test für Bilderkennung (ImageNet) erreicht das Modell mit nur 4 Schichten (Layern) und weniger Parametern eine höhere Punktzahl als viel größere, herkömmliche Modelle. Es ist effizienter und intelligenter.

Zusammenfassung

Stell dir vor, du hast eine riesige Menge an Daten.

  • Der alte Weg: Jeder liest jeden anderen Text, um zu verstehen, was wichtig ist. (Teuer, langsam, chaotisch).
  • Der neue Weg (InfSA): Wir lassen die Informationen wie ein Gerücht durch die Gruppe wandern und zählen, wer am meisten gehört wird.
  • Die Abkürzung (Linear-InfSA): Wir schauen nur auf den wichtigsten „Super-Hörer" und ignorieren den Rest, was uns extrem schnell macht.

Das Fazit: Die Autoren haben einen Weg gefunden, KI-Modelle so zu bauen, dass sie hochauflösende Bilder nicht nur schneller verstehen, sondern auch besser wissen, wohin sie schauen müssen, und dabei deutlich weniger Strom verbrauchen. Das ist ein großer Schritt hin zu effizienterer und grünerer Künstlicher Intelligenz.