ToaSt: Token Channel Selection and Structured Pruning for Efficient ViT

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, ein Vision Transformer (ViT) ist wie ein riesiges, hochintelligentes Team von Detektiven, das ein Bild untersucht, um zu erkennen, was darauf zu sehen ist (z. B. eine Katze oder ein Auto).

Das Problem ist: Dieses Team ist extrem ineffizient.

Zu viele Redundanz: Viele Detektive machen genau das Gleiche oder schauen nur auf leere Stellen im Bild.
Zu viel Papierkram: Sie schreiben riesige Berichte über jedes winzige Detail, was viel Zeit und Energie kostet.
Schwierige Koordination: Wenn man einen Detektiv feuert, muss man oft das ganze Team neu organisieren und neu trainieren, was ewig dauert.

Die Forscher haben eine Lösung namens ToaSt (Token Channel Selection and Structured Pruning) entwickelt. Man kann sich ToaSt wie einen genialen Team-Manager vorstellen, der zwei verschiedene Strategien anwendet, um das Team schlanker und schneller zu machen, ohne die Intelligenz zu verlieren.

Hier ist die Erklärung in einfachen Schritten:

1. Das Problem: Das "überfüllte" Büro

Stell dir das Bild als einen Raum voller kleiner Kärtchen (die "Tokens") vor. Der Vision Transformer schaut sich jedes Kärtchen an und vergleicht es mit jedem anderen.

Das MHSA-Problem (Die Aufmerksamkeit): Die Detektive (Köpfe) schauen sich alle Kärtchen an. Aber viele von ihnen schauen auf die gleichen Dinge.
Das FFN-Problem (Die Nachdenkphase): Nach dem Anschauen müssen die Detektive in einem separaten Raum (Feed-Forward Network) ihre Gedanken ordnen. Dieser Raum ist riesig und macht über 60% der gesamten Arbeit aus. Aber viele der Regale in diesem Raum sind voller Müll oder doppelter Informationen.

2. Die Lösung: ToaSt – Der clevere Manager

ToaSt greift diese beiden Probleme mit zwei unterschiedlichen Werkzeugen an, die unabhängig voneinander arbeiten (das nennt man "entkoppelt").

A. Strategie 1: Das "Synchronisierte Feuer" (Für die MHSA-Teile)

Stell dir vor, jeder Detektiv hat ein Set von Werkzeugen (Gewichte). Wenn man einem Detektiv ein Werkzeug wegnimmt, muss man ihm gleichzeitig das passende Gegenstück wegnimmt, damit die Mechanik nicht kaputtgeht.

Wie ToaSt das macht: Der Manager schaut sich die Werkzeuge an. Er findet heraus, welche Werkzeuge fast identisch sind oder selten genutzt werden.
Der Trick: Er entfernt diese Werkzeuge paarweise und synchron. Wenn er Werkzeug A bei Detektiv 1 wegnimmt, nimmt er auch das passende Werkzeug B bei Detektiv 2 weg.
Das Ergebnis: Das Team wird kleiner, aber die Kommunikation funktioniert weiterhin perfekt. Man muss das Team nicht komplett neu trainieren, sondern nur kurz "einschleifen" (feinabstimmen).

B. Strategie 2: Der "Magische Filter" (Für die FFN-Teile)

Das ist der coolste Teil. Stell dir den riesigen Nachdenk-Raum (FFN) vor, in dem die Detektive ihre Berichte schreiben. Dieser Raum ist voll mit Kanälen (Regalen), die Informationen weiterleiten.

Die Entdeckung: Die Forscher haben gemerkt, dass in den tieferen Ebenen des Teams viele dieser Regale nur Rauschen (unnötiges Gerede) oder doppelte Informationen transportieren.
Die Methode (Token Channel Selection): Anstatt das ganze Team neu zu trainieren, schaut sich der Manager nur eine kleine Stichprobe der Arbeit an (wie wenn er zufällig 5% der Berichte liest).
Der Filter: Basierend auf dieser Stichprobe erkennt er sofort: "Ah, dieses Regal ist nur Müll!" oder "Dieses Regal ist wichtig, weil es die globale Bedeutung (den CLS-Token) trägt."
Das Ergebnis: Er schaltet einfach die unnötigen Regale ab. Da er keine neue Schulung braucht, ist das kostenlos und sofort. Es ist, als würde man einen Wasserhahn zudrehen, der nur Schmutzwasser liefert, ohne den ganzen Hausbau zu renovieren.

3. Warum ist das so besonders?

Kein langer Umzug: Früher musste man, wenn man Leute entließ, das ganze Büro neu einrichten und wochenlang neu trainieren. ToaSt braucht nur ein paar Tage (oder sogar Stunden) für die Feinabstimmung.
Größere Modelle profitieren mehr: Je größer das Team (z. B. ein riesiger "Huge"-Modell), desto mehr unnötige Leute haben sie eigentlich. ToaSt schneidet diese auf ein Minimum herunter. Ein riesiges Team wird dadurch nicht nur schneller, sondern klüger, weil der "Lärm" der unnötigen Informationen weg ist.
Bessere Ergebnisse: In Tests hat ToaSt nicht nur Rechenleistung gespart (bis zu 40% weniger), sondern die Genauigkeit sogar verbessert. Es ist, als würde man einem Marathonläufer sein zu schweres Rucksack abnehmen, und er läuft plötzlich schneller und besser.

Zusammenfassung in einer Metapher

Stell dir vor, du hast einen riesigen, überfüllten Bibliothekskeller (das KI-Modell), in dem Tausende von Büchern liegen.

Alte Methoden: Man versucht, das ganze Gebäude abzureißen und neu zu bauen, um Platz zu sparen. Das dauert Jahre.
ToaSt: Ein cleverer Bibliothekar kommt rein.
1. Er entfernt sofort alle doppelten Bücher aus den Regalen (MHSA-Pruning).
2. Er liest nur die ersten Seiten einiger Bücher und erkennt sofort, welche Regale nur mit leeren Seiten gefüllt sind. Diese Regale schließt er einfach ab (FFN-Channel Selection).
3. Das Ergebnis: Der Keller ist halb so groß, man findet die gesuchten Bücher viel schneller, und die Qualität der Informationen ist sogar besser, weil der "Müll" weg ist.

ToaSt macht also aus einem träge, überdimensionierten Riesen einen schlanken, schnellen und effizienten Spezialisten, der auch auf kleinen Geräten (wie Handys) laufen kann.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Vision Transformers (ViTs) haben in vielen Computer-Vision-Aufgaben (z. B. Bildklassifizierung, Objekterkennung) hervorragende Ergebnisse erzielt, leiden jedoch unter prohibitiv hohen Rechenkosten, was ihren Einsatz auf ressourcenbeschränkten Geräten (Mobile, Edge) erschwert. Die Komplexität entsteht durch zwei Hauptfaktoren:

Quadratische Komplexität der Self-Attention: Die Berechnung zwischen allen Token-Paaren skaliert mit $O(N^2)$ .
Hoher Anteil der Feed-Forward Networks (FFN): FFN-Schichten tragen etwa 61 % zu den gesamten FLOPs (Fließkommaoperationen) bei, hauptsächlich durch Operationen in der versteckten Dimension ( $D^2$ ).

Bestehende Lösungsansätze haben signifikante Nachteile:

Strukturiertes Weight Pruning: Reduziert Parameter, erfordert aber oft lange Retraining-Zeiten (vergleichbar mit dem ursprünglichen Training) und adressiert häufig nur die Attention-Mechanismen, nicht aber die redundante FFN-Struktur.
Token Compression: Reduziert die Sequenzlänge $N$ , um die Attention-Komplexität zu senken. Allerdings propagieren diese Entscheidungen global über alle Schichten hinweg, was Optimierungsprobleme verursacht, und sie adressieren nicht die redundante Kanal-Dimension innerhalb der FFN-Module.

2. Methodik: ToaSt

ToaSt ist ein entkoppeltes Framework, das spezialisierte Strategien auf verschiedene Komponenten des ViT anwendet, um Retraining-Overhead zu vermeiden und globale Propagationsprobleme zu umgehen.

A. Strukturiertes, gekoppeltes Weight Pruning für MHSA (Multi-Head Self-Attention)

Ziel: Reduzierung der inneren Kopf-Dimension $d_k$ statt der globalen Embedding-Dimension $D$ . Dies erhält die Schnittstellen zwischen den Transformer-Blöcken und Residualverbindungen.
Kopplung (Coupling): Um die mathematische Integrität zu wahren, werden die Gewichtsmatrizen synchronisiert beschnitten:
- Q-K-Synchronisation: Das Beschneiden einer Spalte in $W_Q$ erfordert das Beschneiden der entsprechenden Spalte in $W_K$ .
- V-Proj-Synchronisation: Das Beschneiden einer Spalte in $W_V$ erfordert das Beschneiden der entsprechenden Zeile in $W_{proj}$ .
Auswahlkriterium: Die Wichtigkeit der Dimensionen wird basierend auf dem Geometric Median (GM) der vortrainierten Gewichte bestimmt. Dimensionen, die dem Zentrum der Gewichtsverteilung am nächsten liegen (höchste Redundanz), werden entfernt.
Strategie: Eine schichtadaptive Strategie wird angewendet (90 % Pruning in allen Schichten außer der ersten), um die Eingangs-Interface-Schicht zu schützen.

B. Token Channel Selection (TCS) für FFN

Da FFNs über 60 % der Rechenlast ausmachen, wird hier eine training-freie Methode eingeführt, die auf empirischen Analysen der Aktivierungsmuster basiert:

Empirische Beobachtungen: Tiefere Schichten zeigen hohe lineare Rekonstruktionsgenauigkeit ( $R^2 \approx 1.0$ ), einen kollabierenden effektiven Rang (die Information liegt in einem niedrigerdimensionalen Unterraum) und hohe Sparsity (viele „tote Neuronen").
Prozess:
1. Statistisches Sampling: Anstatt alle Token zu analysieren (teuer), wird eine kleine, zufällige Stichprobe von Token verwendet, um die Kanalwichtigkeit zu schätzen (dank der hohen linearen Abhängigkeit ist dies ausreichend).
2. Attention-Guided Importance: Ein einheitlicher Wichtigkeitswert wird berechnet, der globale Kontext (CLS-Token) und lokale Saliency (Attention-Gewichte) kombiniert.
3. Asymmetrisches Pruning:
  - FC1 (Expansion): Konservatives Pruning, um die Feature-Vielfalt zu erhalten.
  - FC2 (Reduktion): Aggressives Pruning (bis zu 90 %) in tieferen Schichten, wo Redundanz am höchsten ist.
Vorteil: Dies eliminiert redundante Kanäle, ohne die globale Embedding-Dimension $D$ zu ändern, was eine direkte Beschleunigung auf Standard-Hardware (GPUs) ermöglicht.

3. Wichtige Beiträge

Entkoppeltes Framework: ToaSt trennt die Kompression von MHSA (Weight Pruning) und FFN (Channel Selection), was die Optimierung vereinfacht und Retraining minimiert.
Strukturiertes MHSA-Pruning: Eine neue Methode zur Reduzierung der Kopf-Dimension durch synchronisierte Beschneidung von Q-K und V-Proj-Matrizen, die die Genauigkeit auch bei hohen Pruning-Raten erhält.
Training-freie FFN-Optimierung: Die Token Channel Selection (TCS) nutzt statistische Analysen (Sparsity, Rank, $R^2$ ), um redundante Kanäle in FFNs ohne teures Fine-Tuning zu identifizieren und zu entfernen.
Skalierbarkeit: Die Methode zeigt, dass größere Modelle (z. B. ViT-MAE-Huge) weniger Fine-Tuning-Epochen benötigen, um nach der Kompression die Basisleistung zu übertreffen.

4. Ergebnisse

Die Evaluierung erfolgte auf ImageNet-1K (Klassifizierung) und COCO (Objekterkennung) mit Modellen wie DeiT, ViT-MAE und Swin Transformer.

Genauigkeit vs. Effizienz: ToaSt übertrifft bestehende Baselines (wie ToMe, DiffRate) konsistent.
- ViT-MAE-Huge: Erreicht 88,52 % Top-1 Genauigkeit (+1,64 % gegenüber der Basis) bei einer Reduktion der FLOPs um 39,4 %.
- DeiT-Small: Steigerung der Genauigkeit um +3,58 % bei gleichzeitiger Verdopplung des Durchsatzes (2,07x Speedup).
Fine-Tuning-Effizienz: Während kleinere Modelle (DeiT-Base) 290 Fine-Tuning-Epochen benötigen, reicht ViT-MAE-Huge mit nur **15 Epochen** aus, um die Basisleistung zu übertreffen.
Downstream Tasks (COCO): Auf der Objekterkennung (Cascade Mask R-CNN mit Swin-Backbones) verbessert sich die mAP von 51,9 auf 52,2, trotz signifikanter Kompression. Dies beweist, dass ToaSt redundantes Rauschen entfernt, anstatt diskriminierende Merkmale.
Hardware-Beschleunigung: Durch die strukturelle Regularität (keine unregelmäßige Sparsity) wird der theoretische FLOPs-Gewinn direkt in messbare Durchsatzsteigerungen auf NVIDIA H100 GPUs umgesetzt (bis zu 2,07x).

5. Bedeutung und Fazit

ToaSt adressiert die Hauptengpässe der ViT-Kompression effektiv, indem es die Lücke zwischen Weight Pruning und Token Compression schließt. Der entscheidende Durchbruch liegt in der Entkopplung der Kompressionsstrategien:

Es vermeidet das globale Propagationsproblem von Token-Compression.
Es eliminiert den hohen Retraining-Overhead traditioneller Weight-Pruning-Methoden.
Es nutzt die inhärente Redundanz in FFN-Schichten, die bisher oft ignoriert wurde.

Die Ergebnisse zeigen, dass größere Foundation-Modelle besonders gut für diesen Ansatz geeignet sind, da sie eine höhere intrinsische Redundanz aufweisen. ToaSt bietet somit einen robusten Weg zur effizienteren Nutzung von Vision Transformern in ressourcenbeschränkten Umgebungen, ohne Genauigkeitseinbußen in Kauf nehmen zu müssen.