Adaptive MLP Pruning for Large Vision Transformers

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, ein großer Vision Transformer (wie CLIP oder DINOv2) ist ein riesiger, super-intelligenter Bibliothekar, der Millionen von Bildern auf einmal ansehen und verstehen kann. Dieser Bibliothekar ist unglaublich gut darin, Dinge zu erkennen, aber er hat ein riesiges Problem: Er ist zu schwer.

Er trägt einen Rucksack, der so vollgestopft ist mit Notizen, dass er kaum noch laufen kann. Das macht ihn langsam und teuer im Betrieb. Die Forscher aus diesem Papier haben sich gefragt: „Wie können wir diesen Rucksack leeren, ohne dass der Bibliothekar vergisst, wie man Bücher findet?"

Hier ist die einfache Erklärung ihrer Lösung, genannt AMP (Adaptive MLP Pruning):

1. Das Problem: Der überfüllte Rucksack

Der Bibliothekar besteht aus vielen kleinen Abteilungen. Die größte Abteilung ist die MLP (Multi-Layer Perceptron). Stell dir das wie einen riesigen Raum voller Assistenten vor, die alle gleichzeitig arbeiten.

Das Schlimme: Die meisten dieser Assistenten sind eigentlich nur Zuschauer. Sie machen fast nichts, tragen aber trotzdem zum Gewicht bei.
Die Forscher haben herausgefunden, dass dieser Raum etwa 80 % des gesamten Gewichts des Bibliothekars ausmacht. Wenn wir hier sparen, sparen wir am meisten.

2. Die alte Methode: Der blinde Test (Das Problem mit dem „One-Hot")

Früher haben Forscher versucht, die unnötigen Assistenten zu finden, indem sie dem Bibliothekar ein Bild zeigten und sagten: „Das ist eine Katze!"

Der Fehler: Die alten Methoden haben nur darauf geachtet, ob der Bibliothekar das Wort „Katze" richtig sagte. Wenn er aber auch dachte: „Hmm, das könnte auch ein kleiner Tiger sein" oder „Vielleicht ein Löwe?", ignorierten die alten Methoden diese Gedanken komplett.
Die Folge: Sie haben oft die falschen Assistenten gefeuert, weil sie dachten, diese seien unnötig, obwohl sie eigentlich wichtige Details über die „Tiger"- oder „Löwen"-Möglichkeiten im Kopf hatten.

3. Die neue Methode: Der „Entropie"-Kompass (Label-Free)

Die Autoren von diesem Papier haben eine klügere Idee: Information Entropy (Informationsentropie).

Die Analogie: Stell dir vor, du fragst den Bibliothekar nicht nur: „Ist das eine Katze?", sondern du fragst: „Wie sicher bist du bei allen Möglichkeiten?"
Sie nutzen eine Art Wahrscheinlichkeits-Kompass. Sie schauen sich an, wie der Bibliothekar über alle möglichen Bilder denkt, nicht nur über das eine, das er als „richtig" markiert hat.
Der Vorteil: Sie brauchen keine „richtigen" Antworten (Labels) von außen. Der Bibliothekar kann sich selbst beurteilen, indem er schaut, wie verwirrt oder sicher er bei verschiedenen Bildern ist. Das ist wie ein Selbsttest, bei dem er seine eigene Unsicherheit misst.

4. Die adaptive Schere: Nicht einfach abschneiden, sondern suchen

Früher haben Forscher oft gesagt: „Wir schneiden einfach 40 % aller Assistenten weg." Das ist wie ein stumpfes Messer – man schneidet vielleicht auch die guten mit ab.

Die neue Strategie (Binäre Suche): Die Forscher nutzen einen intelligenten Suchalgorithmus. Stell dir vor, du suchst den perfekten Punkt, an dem du den Rucksack entleeren kannst, ohne dass der Bibliothekar stolpert.
Sie probieren es aus: „Wenn wir 10 % wegnehmen, ist er noch stabil? Ja? Gut, dann nehmen wir noch 5 % mehr."
Sie suchen so lange hin und her (wie bei einem Zahlenraten-Spiel), bis sie genau die Menge an Assistenten gefunden haben, die weggenommen werden können, ohne dass die Leistung einbricht. Jeder Raum im Bibliothek bekommt genau so viel geschnitten, wie er vertragen kann.

5. Der Nachhilfeunterricht (Knowledge Distillation)

Nachdem sie die unnötigen Assistenten gefeuert haben, ist der Bibliothekar zwar leichter, aber vielleicht etwas verwirrt.

Die Lösung: Der ursprüngliche, volle Bibliothekar (der „Lehrer") gibt dem neuen, leichten Bibliothekar (dem „Schüler") Nachhilfe.
Der Lehrer zeigt dem Schüler: „Schau mal, so habe ich das Bild gesehen." Der Schüler lernt daraus, wie er die verbleibenden Assistenten besser nutzt, um fast genauso gut zu sein wie der schwere Original-Bibliothekar.

Das Ergebnis

Das Wunder ist:

Der Bibliothekar ist jetzt 40 % leichter (weniger Parameter, weniger Rechenarbeit).
Er läuft 1,5-mal schneller.
Aber er ist fast genauso klug wie vorher! Er vergisst kaum etwas.
Besonders cool: Wenn man ihn gar nicht erst nachtrainiert (kein Nachhilfeunterricht), ist er trotzdem viel besser als andere Methoden, die einfach willkürlich Dinge wegschneiden.

Zusammengefasst:
Die Autoren haben einen Weg gefunden, den Rucksack eines KI-Riesen zu entleeren, indem sie nicht blindlings Dinge wegwerfen, sondern genau messen, wer wirklich wichtig ist (durch den Entropie-Kompass), und dann Schritt für Schritt die perfekte Menge an Gewicht entfernen, bis der Rucksack so leicht wie möglich ist, ohne dass der Inhalt verloren geht.

Each language version is independently generated for its own context, not a direct translation.

Problemstellung

Große Vision-Transformer (VLTs) wie CLIP oder DINOv2 zeigen beeindruckende Skalierbarkeit, wobei die Leistung mit zunehmender Modellkapazität steigt. Dies führt jedoch zu enormen Parametern, die hohe Rechen- und Speicheranforderungen verursachen und eine kosteneffiziente Bereitstellung erschweren.
Die Analyse bestehender Architekturen zeigt, dass die Multilayer-Perceptron (MLP)-Module den größten Anteil der Parameter ausmachen (z. B. 81,1 % bei EVA-CLIP-E). Herkömmliche Pruning-Methoden (Beschneidung von Gewichten) stoßen jedoch an Grenzen:

Viele Methoden nutzen eine One-Hot-Cross-Entropy-Verlustfunktion zur Bewertung der Wichtigkeit von Neuronen. Dies ignoriert potenzielle Vorhersagen für andere Klassen und führt zu ungenauen Wichtigkeits-Scores.
Bestehende Taylor-basierte Methoden erfordern oft Zugriff auf den originalen Loss oder spezifische Module (z. B. den DINO-Head bei DINOv2), die nicht immer öffentlich verfügbar sind.
Viele Ansätze nutzen eine vordefinierte Kompressionsrate, was zu ineffizientem Pruning führt, da die Redundanz in verschiedenen MLP-Modulen unterschiedlich ist.

Methodik: Adaptive MLP Pruning (AMP)

Das Paper schlägt eine Methode namens Adaptive MLP Pruning (AMP) vor, die in drei Hauptphasen unterteilt ist:

1. Bewertung der Neuronen-Wichtigkeit mittels Informationsentropie

Statt der herkömmlichen One-Hot-Cross-Entropy verwendet AMP eine label-freie Informationsentropie als Kriterium für die Taylor-basierte Wichtigkeitsbewertung.

Herausforderung: Bei Modellen wie DINOv2 sind die Gewichte für die Vorhersageverteilung (z. B. DINO-Head) nicht verfügbar.
Lösung: Die Autoren berechnen eine Inter-Instance-Ähnlichkeitsmatrix basierend auf den CLS-Token-Repräsentationen der Bilder im Batch. Durch Anwendung einer Softmax-Funktion auf diese Ähnlichkeiten wird eine Wahrscheinlichkeitsmatrix $p$ erzeugt.
Kriterium: Die Informationsentropie $E = -\frac{1}{B} \sum \sum p_{ij} \log p_{ij}$ wird berechnet.
Vorteil: Dieses Kriterium modelliert die gesamte Vorhersageverteilung des Modells, ist unabhängig vom originalen Loss oder zusätzlichen Modulen und benötigt keine gelabelten Daten.

2. Adaptive Reduktion durch Binärsuche

Anstatt eine feste Anzahl von Neuronen zu entfernen, wird ein Binärsuch-Algorithmus eingesetzt, um die optimale Anzahl der zu beschneidenden Neuronen pro MLP-Modul adaptiv zu bestimmen.

Prozess: Die Neuronen werden nach ihren Wichtigkeits-Scores sortiert. Der Algorithmus sucht im Bereich $[0, M_0]$ (ursprüngliche Größe) nach der optimalen Größe.
Abbruchkriterium: In jedem Schritt wird die Entropie des beschneideten Modells evaluiert. Wenn die Änderung der Entropie ( $\Delta E$ ) einen vordefinierten Schwellenwert überschreitet, wird der Suchbereich angepasst (weniger Neuronen entfernen). Andernfalls wird weiter reduziert.
Ergebnis: Dies ermöglicht eine adaptive Kompression, die die Redundanz jedes einzelnen MLP-Blocks berücksichtigt, ohne eine globale, vordefinierte Rate zu erzwingen.

3. Wissensdistillation zur Leistungs-Wiederherstellung

Da nur die verborgenen Schichten der MLPs beschnitten werden, behalten die Ausgabe-Dimensionen des Modells ihre ursprüngliche Größe bei.

Das ursprüngliche Modell dient als Lehrer, das beschnittene Modell als Schüler.
Es wird eine Wissensdistillation mittels Mean Squared Error (MSE) auf den Class-Token und Patch-Token-Embeddings durchgeführt.
Dies ermöglicht eine effiziente Leistungs-Wiederherstellung ohne zusätzliche Ausrichtungs-Module.

Wichtige Beiträge

Label-freies Entropie-Kriterium: Einführung eines neuen Kriteriums zur Bewertung der Neuronen-Wichtigkeit, das die gesamte Vorhersageverteilung nutzt und keine Labels oder Zugriff auf nicht-öffentliche Modellgewichte benötigt.
Adaptives Pruning: Ein Algorithmus, der die Redundanz in verschiedenen MLP-Modulen berücksichtigt und durch Binärsuche eine optimale Beschränkung findet, anstatt starre Raten vorzugeben.
Nahezu verlustfreie Kompression: Die Methode erreicht eine signifikante Reduktion der Parameter und FLOPs bei gleichzeitiger Beibehaltung der Leistung, insbesondere wenn keine Fine-Tuning-Schritte nach dem Pruning durchgeführt werden.

Ergebnisse

Die Methode wurde auf State-of-the-Art-Modellen wie CLIP (OpenCLIP-g, OpenCLIP-G) und DINOv2 sowie EVA-CLIP getestet.

Kompressionsrate: Erzielte eine Reduktion von ca. 40 % der Parameter und FLOPs.
Leistung (Zero-Shot):
- Ohne Fine-Tuning (nur Pruning) übertrifft AMP andere Pruning-Methoden (wie Taylor-Pruning, SAViT, NViT) mit einem massiven Vorsprung (z. B. +42,7 % Genauigkeit bei OpenCLIP-g im Vergleich zu anderen Methoden).
- Mit Wissensdistillation erreichen die beschneidenden Modelle die Leistung der Originalmodelle fast vollständig wieder (teilweise sogar leicht darüber, z. B. bei EVA-CLIP-E).
Effizienz: Die Inferenzgeschwindigkeit erhöhte sich um den Faktor 1,5x.
Vergleich: Auf Benchmarks wie ImageNet-Variationen, ObjectNet, Flickr30K und COCO zeigte sich, dass die distillierten Modelle konsistent mit den Originalmodellen mithalten, obwohl sie deutlich weniger Parameter haben.

Bedeutung und Ausblick

Dieses Paper adressiert ein kritisches Problem der Skalierbarkeit von Vision-Transformern. Die vorgeschlagene AMP-Methode ist besonders wertvoll, weil sie:

Modellunabhängig ist (funktioniert auch bei Modellen mit nicht-öffentlichen Teilen wie DINOv2).
Label-frei arbeitet, was die Anwendung auf ungelabelten großen Datensätzen ermöglicht.
Eine hohe Effizienz bietet, da sie keine starren Kompressionsraten erzwingt, sondern die tatsächliche Redundanz des Modells nutzt.

Die Autoren planen zukünftige Arbeiten zur adaptiven Reduktion der Multi-Head Self-Attention-Module und zur Erweiterung der Methode auf Large Language Models (LLMs).