HiPP-Prune: Hierarchical Preference-Conditioned Structured Pruning for Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, ein Vision-Language-Modell (wie LLaVA) ist ein extrem talentierter, aber auch sehr schwerer und teurer Koch. Dieser Koch kann nicht nur kochen (Texte verstehen), sondern auch Bilder analysieren (z. B. „Was ist auf diesem Teller?").

Das Problem: Dieser Koch ist so groß, dass er in vielen kleinen Restaurants (Handys, lokale Server) gar nicht Platz findet. Man muss ihn also „entschlacken" (prunen), also Teile seiner Arbeitsweise entfernen, damit er schneller und kleiner wird.

Aber hier liegt die Falle: Wenn man einfach zufällig Zutaten wegwirft, kann der Koch zwar immer noch Rezepte auswendig lernen, aber er fängt an zu halluzinieren. Er sagt vielleicht mit großer Überzeugung: „Das ist ein rotes Auto", obwohl auf dem Bild nur ein roter Ball ist. Er verliert den Bezug zur Realität.

HiPP-Prune ist die Lösung, die die Autoren in diesem Papier vorstellen. Hier ist die Erklärung, wie es funktioniert, mit ein paar einfachen Bildern:

1. Das Problem: Nicht alles ist gleich wichtig

Stell dir vor, du musst einen riesigen Koffer für eine Reise packen, aber er darf nur halb so schwer sein.

Der alte Weg: Man wirft einfach zufällig Dinge raus (z. B. die Hälfte der Socken und die Hälfte der Schuhe). Das funktioniert oft schlecht, weil man vielleicht die Schuhe weggeworfen hat, die man dringend braucht, aber die Socken behalten hat, die man nicht braucht.
Das neue Problem bei KI: Bei diesen KI-Köchen gibt es eine spezielle „Brille" für Bilder. Wenn man Teile der „Brille" (die Schichten, die Bilder verstehen) zu stark wegschneidet, verliert der Koch den Bezug zur Realität und beginnt zu lügen (Halluzinationen), auch wenn er sonst gut kochen kann.

2. Die Lösung: Ein intelligenter Packmeister (HiPP-Prune)

HiPP-Prune ist wie ein super-intelligenter Packmeister, der nicht einfach Dinge wegwirft, sondern strategisch entscheidet, wo er Platz schafft.

A. Der „Wunschzettel" (Präferenz-basiert)

Normalerweise muss man für jedes Ziel einen neuen Packmeister einstellen. HiPP-Prune ist anders. Du gibst ihm einen Wunschzettel (einen Vektor):

„Ich brauche einen Koch, der sehr genau ist, aber auch schnell."
„Oder: Ich brauche einen Koch, der sehr schnell ist, auch wenn er mal einen Fehler macht."
„Oder: Ein Kompromiss."

Der Packmeister passt sich sofort an. Er ändert nicht sein Gehirn neu, sondern nutzt denselben Plan, um für jeden Wunschzettel eine andere Packstrategie zu finden. Das nennt man „zero-shot querying" – man fragt einfach einmal, und er liefert das passende Ergebnis.

B. Die „Augen-Brille" (Visuelle Sensitivität)

Das ist das Geniale an HiPP-Prune: Der Packmeister weiß genau, welche Teile des Koffers für das Sehen wichtig sind.

Er nutzt eine Art „Achtsamkeits-Sensor". Er schaut sich an, wo im Gehirn des Kochs die Signale von den Bildern (den Augen) am stärksten mit den Gedanken (der Sprache) verknüpft sind.
Wenn er merkt: „Aha, diese Schicht ist super wichtig, um zu erkennen, dass es ein Hund und kein Ball ist", dann schützt er diese Schicht. Er wirft lieber etwas anderes weg, das weniger wichtig ist.
So verhindert er, dass der Koch die Bilder aus den Augen verliert, auch wenn er viel Gewicht spart.

C. Der „Stabilitäts-Test" (SynFlow)

Beim Packen kann man schnell in eine Sackgasse geraten. Man wirft so viel weg, dass der Koffer zwar leicht ist, aber nichts mehr funktioniert (der Koch ist taub).

HiPP-Prune nutzt einen Test namens SynFlow. Das ist wie ein Sicherheitsgurt. Bevor der Packmeister einen Plan endgültig festlegt, prüft er: „Wenn ich das hier wegwerfe, bricht das ganze System zusammen?"
Wenn ja, wird dieser Plan verworfen oder abgestraft. So sucht er nur nach Plänen, die stabil funktionieren.

3. Das Ergebnis: Ein maßgeschneiderter Koch

In den Tests haben die Autoren gezeigt, dass HiPP-Prune viel besser ist als die alten Methoden (die einfach zufällig oder nach starren Regeln wegwerfen).

Bessere Realitätstreue: Der gekürzte Koch halluziniert viel weniger. Er sagt nicht mehr „Das ist ein Elefant", wenn da eine Katze ist.
Bessere Leistung: Er kann immer noch gute Fragen beantworten (z. B. in Wissenschaftstests).
Flexibilität: Man kann denselben KI-Koch für verschiedene Zwecke nutzen, indem man ihm einfach sagt: „Heute bin ich vorsichtig" oder „Heute bin ich schnell".

Zusammenfassung in einem Satz

HiPP-Prune ist wie ein kluger Architekt, der ein riesiges, schweres Haus (die KI) so umbaut, dass es leicht und schnell wird, ohne dabei die tragenden Wände (die Fähigkeit, Bilder zu verstehen) zu zerstören – und das alles basierend darauf, was der Bewohner gerade braucht.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Vision-Language-Modelle (VLMs) wie LLaVA sind für multimodale Assistenten unverzichtbar, aber ihre Größe macht den effizienten Einsatz erschwerend. Das klassische Modell-Pruning (Komprimierung) stößt bei VLMs an Grenzen:

Zielkonflikt: Eine reine Komprimierung kann die Aufgabenleistung (Utility) stabil halten, während gleichzeitig die Halluzinationsanfälligkeit (insbesondere das Erfinden von Objekten, die nicht im Bild sind) drastisch ansteigt.
Mangelnde Differenzierung: Herkömmliche Pruning-Methoden behandeln oft alle Schichten gleich oder nutzen statische Heuristiken. Sie berücksichtigen nicht, dass bestimmte Schichten für die visuelle Verankerung (Visual Grounding) und die multimodale Fusion kritischer sind als andere.
Fehlende Kontrolle: Es gibt keine einfache Möglichkeit, den Trade-off zwischen Robustheit (gegen Halluzinationen), Aufgabenleistung und Kompressionsgrad dynamisch an verschiedene Einsatzszenarien anzupassen, ohne spezialisierte Modelle neu zu trainieren.

2. Methodik: HiPP-Prune

HiPP-Prune (Hierarchical Preference-Conditioned Pruning) formuliert das Pruning als bedingte Ressourcenallokation unter multiplen Zielen. Statt ein festes Pruning-Schema zu lernen, lernt das System eine Policy, die basierend auf Benutzerpräferenzen verschiedene Pruning-Pläne generiert.

A. Hierarchische Policy und Plan-Level-Entscheidungen

Statt schrittweise Neuronen zu entfernen, trifft die Policy eine einmalige Entscheidung (One-Shot) für einen globalen Pruning-Plan. Dieser Plan wird in zwei Teile faktorisiert:

Globaler Sparsity-Budget-Controller: Bestimmt den gesamten Kompressionsgrad.
Layer-spezifische Allokation: Verteilt das Budget auf die einzelnen Schichten des Sprach-Backbones.
Dies ermöglicht es, einen einzigen Policy-Call zu nutzen, um durch Ändern eines Präferenzvektors ( $w$ ) unterschiedliche Punkte auf der Pareto-Front (Trade-off zwischen Robustheit, Utility und Kompression) zu erreichen.

B. Visuelle Sensitivität im Policy-State

Ein Kerninnovation ist die Integration eines visuellen Sensitivitäts-Signals in den Zustand der Policy.

Mechanismus: Das Signal wird aus dem Attention-Flow zwischen Vision-Tokens und den versteckten Zuständen der Sprache abgeleitet.
Berechnung: Für jede Schicht wird die durchschnittliche Attention-Masse von Sprach-Tokens zu Vision-Tokens berechnet. Schichten mit hoher Aufmerksamkeit auf visuelle Informationen werden als „visuell sensibel" markiert.
Zweck: Die Policy lernt, diese kritischen Schichten zu schützen, um die visuelle Verankerung und die Robustheit gegen Halluzinationen auch bei starker Kompression zu erhalten.

C. Optimierung mit Plan-Level GRPO

Die Policy wird mittels Group Relative Policy Optimization (GRPO) trainiert.

Multi-Objective Reward: Der Reward kombiniert Halluzinations-Robustheit (gemessen via POPE), Aufgaben-Utility (gemessen via ScienceQA) und den Kompressionsgrad.
Stabilisierung (SynFlow-Gate): Um die Suche in hoch-komprimierten Regimen zu stabilisieren, wird ein SynFlow-inspirierter Stabilitäts-Gate verwendet. Dieser bewertet die strukturelle Integrität des Netzwerks und gewichtet Updates von nicht-viablen (instabilen) Pruning-Plänen herunter, anstatt sie als explizites Ziel zu behandeln.

D. Post-Pruning Recovery

Nach dem Anwenden des Pruning-Plans erfolgt eine leichte Fine-Tuning-Phase (z. B. mit LoRA), bei der die Struktur (Masken) fixiert bleibt. Dies dient als kontrollierter Test der strukturellen Qualität: Ein besserer Pruning-Plan führt zu einer besseren Initialisierung, die sich nach dem Recovery besser erholt.

3. Wichtige Beiträge

Hierarchische, präferenzbedingte Pruning-Policy: Ein Framework, das VLM-Pruning als Ressourcenallokation betrachtet und eine einzige Policy lernt, die dynamisch layer-spezifische Sparsity-Pläne basierend auf Benutzerpräferenzen generiert.
Visionsbewusste Zustandsrepräsentation: Die Einführung eines auf Attention-Flow basierenden „Visual Sensitivity"-Signals, das die Policy befähigt, schichtenübergreifende Abhängigkeiten zwischen Vision und Sprache zu erkennen und kritische Schichten zu schützen.
Plan-Level GRPO mit Stabilitäts-Gating: Eine Erweiterung von GRPO auf den kombinatorischen Raum von Pruning-Plänen, kombiniert mit einem SynFlow-basierten Mechanismus, um die Suche in extremen Kompressionsbereichen zu stabilisieren.

4. Ergebnisse

Die Methode wurde an den Modellen LLaVA-1.5-7B und Qwen2.5-VL-3B evaluiert und mit Baselines wie Wanda, LLM-Pruner und SliceGPT verglichen.

Überlegene Leistung: HiPP-Prune erreicht bei gleichen Sparsity-Budgets (z. B. ~22,5%) signifikant bessere Ergebnisse als alle Baselines.
- Auf LLaVA-7B erreichte HiPP-Prune eine POPE-Balanced-Accuracy von 72,89% (vs. ~51-55% bei Baselines) und eine ScienceQA-Accuracy von 39,38%.
- Auf Qwen2.5-VL-3B zeigte sich ein ähnlicher Trend, wobei der Vorteil bei höherer Kompression (~32,5%) erhalten bleibt.
Kontrollierbarkeit: Ein einziges trainiertes Modell kann durch Änderung des Präferenzvektors $w$ nahtlos zwischen verschiedenen Betriebspunkten navigieren (z. B. mehr Robustheit vs. mehr Utility), ohne neu trainiert werden zu müssen.
Robustheit: Die Methode reduziert das Phänomen der „Yes/No"-Halluzinationen auf POPE drastisch im Vergleich zu herkömmlichen Methoden, die oft die visuelle Verankerung zerstören.

5. Bedeutung und Fazit

HiPP-Prune adressiert eine kritische Lücke im Bereich der effizienten VLMs: Die Notwendigkeit, Kompression nicht nur als reine Größenreduktion, sondern als strategische Allokation von Ressourcen zu betrachten, die die multimodalen Fähigkeiten des Modells erhält.

Praktische Relevanz: Das Framework ermöglicht es, ein einziges Modell für verschiedene Einsatzszenarien (z. B. sicherheitskritische Anwendungen mit hoher Robustheit vs. schnelle Inferenz mit hoher Kompression) anzupassen, indem einfach der Präferenzvektor geändert wird.
Wissenschaftlicher Fortschritt: Es zeigt, dass die Integration von visuellen Sensitivitäts-Signalen in die Pruning-Entscheidungsfindung entscheidend ist, um die oft vernachlässigte Halluzinationsanfälligkeit bei der Komprimierung zu adressieren.
Zukunftsausblick: Die Arbeit legt den Grundstein für adaptive Kompressionsstrategien, die strukturelle Integrität und multimodale Fähigkeiten in einem einzigen, steuerbaren Framework vereinen.