Local-Global Prompt Learning via Sparse Optimal Transport

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen sehr klugen, aber etwas starren Bibliothekar namens CLIP. Dieser Bibliothekar hat Millionen von Büchern (Bilder) und Beschriftungen (Texte) gelesen und weiß, wie man ein Bild grob beschreibt. Wenn Sie ihm ein Foto von einem Hund zeigen, sagt er: „Das ist ein Hund." Das funktioniert super, wenn Sie nur grobe Kategorien unterscheiden wollen.

Aber was passiert, wenn Sie ihm ein Foto von einem Dackel und ein Foto von einem Pudel zeigen und fragen: „Welcher ist welcher?" Der Bibliothekar starrt auf das ganze Bild, sieht zwei vierbeinige Tiere und sagt: „Beide sind Hunde." Er verpasst die feinen Details: die langen Ohren des Dackels oder die lockigen Haare des Pudels.

Hier kommt die neue Erfindung aus dem Papier ins Spiel: SOT-GLP. Man kann es sich wie eine intelligente Teamarbeit vorstellen, die dem Bibliothekar hilft, nicht nur „ganzheitlich", sondern auch „im Detail" zu schauen.

Das Problem: Zu viele Augen, die auf dasselbe schauen

Bisherige Methoden haben versucht, dem Bibliothekar zu helfen, indem sie ihm sagten: „Schau dir auch die Details an!" Aber das funktionierte oft chaotisch. Stellen Sie sich vor, Sie haben drei Detektive (die „Prompts"), die einen Dieb finden sollen. Jeder Detektive schaut sich das Bild an und sagt: „Ich sehe den Dieb an der Nase!" „Ich sehe ihn auch an der Nase!" „Ich sehe ihn auch an der Nase!"
Alle drei schauen auf denselben Teil des Bildes. Das ist Verschwendung. Sie ignorieren die Ohren, den Mantel oder die Schuhe des Diebes. Das nennt man im Papier „Redundanz" – alle machen dasselbe, statt sich auf verschiedene Teile zu spezialisieren.

Die Lösung: SOT-GLP – Ein gut organisiertes Team

Die Autoren haben ein System entwickelt, das wie ein perfekt koordiniertes Orchester funktioniert. Es hat zwei Hauptaufgaben:

1. Der „Großbild"-Blick (Global)

Ein Teil des Systems schaut sich das ganze Bild an, genau wie der ursprüngliche Bibliothekar. Er sagt: „Das ist definitiv ein Hund." Das sorgt für Stabilität. Wenn das Bild unscharf ist oder der Hund weit weg steht, hilft dieser Blick, die grobe Kategorie zu erkennen.

2. Der „Detail"-Blick (Local) – Mit einem cleveren Trick

Hier wird es spannend. Der andere Teil des Systems schaut sich nicht das ganze Bild an, sondern sucht gezielt nach den wichtigsten Stellen (wie Ohren, Pfoten, Muster).

Der Filter (Saliency): Stellen Sie sich vor, das Bild ist ein lautes Konzert. Der Filter schaltet alle leisen Hintergrundgeräusche (den unscharfen Hintergrund) aus und hebt nur die Solisten (die wichtigen Details) hervor.
Der Dirigent (Optimal Transport): Das ist der geniale Teil. Früher schauten alle Detektive auf denselben Solisten. Der neue „Dirigent" (ein mathematisches Werkzeug namens Optimal Transport) sagt: „Du, Detektive 1, du schaust auf die Ohren. Du, Detektive 2, du schaust auf die Pfoten. Und du, Detektive 3, du schaust auf den Schwanz."
- Die Metapher: Es ist wie eine Pizza, die fair aufgeteilt wird. Jeder bekommt ein Stück, niemand isst die ganze Pizza allein, und niemand bleibt hungrig. So wird verhindert, dass alle Detektive auf dasselbe Detail starren. Jeder spezialisiert sich auf einen anderen Teil des Bildes.

Das Ergebnis: Besser und robuster

Durch diese Aufteilung passiert zwei Dinge:

Bessere Erkennung: Das System erkennt den Dackel vom Pudel viel besser, weil es nicht nur auf das „Hund-Sein" schaut, sondern auf die spezifischen Details, die die Rassen unterscheiden. Auf vielen Tests (11 verschiedene Datensätze) war es das beste System der Welt.
Bessere Warnung vor Fremdem (OOD): Das ist der zweite große Vorteil. Stellen Sie sich vor, der Bibliothekar sieht ein Foto von einem Roboterdackel. Ein normales System würde vielleicht sagen: „Das ist ein Dackel", weil es nur auf die grobe Form schaut. Aber unser neues System, das die Details genau prüft, merkt: „Moment, die Pfoten sind aus Metall, das passt nicht!"
- Die Autoren haben entdeckt: Wenn man den „Lern-Teil" (die Projektion) im Detail-System etwas zurücknimmt, wird das System noch vorsichtiger. Es erkennt Dinge, die nicht in seine Datenbank passen, viel besser. Es ist wie ein Sicherheitsbeamter, der nicht nur auf den Ausweis schaut, sondern auch genau prüft, ob die Kleidung zum Ausweis passt.

Zusammenfassung in einem Satz

SOT-GLP ist wie ein Team von Detektiven, bei dem ein Dirigent sicherstellt, dass jeder Detektiv einen anderen, wichtigen Teil des Bildes untersucht, anstatt alle auf dasselbe zu starren. Das macht die Erkennung von Bildern nicht nur genauer, sondern auch sicherer, wenn etwas Ungewöhnliches passiert.

Warum ist das wichtig?
Es zeigt uns, dass man KI nicht nur „besser lernen" lassen muss, sondern ihr auch beibringen muss, wie sie schauen soll – fair verteilt und ohne Chaos. Und manchmal ist es sogar besser, weniger zu „lernen" (die Projektion wegzulassen), um sicherer vor Überraschungen zu sein.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Vision-Language-Modelle (VLMs) wie CLIP haben sich in Zero-Shot- und Few-Shot-Szenarien bewährt, indem sie Bilder mit Text-Prompts abgleichen. Bestehende Few-Shot-Anpassungsmethoden (z. B. CoOp) konzentrieren sich jedoch meist auf das Lernen globaler Text-Prompts, die mit globalen Bild-Embeddings (typischerweise dem [CLS]-Token) verglichen werden. Dies führt zu zwei Hauptproblemen:

Verlust feiner Details: Der globale Abgleich mittelt über alle räumlichen Regionen und ignoriert feinkörnige visuelle Merkmale wie Textur, Objektteile oder räumliche Konfigurationen, die für die Unterscheidung ähnlicher Klassen entscheidend sind.
Redundanz und Überlappung: Ansätze, die lokale Merkmale nutzen, wählen Bildregionen oft unabhängig für jeden Prompt aus. Dies führt dazu, dass mehrere Prompts dieselben dominanten Regionen attendieren (Überlappung), was die Spezialisierung der Prompts auf unterschiedliche visuelle Hinweise einschränkt und zu Redundanz führt.

Zusätzlich besteht ein Zielkonflikt zwischen Genauigkeit (Few-Shot-Klassifizierung) und Robustheit (Out-of-Distribution-Detektion). Lernbare Projektionen optimieren zwar die Anpassung an die Trainingsdaten, verzerren aber oft den ursprünglichen Merkmalsraum des CLIP-Modells, was die Fähigkeit zur Erkennung von Verteilungsverschiebungen (OOD) verschlechtert.

2. Methodik: SOT-GLP

Die Autoren schlagen SOT-GLP (Sparse Optimal Transport Guided Local-Global Prompt Learning) vor, ein Framework mit einer Dual-Branch-Architektur, das globale und lokale Alignments kombiniert:

Dual-Branch-Architektur:
- Globaler Branch: Behält den Standard-CLIP-Ansatz bei (Q-K Attention), um robuste, kategorienübergreifende Semantik über das globale [CLS]-Token zu erhalten.
- Lokaler Branch: Nutzt einen parallelen Stream mit Value-Value (V-V) Attention. Im Gegensatz zur Standard-Attention korreliert V-V direkt die Value-Repräsentationen, um patch-spezifische Interaktionen zu verstärken und feinkörnige lokale Merkmale (ohne Hintergrundrauschen) zu extrahieren.
Prompt-Parameterisierung:
- Es werden globale Prompts (klassenübergreifend geteilt) und klassenspezifische lokale Prompts gelernt.
- Die lokalen Prompts werden an spezifische Text-Embeddings gebunden, die aus Tokenisierung und learnbaren Parametern bestehen.
Sparse Optimal Transport (SOT) Alignment:
Dies ist der Kerninnovation des lokalen Branches, um das Problem der Überlappung zu lösen:
1. Saliency-Guided Sparsification: Anstatt alle Patches zu verwenden, wird eine Saliency-Karte berechnet, um nur die $K$ wichtigsten (salientesten) Patches für eine Klasse auszuwählen. Dies filtert Hintergrundrauschen heraus.
2. Balanced Entropic Optimal Transport: Die ausgewählten Patches werden mittels Optimal Transport (OT) den verschiedenen klassenspezifischen Prompts zugewiesen.
  - Ein ausgeglichenes Transport-Problem (mit uniformen Randverteilungen) wird gelöst.
  - Dies erzwingt eine weiche Partitionierung: Jeder Prompt erhält eine vergleichbare Menge an „Transportmasse" (Zuweisungsanteil).
  - Ergebnis: Verhindert, dass alle Prompts auf denselben dominanten Patch kollabieren, und fördert die Spezialisierung verschiedener Prompts auf unterschiedliche Objektteile (z. B. Kopf, Schwanz, Augen).
Trainingsziel:
Die Gesamtverlustfunktion ist eine gewichtete Summe aus dem globalen Kontrastverlust und dem lokalen OT-basierten Verlust ( $L = L_{global} + \lambda L_{local}$ ). Während des Trainings bleiben die Vision- und Text-Encoder eingefroren; nur die Prompt-Parameter und eine lokale Projektion werden gelernt.

3. Wichtige Beiträge

Neue Architektur: Einführung einer Dual-Branch-Architektur, die V-V Attention für lokale Merkmale und Optimal Transport für eine disjunkte Zuweisung von Patches zu Prompts nutzt.
Lösung der Überlappung: Durch den Einsatz von Balanced Optimal Transport wird sichergestellt, dass Prompts nicht redundant dieselben Regionen attendieren, sondern sich auf komplementäre visuelle Hinweise spezialisieren.
Trade-off-Entdeckung (Genauigkeit vs. Robustheit): Die Autoren identifizieren und demonstrieren einen klaren Zielkonflikt:
- Eine lernbare lokale Projektion maximiert die Few-Shot-Klassifizierungsgenauigkeit.
- Das Entfernen dieser Projektion erhält die native Geometrie des CLIP-Merkmalsraums und führt zu State-of-the-Art-Ergebnissen bei der Out-of-Distribution (OOD) Detektion, da die Konfidenzschätzungen besser kalibriert bleiben.
Effizienz: Durch die Kombination von sparsamer Top-K-Auswahl und OT wird der Rechenaufwand im Vergleich zu dichten OT-Ansätzen reduziert, während die Leistung erhalten bleibt.

4. Ergebnisse

Die Methode wurde auf 11 Standard-Benchmarks (Few-Shot) und OOD-Datensätzen evaluiert:

Few-Shot Klassifizierung:
- Auf einem Benchmark mit 11 Datensätzen und 16-Shot-Szenario (ViT-B/16) erreicht SOT-GLP eine durchschnittliche Genauigkeit von 85,1 %.
- Dies übertrifft alle bisherigen Prompt-Learning-Methoden (z. B. GalLoP, CoOp, MaPLe).
- Besonders starke Verbesserungen wurden bei Aufgaben mit feinen Details erzielt (Texturen, Blumen, Aktionen), wo lokale Merkmale globalen Semantiken überlegen sind.
Out-of-Distribution (OOD) Detektion:
- Die Variante ohne lernbare lokale Projektion („SOT-GLP w/o proj.") erzielt mit 94,2 % AUC und 23,8 % FPR95 die besten Ergebnisse im Vergleich zu allen anderen Prompt-Learning-Baselines.
- Dies zeigt, dass der Verzicht auf die Anpassung des Merkmalsraums die Robustheit gegenüber Verteilungsverschiebungen signifikant erhöht, bei nur minimalen Einbußen in der In-Distribution-Genauigkeit (-0,1 %).
Ablationsstudien:
- Die V-V Attention trägt +0,3 % zur Genauigkeit bei.
- Die klassenspezifischen Prompts sind für feinkörnige Aufgaben essenziell (+0,6 %).
- Die lokale Projektion ist für die maximale Genauigkeit wichtig (+0,9 %), aber schädlich für die OOD-Robustheit.

5. Bedeutung und Fazit

SOT-GLP stellt einen bedeutenden Fortschritt im Bereich des Prompt Learning für VLMs dar. Es adressiert effektiv die Limitationen globaler Abgleichmethoden, indem es feinkörnige visuelle Hinweise systematisch und ohne Redundanz nutzt.

Die größte wissenschaftliche Erkenntnis ist die Demonstration eines steuerbaren Accuracy-Robustness-Trade-offs:

Für Anwendungen, die maximale Klassifizierungsgenauigkeit erfordern, sollte die lokale Projektion genutzt werden.
Für Anwendungen, bei denen die Erkennung von unbekannten Daten (OOD) kritisch ist (z. B. Sicherheitsanwendungen), sollte die Projektion entfernt werden, um die ursprüngliche Generalisierungsfähigkeit von CLIP zu bewahren.

Dies bietet Praktikern eine flexible Konfigurationsmöglichkeit, um das Modell je nach Einsatzszenario zu optimieren, ohne die Architektur grundlegend ändern zu müssen.

Local-Global Prompt Learning via Sparse Optimal Transport

Das Problem: Zu viele Augen, die auf dasselbe schauen

Die Lösung: SOT-GLP – Ein gut organisiertes Team

1. Der „Großbild"-Blick (Global)

2. Der „Detail"-Blick (Local) – Mit einem cleveren Trick

Das Ergebnis: Besser und robuster

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik: SOT-GLP

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

On the security of 2-key triple DES

Security issues in a group key establishment protocol

The impact of quantum computing on real-world security: A 5G case study

Yet another insecure group key distribution scheme using secret sharing

How not to secure wireless sensor networks: A plethora of insecure polynomial-based key pre-distribution schemes