Evolving Prompt Adaptation for Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen extrem klugen, aber sehr starren Bibliothekar. Dieser Bibliothekar (das Vision-Language-Modell) hat Millionen von Büchern gelesen und kennt die Welt perfekt. Er kann jedes Bild sofort beschreiben, ohne dass er je etwas davon gelernt hat (das nennt man „Zero-Shot"-Fähigkeit).

Das Problem ist: Wenn Sie ihm jetzt eine ganz neue, spezielle Aufgabe geben – zum Beispiel, nur Bilder von bestimmten seltenen Blumen zu erkennen – und ihm nur ein paar wenige Beispiele zeigen, passiert oft Folgendes: Der Bibliothekar vergisst alles, was er vorher wusste, und lernt nur die neuen, wenigen Beispiele auswendig. Er wird zum Spezialisten für diese einen Blumen, verliert aber sein allgemeines Wissen über die Welt. Das nennt man „katastrophales Vergessen".

Die Forscher aus diesem Papier haben eine Lösung namens EvoPrompt entwickelt. Hier ist eine einfache Erklärung, wie das funktioniert, mit ein paar bildhaften Vergleichen:

1. Das Problem: Der sture Bibliothekar

Bisherige Methoden haben versucht, dem Bibliothekar kleine Notizzettel (sogenannte „Prompts") in die Hand zu drücken, damit er sich auf die neue Aufgabe konzentriert. Aber diese Notizzettel waren oft chaotisch. Sie wurden in jeder Schicht des Gehirns des Bibliothekars einzeln geschrieben, ohne aufeinander zu achten. Das Ergebnis: Der Bibliothekar wurde verwirrt und vergaß seine alten, guten Gewohnheiten.

2. Die Lösung: EvoPrompt – Der weise Mentor

EvoPrompt ist wie ein weiser Mentor, der dem Bibliothekar sagt: „Hey, wir müssen nicht alles neu lernen. Wir müssen nur unsere Haltung anpassen, nicht unser ganzes Wissen löschen."

Hier sind die drei genialen Tricks, die sie benutzen:

A. Der gemeinsame Übersetzer (Modality-Shared Prompt Projector)

Stellen Sie sich vor, das Gehirn des Bibliothekars hat viele Stockwerke (Schichten). Früher bekam jedes Stockwerk einen völlig anderen Notizzettel.
EvoPrompt sagt: „Nein, wir haben einen gemeinsamen Übersetzer."
Dieser Übersetzer nimmt eine einzige, zentrale Idee und passt sie für jedes Stockwerk leicht an. So arbeiten alle Stockwerke zusammen, wie ein gut koordiniertes Orchester, statt als einzelne Solisten, die durcheinander spielen. Das sorgt dafür, dass die Information fließt und nicht stecken bleibt.

B. Die Evolution des Weges (Evolutionary Trajectory)

Das ist der wichtigste Teil. Stellen Sie sich vor, der Bibliothekar lernt eine neue Route durch die Stadt.

Frühere Methoden: Sie haben ihn gezwungen, sofort eine komplett neue, wilde Route zu laufen. Dabei hat er die alten, sicheren Pfade vergessen.
EvoPrompt: Sie sagen ihm: „Behalte die Richtung der alten, sicheren Pfade bei! Ändere nur, wie schnell du auf ihnen läufst."

Technisch gesehen trennen sie das Lernen in zwei Teile:

Die Richtung (Direction): Das ist das fundamentale Wissen (z. B. „Blumen haben Stängel"). Das wird eingefroren. Es darf sich nicht ändern, damit das alte Wissen erhalten bleibt.
Die Stärke (Magnitude): Das ist, wie stark wir uns auf die neue Aufgabe konzentrieren (z. B. „Achte besonders auf die Blütenfarbe"). Das darf sich ändern.

So kann sich der Bibliothekar an die neue Aufgabe anpassen, ohne seine alten, wertvollen Erinnerungen zu löschen. Es ist, als würde man einen alten, bewährten Weg nur mit neuen Schildern versehen, statt ihn komplett zu pflastern.

C. Der Ordnungshüter (Feature Geometric Regularization)

Manchmal, wenn man zu viel lernt, wird das Gehirn chaotisch. Alle Gedanken vermischen sich, und man kann nichts mehr unterscheiden (das nennt man „Kollaps der Darstellung").
EvoPrompt hat einen Ordnungshüter eingebaut. Dieser sorgt dafür, dass die verschiedenen Gedanken (Merkmale) im Gehirn des Bibliothekars immer klar getrennt bleiben, wie Bücher in verschiedenen Regalen. Er verhindert, dass alles durcheinandergerät, besonders wenn nur wenige Beispiele zum Lernen da sind.

Das Ergebnis

Dank dieser Methode kann der Bibliothekar:

Die neue Aufgabe (z. B. seltene Blumen) sehr gut lernen, auch wenn er nur wenige Beispiele hat.
Gleichzeitig alles andere, was er vorher wusste, perfekt behalten.

Zusammenfassend:
EvoPrompt ist wie ein kluger Lehrer, der einem Schüler sagt: „Du musst nicht dein ganzes Gehirn umprogrammieren, um eine neue Sportart zu lernen. Behalte deine Grundbewegungen bei und passe nur deine Kraft und Geschwindigkeit an." Das führt zu einem System, das sowohl ein Welt-Experte als auch ein Spezialist sein kann, ohne das eine für das andere zu opfern.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Evolving Prompt Adaptation for Vision-Language Models" auf Deutsch:

Titel: Evolving Prompt Adaptation for Vision-Language Models (EvoPrompt)

Autoren: Enming Zhang, Jiayang Li, Yanru Wu, Zhenyu Liu, Yang Li
Institutionen: Tsinghua University, Chinese University of Hong Kong, Shenzhen

1. Problemstellung

Die Anpassung großer, vortrainierter Vision-Language-Modelle (VLMs) wie CLIP an Downstream-Aufgaben mit nur wenigen gelabelten Daten (Few-Shot Learning) stellt eine erhebliche Herausforderung dar.

Herausforderung: Herkömmliche Methoden des vollständigen Fine-Tunings sind rechen- und speicheraufwendig. Parameter-effiziente Methoden wie Prompt-Learning (z. B. CoOp, CoCoOp) sind zwar effizienter, leiden jedoch oft unter katastrophalem Vergessen (Catastrophic Forgetting).
Spezifische Schwächen bestehender Ansätze:
- Strukturelle Isolation: Viele Methoden behandeln Prompts als unabhängige Parameter pro Layer, was den hierarchischen Fluss semantischer Information unterbricht.
- Modality-Bias: Bestehende Ansätze (z. B. MaPLe) zeigen oft eine Text-zentrierte Verzerrung und nutzen die komplementäre Interaktion zwischen Vision und Sprache nicht optimal.
- Überanpassung: Bei Few-Shot-Adaptation neigen lernbare Prompts dazu, sich zu schnell von den vortrainierten semantischen Ankerpunkten zu entfernen und sich an die limitierten Downstream-Daten anzupassen, wodurch die ursprüngliche Zero-Shot-Fähigkeit verloren geht.

2. Methodik: EvoPrompt

Das vorgeschlagene Framework EvoPrompt zielt darauf ab, die evolutionäre Trajektorie von Prompts explizit zu steuern, um eine stabile, wissensbewahrende Feinabstimmung zu ermöglichen.

A. Modality-Shared Prompt Projector (MPP)

Konzept: Statt isolierter Prompts pro Layer wird ein einheitlicher, lernbarer Embedding-Raum ( $E$ ) eingeführt.
Funktionsweise: Dieser gemeinsame Raum wird über einen Projector in modality-spezifische Prompts für jeden Layer projiziert.
Entkopplung (Decoupled Low-Rank Expansion): Inspiriert von LoRA wird die Gewichtsmatrix des Projectors in eine gemeinsame Komponente ( $W_{shared}$ $W_{s ha r e d}$ ) und layer-spezifische Low-Rank-Adapter ( $A_i B_i$ $A_{i} B_{i}$ ) zerlegt.
- $W_{shared}$ erfasst fundamentales semantisches Wissen über alle Layer hinweg.
- Die Low-Rank-Adapter ermöglichen effiziente, layer-spezifische Anpassungen.
- Dies reduziert die Parameterkomplexität erheblich und fördert die Synergie zwischen den Layern und Modalitäten.

B. Evolutionary Trajectory-Aware Learning Strategy

Dies ist der Kernmechanismus zur Vermeidung von Vergessen. Die Anpassung wird als progressive Akkumulation von Wissen betrachtet.

Entkopplung von Richtung und Betrag: Die Low-Rank-Updates ( $\Delta W$ ) werden in einen lernbaren Betragskoeffizienten ( $\alpha$ ) und eine normalisierte Richtungskomponente zerlegt.
Inkrementelles Update:
- Die Richtungen ( $\overline{A_i B_i}$ ), die in frühen Trainingsphasen gelernt wurden (und somit die grundlegenden semantischen Ausrichtungen repräsentieren), werden eingefroren.
- Nur die Beträge ( $\alpha$ ) und neue Richtungen in späteren Epochen werden weiter trainiert.
Adaptive Rank Reduction: Um Overfitting in späteren Phasen zu vermeiden, wird der Rang der lernbaren Matrizen in definierten Epochen-Schritten schrittweise reduziert. Dies wirkt als strukturelle Regularisierung.

C. Feature Geometric Regularization (FGR)

Ziel: Verhinderung des „Feature Collapse" (Redundanz oder hohe Korrelation innerhalb der Merkmalsräume).
Mechanismus: Basierend auf dem Soft-HGR-Rahmenwerk (Soft Hirschfeld-Gebelein-Rényi) wird eine Regularisierung eingeführt, die die Kovarianzmatrix der Features innerhalb einer Modalität minimiert.
Effekt: Dies erzwingt Orthogonalität und Dekorrelation der Merkmalsdimensionen, was zu einem besser strukturierten und entkoppelten Merkmalsraum führt.

D. Gesamt-Loss-Funktion

Das Training kombiniert drei Komponenten:

$L_{InfoNCE}$ : Standard-Kontrastiver Verlust für die Ausrichtung von Bild-Text-Paaren.
$L_{fgr}$ : Feature Geometric Regularization (verhindert Redundanz).
$L_{kcl}$ (Knowledge Constancy Loss): Ein Verlustterm, der sicherstellt, dass die prompt-basierten Features nicht zu stark von den ursprünglichen, vortrainierten CLIP-Features abweichen (Erhaltung der Zero-Shot-Fähigkeit).

3. Wichtige Beiträge

EvoPrompt-Framework: Ein neues Paradigma, das die Evolution von Prompts durch eine trajektorienbewusste Anpassung steuert und katastrophales Vergessen effektiv verhindert.
Architektur-Design: Entwicklung eines Modality-Shared Prompt Projectors (MPP) mit entkoppelten Low-Rank-Updates, die eine gemeinsame Wissensbasis mit layer-spezifischer Feinabstimmung verbinden.
Trainingsstrategie: Eine innovative Methode zur Trennung von Richtungs- und Betragseffekten, bei der frühe semantische Richtungen eingefroren werden, während nur die Magnitude angepasst wird.
Regularisierung: Einführung von Feature Geometric Regularization zur Sicherstellung der geometrischen Stabilität des Merkmalsraums.

4. Ergebnisse

EvoPrompt wurde auf mehreren Benchmarks evaluiert und zeigte State-of-the-Art (SOTA) Ergebnisse:

Base-to-Novel Generalization: Auf 11 Datensätzen (z. B. ImageNet, Caltech101, OxfordPets) erreichte EvoPrompt die beste durchschnittliche Leistung.
- Verbesserung um 0,96 % bei Novel-Klassen und 0,76 % im harmonischen Mittel (HM) gegenüber dem vorherigen besten Modell.
- Besonders stark in der Balance zwischen Anpassung an Basis-Klassen und Erhaltung der Generalisierung auf neue Klassen.
Cross-Dataset Transfer: Bei Training auf ImageNet und Evaluation auf 10 anderen Datensätzen erzielte EvoPrompt die höchste durchschnittliche Genauigkeit (66,82 %) und die beste Quell-Genauigkeit auf ImageNet (71,63 %).
Domain Generalization: Auf schwierigen ImageNet-Varianten (V2, Sketch, A, R) zeigte EvoPrompt die höchste Robustheit gegenüber Domänenverschiebungen.
Few-Shot Learning: Die Leistungskurve zeigt, dass EvoPrompt mit zunehmender Anzahl an Trainingsbeispielen (1 bis 16 Shots) überlegene Skalierbarkeit aufweist.
Effizienz: Mit nur 0,764 M trainierbaren Parametern (vergleichbar oder geringer als andere effiziente Methoden) und einer schnellen Inferenzzeit (1282 FPS) ist das Modell extrem ressourcenschonend.

Ablationsstudie: Das Entfernen einzelner Komponenten (MPP, Shared Weights, Evolutionary Strategy, Regularisierung) führte zu signifikanten Leistungseinbußen, was die Notwendigkeit des gesamten Entwurfs bestätigt. Insbesondere zeigte sich, dass ohne die Evolutionary Strategy und den Knowledge Constancy Loss die Leistung bei Novel-Klassen stark abfällt (Überanpassung).

5. Bedeutung und Fazit

EvoPrompt adressiert eine der kritischsten Lücken im Bereich des Few-Shot-Learnings für Vision-Language-Modelle: den Trade-off zwischen der Anpassung an neue Aufgaben und dem Erhalt des vortrainierten Weltwissens.

Innovation: Der Ansatz, die „Evolution" der Prompts zu steuern, anstatt sie nur als statische Parameter zu injizieren, bietet einen neuen Weg, um Stabilität in dynamischen Lernumgebungen zu gewährleisten.
Praktische Relevanz: Durch die Kombination aus hoher Effizienz (wenige Parameter) und robuster Generalisierung macht EvoPrompt die Anpassung großer VLMs auf ressourcenbeschränkten Geräten oder mit sehr wenigen Daten praktikabler.
Zukunftsperspektive: Die Methode demonstriert, dass strukturelle Regularisierung und die explizite Modellierung von Lernpfaden entscheidend sind, um das volle Potenzial von Foundation Models in spezialisierten Anwendungen auszuschöpfen, ohne deren ursprüngliche Fähigkeiten zu opfern.