Active Prompt Learning with Vision-Language Model Priors

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache Erklärung der Forschung, als würde man sie einem Freund beim Kaffee erzählen – ohne komplizierte Fachbegriffe, aber mit ein paar guten Bildern.

Das große Problem: Der müde Lehrer und die leere Tafel

Stell dir vor, du hast einen genialen, aber sehr faulen Lehrer (das ist das sogenannte Vision-Language Model, wie CLIP). Dieser Lehrer hat in seiner Jugend Millionen von Büchern gelesen und Bilder gesehen. Er weiß also fast alles über die Welt. Wenn du ihm ein Bild von einem Hund zeigst, kann er sofort sagen: „Das ist ein Hund!" – und das, ohne dass er je speziell für diese Aufgabe trainiert wurde. Das nennt man „Zero-Shot"-Fähigkeit.

Aber hier kommt das Problem:
Um den Lehrer für eine spezifische Aufgabe zu motivieren (z. B. nur zwischen 10 verschiedenen Hunderassen zu unterscheiden), musst du ihm Anweisungen geben. Diese Anweisungen sind wie kleine Zettel mit Texten, die man ihm vorliest.

Normalerweise muss man diese Zettel von Hand schreiben und dann den Lehrer mit tausenden gelabelten Bildern trainieren. Das ist teuer, langsam und nervig. Man möchte den Lehrer aber mit wenigen Bildern (vielleicht nur ein paar Dutzend) so schnell wie möglich auf die neue Aufgabe einschießen.

Die Lösung: Ein kluger Assistent (Active Prompt Learning)

Die Autoren dieses Papers haben sich gedacht: „Warum lassen wir den Lehrer nicht einfach raten, welche Bilder er wirklich braucht?"

Statt zufällig Bilder auszuwählen, haben sie einen intelligenten Assistenten gebaut, der zwei Tricks anwendet, um den Lehrer effizient zu schulen. Man kann sich das wie das Lernen für eine Prüfung vorstellen:

Trick 1: Die „Gruppierungs-Party" (Class-Guided Clustering)

Stell dir vor, du hast einen Haufen von 10.000 Fotos von Tieren, aber du kennst die Namen der Tiere noch nicht.

Der alte Weg: Du würdest einfach zufällig 10 Fotos auswählen und hoffen, dass dabei ein Hund, eine Katze und ein Vogel sind. Oft würdest du aber 10 Fotos von Hunden bekommen und keine Katze. Das ist ineffizient.
Der neue Weg (dieses Paper): Der Assistent nutzt das riesige Wissen des Lehrers. Er schaut sich die Bilder an und sagt: „Hey, dieser Text hier passt gut zu diesem Bild." Er gruppiert die Bilder nicht nur nach Optik (wie ein Foto), sondern nach dem, was der Lehrer darüber denkt.
- Er sagt: „Diese Bilder hier gehören zur Gruppe 'Katze', diese zur Gruppe 'Hund'."
- Dann wählt er aus jeder Gruppe genau ein repräsentatives Bild aus.
- Das Ergebnis: Du bekommst sofort eine perfekte Mischung aus allen Kategorien, ohne auch nur ein Bild manuell geprüft zu haben. Das ist wie ein Warm-Up, bei dem der Lehrer sofort weiß, worum es geht.

Trick 2: Der „Sparsame Frager" (Selective Querying)

Jetzt hast du deine 10 ausgewählten Bilder. Normalerweise würdest du einen Menschen bitten, alle 10 Bilder zu beschriften („Das ist ein Hund", „Das ist eine Katze"...). Das kostet Zeit und Geld (das ist der „Budget").

Aber unser Assistent ist schlau:

Er fragt den Lehrer: „Weißt du das schon?"
Wenn der Lehrer zu 99 % sicher ist („Das ist definitiv ein Hund!"), dann spart er sich die menschliche Beschriftung. Er schreibt einfach selbst einen „Pseudo-Label" (eine Vermutung) auf den Zettel.
Nur wenn der Lehrer unsicher ist („Hmm, ist das ein Fuchs oder ein Hund?"), ruft er den Menschen.
Das Ergebnis: Du musst viel weniger Menschen fragen. Du sparst Geld und Zeit, weil du nur die schwierigen Fälle beschriften lässt.

Warum ist das so toll?

Stell dir vor, du möchtest eine neue Sprache lernen.

Andere Methoden: Du nimmst ein zufälliges Buch, blätterst durch und suchst dir Wörter heraus. Du lernst viel, aber ineffizient.
Diese Methode: Du hast einen Tutor, der weiß, welche Wörter du noch nicht kannst. Er zeigt dir genau die Bilder, die dir fehlen, und wenn du etwas schon perfekt kannst, überspringt er es.

Die wichtigsten Erkenntnisse:

Besser mit weniger: Mit nur einem Bruchteil der Bilder (dem „Budget") erreichen sie genau so gute oder sogar bessere Ergebnisse als Methoden, die viel mehr Bilder nutzen.
Kein „Kalter Start": Viele Methoden scheitern am Anfang, weil sie nichts wissen. Diese Methode nutzt das Vorwissen des Lehrers sofort, um vom ersten Bild an gut zu starten.
Flexibel: Es funktioniert nicht nur bei Hunden und Katzen, sondern auch bei Autos, Blumen, Texturen und sogar medizinischen Bildern.

Zusammenfassung in einem Satz

Die Autoren haben einen Algorithmus entwickelt, der wie ein kluger Koch ist: Er nutzt das Wissen eines erfahrenen Chefs (der KI), um genau die Zutaten (Bilder) auszuwählen, die für das Gericht (die Aufgabe) fehlen, und spart sich das Einkaufen (die menschliche Beschriftung) für alles, was der Chef schon auswendig kennt.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Active Prompt Learning with Vision-Language Model Priors" auf Deutsch:

Titel: Active Prompt Learning mit VLM-Vorwissen (Active Prompt Learning with Vision-Language Model Priors)

Autoren: Hoyoung Kim, Seokhee Jin, Changhwan Sung, Jaechang Kim, Jungseul Ok (POSTECH)
Veröffentlicht in: Transactions on Machine Learning Research (10/2025)

1. Problemstellung

Vision-Language Models (VLMs) wie CLIP haben beeindruckende Zero-Shot-Leistungen bei verschiedenen Klassifizierungsaufgaben gezeigt. Dennoch hängen sie für die Anpassung an neue Aufgaben stark von manuell erstellten Text-Prompts ab, was zeitaufwendig und arbeitsintensiv ist.

Prompt Learning bietet eine Lösung, indem es lernbare Prompts statt eines vollständigen Fine-Tunings der Encoder verwendet.
Das Hauptproblem: Die meisten bestehenden Prompt-Learning-Methoden konzentrieren sich rein auf die Optimierung des Modells (model-centric) für gegebene Few-Shot-Datensätze. Sie vernachlässigen oft die strategische Datenselektion.
Herausforderung im Active Learning: In Szenarien mit begrenztem Budget (wenige annotierte Daten) ist es entscheidend, die informativsten Bilder auszuwählen. Herkömmliche Active-Learning-Ansätze leiden oft unter dem „Cold-Start"-Problem (fehlende Zuverlässigkeit in der ersten Runde) oder ignorieren das inhärente Vorwissen (Priors) der VLMs, was zu ineffizienter Budgetnutzung führt.

2. Methodik: Active Prompt Learning Framework

Die Autoren schlagen einen budget-effizienten Active-Prompt-Learning-Ansatz vor, der das Vorwissen von VLMs (insbesondere CLIP) voll ausnutzt. Der Prozess läuft über mehrere Runden ( $R$ ) mit einem Budget pro Runde ( $B$ ).

A. Class-Guided Clustering (Klassen-gesteuertes Clustering)

Um das Cold-Start-Problem zu lösen und eine ausgewogene Datenauswahl zu gewährleisten, wird ein neuer Feature-Raum eingeführt:

Feature-Extraktion:
- Bild-Features ( $I$ ): Aus dem Bild-Encoder von CLIP.
- Text-Features ( $\tilde{T}_C$ ): Ein gewichteter Durchschnitt der Text-Features aller Klassen. Die Gewichte basieren auf der Ähnlichkeit (Cosine Similarity) zwischen dem Bild und den Klassen-Prompts des aktuellen Modells.
Kombination: Die Bild-Features werden mit den gewichteten Text-Features konkateniert, um Class-Guided Features ( $F_C$ ) zu erhalten.
- Vorteil: Diese Features fokussieren sich stärker auf die relevanten Objekte der Zielklassen als reine Bild-Features (nachgewiesen durch GradFAM-Visualisierungen).
Clustering: Auf $F_C$ wird K-Means-Clustering angewendet.
Cluster-Balanced Acquisition: Aus jedem Cluster wird das repräsentativste Bild (nächster zum Cluster-Zentrum) ausgewählt. Dies garantiert eine diversitätsbasierte und klassenausgewogene Auswahl ab der ersten Runde (Warm-Start).

B. Adaptive Cluster-Größe

Die Anzahl der Cluster $K$ wird nicht statisch gehalten, sondern linear mit der Runde $r$ erhöht ( $K = B \times r$ ). Dies stellt sicher, dass in späteren Runden neue, bisher nicht abgedeckte Datenbereiche identifiziert werden können, während in frühen Runden eine stabile Basis gelegt wird.

C. Selective Querying (Selektive Abfrage)

Um das Budget weiter zu schonen, wird nicht jedes ausgewählte Kandidatenbild manuell annotiert:

Klassen-spezifische Schwellenwerte: Für jede Klasse $c$ wird ein Schwellenwert $\epsilon_{r,c}$ berechnet, basierend auf der durchschnittlichen Konfidenz des Modells auf bereits gelabelten Daten dieser Klasse.
Pseudo-Labeling: Wenn ein Kandidatenbild eine Konfidenz über dem entsprechenden Schwellenwert hat, erhält es ein Pseudo-Label und wird nicht vom menschlichen Annotator gelabelt.
Budget-Effizienz: Nur unsichere Vorhersagen werden manuell annotiert. Dies reduziert den tatsächlichen Annotierungsaufwand pro Runde erheblich.

D. Unified Prompts

Um Overfitting zu vermeiden, das bei klassenspezifischen Prompts in Few-Shot-Szenarien auftreten kann, wird eine Ähnlichkeitsmetrik eingeführt, die sowohl einen unifizierten Prompt (für alle Klassen) als auch klassenspezifische Prompts kombiniert. Dies führt zu robusteren Konfidenzscores für die Selective Querying.

3. Hauptbeiträge

Budget-effizientes Framework: Entwicklung eines Active-Prompt-Learning-Ansatzes für VLMs, der durch Class-Guided Clustering und Selective Querying das Vorwissen von CLIP voll nutzt.
Innovative Feature-Extraktion: Einführung von Class-Guided Features, die Bild- und Text-Informationen kombinieren, was zu einer besseren Clusterbildung und Visualisierung (via GradFAM) führt.
Adaptive Budget-Sparstrategie: Nutzung adaptiver, klassenspezifischer Schwellenwerte, um Pseudo-Labels für hochkonfidente Daten zu verwenden und so das Budget zu schonen.
Umfassende Evaluation: Nachweis der Überlegenheit gegenüber State-of-the-Art-Methoden (wie PCB, CoreSet, Entropy) auf sieben verschiedenen Datensätzen und in großen Maßstäben (ImageNet).

4. Ergebnisse

Die Methode (bezeichnet als CB+SQ) wurde auf sieben Datensätzen (OxfordPets, FGVCAircraft, Caltech101, Flowers102, DTD, StanfordCars, EuroSAT) getestet.

Leistung: CB+SQ übertrifft alle Baselines (einschließlich Random, Entropy, CoreSet, BADGE, PCB) in Bezug auf die Genauigkeit bei gleichem Budget.
Effizienz:
- In der ersten Runde (Cold-Start) zeigt die Methode eine signifikante Leistungssteigerung (+19,5 % gegenüber Baselines), da sie das VLM-Vorwissen nutzt.
- Die Methode erreicht mit nur $|C|$ abgefragten Proben eine bessere Leistung als andere Baselines mit $3|C|$ Proben.
- Durch Selective Querying wird der Annotierungsaufwand um durchschnittlich 17,6 % reduziert, bei gleichbleibender oder besserer Genauigkeit.
Skalierbarkeit: Die Methode skaliert erfolgreich auf ImageNet (1,28 Mio. Bilder), wo andere Methoden (wie BADGE-basierte Ansätze) aufgrund des Rechenaufwands für Distanzberechnungen scheitern.
Generalisierung: Die Methode funktioniert gut bei Base-to-Novel-Verallgemeinerung und ist kompatibel mit bestehenden model-centric Prompt-Learning-Methoden (MaPle, PromptSRC, ProMetaR), deren Leistung durch die von CB+SQ ausgewählten Datensätze weiter gesteigert werden kann.

5. Bedeutung und Fazit

Diese Arbeit verschiebt den Fokus im Prompt Learning von einer rein modellzentrischen zu einer datenzentrischen Perspektive. Sie demonstriert, dass das Vorwissen von Foundation Models (VLMs) nicht nur für die Inferenz, sondern aktiv für die strategische Datenselektion genutzt werden kann.

Praktische Relevanz: Die Methode ermöglicht eine effiziente Anpassung von VLMs mit minimalen menschlichen Annotationskosten, was für reale Anwendungen mit begrenzten Ressourcen entscheidend ist.
Technischer Fortschritt: Die Kombination aus Clustering im hybriden Feature-Raum (Bild + Text) und der adaptiven Budget-Allokation setzt einen neuen Standard für Active Learning im Kontext von Foundation Models.

Zusammenfassend bietet das Paper einen robusten, skalierbaren und budget-effizienten Rahmen, der die Lücke zwischen den Fähigkeiten von VLMs und den Kosten für deren Anpassung an spezifische Aufgaben schließt.