Towards Calibrating Prompt Tuning of Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

Das Grundproblem: Der übermütige Experte

Stell dir vor, du hast einen genialen Kunstkenner (das ist das KI-Modell CLIP). Dieser Kenner hat Millionen von Bildern und Texten gesehen und weiß genau, wie ein „Hund" oder eine „Katze" aussieht. Er ist sehr gut darin, Bilder zu beschreiben.

Jetzt möchtest du ihn auf eine neue Aufgabe vorbereiten: Er soll nicht nur Tiere, sondern auch spezifische Autos erkennen. Um ihn nicht komplett neu zu programmieren (was teuer und langsam wäre), gibst du ihm nur ein paar kleine „Hinweise" oder „Zettelchen" (das nennt man Prompt Tuning). Du sagst ihm quasi: „Hey, wenn du ein Bild siehst, denke an diese Wörter."

Das Problem:
Der Kunstkenner wird zwar besser darin, Autos zu erkennen, aber er verliert sein Urteilsvermögen:

Bei bekannten Autos (Basis-Klassen): Er wird zu unsicher. Er sieht ein Ferrari, sagt aber: „Ich bin mir nur zu 60 % sicher, dass es ein Ferrari ist", obwohl er es eigentlich weiß.
Bei unbekannten Autos (Neue Klassen): Er wird übermütig. Er sieht ein unbekanntes Fahrzeug, das gar nicht in seiner Datenbank ist, und schreit: „Das ist zu 99 % ein Porsche!" – dabei liegt er völlig falsch.

In der echten Welt (z. B. bei autonomen Autos oder in der Medizin) ist das gefährlich. Ein System, das sich zu sicher ist, wenn es falsch liegt, kann katastrophale Fehler machen.

Die Lösung: Ein neuer Trainingsplan mit zwei Regeln

Die Autoren dieses Papers haben einen neuen Trainingsplan entwickelt, der dem KI-Modell beibringt, nicht nur richtig zu liegen, sondern auch richtig zu fühlen, wie sicher es ist. Sie nennen es „Kalibrierung".

Stell dir vor, der KI-Modell-Experte lernt in einer Schule. Normalerweise lernt er nur: „Richtig oder Falsch?" (Das ist der Standard-Lernplan).
Die Autoren fügen nun zwei spezielle Hausaufgaben hinzu, die wie zwei verschiedene Lehrer wirken:

1. Der „Abstandshalter" (Mean-Variance Margin Regularization)

Die Metapher: Stell dir vor, der Experte muss zwischen verschiedenen Kategorien (z. B. „Sedan" vs. „SUV") einen klaren Graben ziehen.
Das Problem: Ohne Hilfe wird dieser Graben manchmal zu flach (Unsicherheit bei bekannten Dingen) oder zu steil und chaotisch (Übermut bei unbekannten Dingen).
Die Lösung: Dieser „Lehrer" sagt: „Mach den Graben zwischen den richtigen und falschen Antworten immer groß genug, aber nicht wild unterschiedlich groß."
- Er sorgt dafür, dass der Experte bei bekannten Dingen wieder zuversichtlich wird (größerer Graben).
- Er verhindert, dass der Graben bei unbekannten Dingen riesig wird, nur weil der Experte panisch ist (Vermeidung von extremen Spitzen).
- Ergebnis: Der Experte wird bei bekannten Dingen sicherer und bei unbekannten Dingen vorsichtiger.

2. Der „Kompass-Wächter" (Text Moment-Matching Loss)

Die Metapher: Der ursprüngliche KI-Experte hat einen perfekten mentalen Atlas (eine Landkarte) aller Begriffe. Die Wörter „Hund" und „Katze" sind dort weit voneinander entfernt, aber „Hund" und „Wolf" sind nah beieinander. Das ist die Geometrie des Raums.
Das Problem: Wenn der Experte nun nur auf ein paar neue Autos trainiert wird, verzieht er seine Landkarte. Plötzlich rücken Begriffe zusammen, die eigentlich weit auseinander liegen sollten. Er verliert den Bezug zur Realität.
Die Lösung: Dieser „Lehrer" hält dem Experten ständig einen Kompass hin. Er sagt: „Pass auf! Deine neue Landkarte darf sich nicht zu sehr von der alten, perfekten Landkarte unterscheiden."
- Er achtet darauf, dass die Durchschnittsposition und die Verbreitung der Begriffe auf der Landkarte gleich bleiben wie beim Original.
- Ergebnis: Der Experte kann sich zwar auf neue Aufgaben spezialisieren, verliert aber nicht sein globales Verständnis der Welt. Er bleibt „erdbodenständig".

Warum ist das so toll?

Wenn man diese beiden „Lehrer" zusammenarbeiten lässt, passiert Magie:

Kein Kompromiss: Normalerweise muss man sich entscheiden: Will ich hohe Genauigkeit oder eine gute Einschätzung meiner Unsicherheit? Hier bekommt man beides.
Plug-and-Play: Man muss den ganzen KI-Experten nicht umbauen. Man hängt diese zwei neuen Regeln einfach an das bestehende Training an. Es funktioniert mit fast allen aktuellen Methoden.
Robustheit: Ob das Modell nun 4 Bilder oder 32 Bilder pro Klasse sieht – es bleibt stabil. Und selbst wenn es auf völlig neue, verrückte Bilder trifft (z. B. Skizzen statt Fotos), bleibt es ehrlich in seiner Einschätzung.

Zusammenfassung in einem Satz

Die Autoren haben einem KI-Modell beigebracht, nicht nur klüger zu werden, sondern auch ehrlicher mit seiner eigenen Unsicherheit umzugehen, indem sie es daran hindern, seine innere Weltkarte zu verzerren und ihm helfen, klare Grenzen zwischen „Ich weiß es" und „Ich rate nur" zu ziehen.

Das ist wie ein Pilot, der nicht nur besser fliegen lernt, sondern auch lernt, wann er wirklich sicher ist und wann er lieber den Notruf wählt, statt blindlings weiterzufliegen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Große Vision-Language-Modelle (VLMs) wie CLIP ermöglichen durch Prompt Tuning eine effiziente Anpassung an Downstream-Aufgaben, ohne die Gewichte des gesamten Modells aktualisieren zu müssen. Trotz der hohen Genauigkeit leiden diese prompt-angepassten Modelle jedoch unter erheblichen Problemen bei der Konfidenzkalibrierung.

Das Paper identifiziert ein dualistisches Kalibrierungsproblem:

Unter-Vertrauen (Underconfidence) bei Basis-Klassen: Für Klassen, auf denen das Modell trainiert wurde (Basis-Klassen), sind die Vorhersagen oft zu unsicher. Die Logit-Margen zwischen der korrekten Klasse und den falschen Klassen sind zu klein.
Über-Vertrauen (Overconfidence) bei neuen Klassen: Für unbekannte Klassen (Novel Classes), die während des Trainings nicht gesehen wurden, neigt das Modell zu extrem übertriebenem Vertrauen. Dies führt zu falschen, aber hochkonfidenten Vorhersagen.

Bestehende Methoden wie Temperature Scaling oder DAC (Direct Alignment Calibration) adressieren oft nur einen dieser Aspekte oder verändern die Geometrie des eingebetteten Raums so stark, dass die semantischen Beziehungen für die Generalisierung verloren gehen.

2. Methodik

Die Autoren schlagen einen Trainingszeit-Ansatz vor, der zwei komplementäre Regularisierer in die Standard-Cross-Entropy-Loss-Funktion integriert. Ziel ist es, die Vorhersagezuverlässigkeit zu erhöhen, ohne die Geometrie des vortrainierten CLIP-Einbettungsraums zu verzerren.

A. Mean-Variance Margin Regularization (Durchschnitts-Varianz-Margin-Regularisierung)

Dieser Term wirkt im Logit-Raum und zielt darauf ab, die Entscheidungsgrenzen zu stabilisieren.

Funktionsweise: Er berechnet den Margin $m_i$ als Differenz zwischen dem Logit der Ground-Truth-Klasse und dem höchsten Logit der falschen Klassen.
Ziel: Die Loss-Funktion maximiert den durchschnittlichen Margin (um Unter-Vertrauen bei Basis-Klassen zu bekämpfen) und minimiert gleichzeitig die Varianz der Margins über den Batch hinweg (um inkonsistente, übermütige Vorhersagen bei neuen Klassen zu verhindern).
Formel: $L_{Margin} = -\alpha \cdot \text{Mean}(m) + \beta \cdot \text{Var}(m)$ .

B. Text Moment-Matching Loss (Text-Momenten-Matching-Verlust)

Dieser Term wirkt im Embedding-Raum und dient dem Erhalt der semantischen Struktur.

Funktionsweise: Er aligniert die statistischen Momente (erster und zweiter Moment: Mittelwert und Kovarianz/Varianz) der angepassten Text-Embeddings mit denen der eingefrorenen (zero-shot) CLIP-Text-Embeddings.
Ziel: Während die Margin-Regularisierung die Trennschärfe erhöht, verhindert der Moment-Matching-Loss, dass das Prompt Tuning die globale semantische Geometrie des CLIP-Raums kollabieren lässt. Dies ist entscheidend, um die Generalisierungsfähigkeit auf neue Klassen zu erhalten und Über-Vertrauen zu unterdrücken.
Formel: $L_{mom} = \|\mu_{tuned} - \mu_{frozen}\|_2^2 + \|\Sigma_{tuned} - \Sigma_{frozen}\|_F^2$ .

Der Gesamtlverlust setzt sich wie folgt zusammen:
$L_{total} = L_{CE} + \lambda_{Margin} L_{Margin} + \lambda_{mom} L_{mom}$

3. Wichtige Beiträge

Dualer Ansatz: Die erstmalige simultane Behandlung von Unter-Vertrauen bei Basis-Klassen und Über-Vertrauen bei neuen Klassen durch eine Kombination aus Logit-Margin-Stabilisierung und Embedding-Geometrie-Erhalt.
Plug-and-Play Modul: Die Methode ist unabhängig von der spezifischen Prompt-Tuning-Technik (z. B. CoOp, MaPLe, KgCoOp) und erfordert keine Änderungen an der Modellarchitektur oder zusätzliche Inferenzzeit.
Geometrische Erhaltung: Im Gegensatz zu Methoden, die Embeddings direkt aufeinander ausrichten (was zu starrer Anpassung führt), nutzt der Moment-Matching-Loss nur globale Statistiken, um die lokale Anpassungsfähigkeit für spezifische Aufgaben zu erhalten.

4. Ergebnisse

Die Autoren evaluieren ihre Methode auf 11 verschiedenen Datensätzen (einschließlich ImageNet, Food101, Aircraft, Cars) und 7 Prompt-Tuning-Frameworks.

Kalibrierung (ECE): Die Methode reduziert den Expected Calibration Error (ECE) signifikant im Vergleich zu State-of-the-Art-Baselines (wie Temperature Scaling, DAC, ZS-Norm).
- Beispiel: Bei CoOp auf dem Aircraft-Datensatz sank der ECE von 25,70 % auf 4,96 %.
- Novel Classes: Die Methode ist besonders effektiv bei der Reduzierung von Über-Vertrauen auf neuen Klassen, wo andere Methoden oft scheitern.
Genauigkeit: Die Klassifikationsgenauigkeit (Top-1 Accuracy) bleibt erhalten oder verbessert sich leicht, was zeigt, dass Kalibrierung nicht auf Kosten der Leistung geht.
Robustheit: Die Ergebnisse bleiben stabil über verschiedene Few-Shot-Szenarien (4 bis 32 Beispiele pro Klasse) und verschiedene Prompt-Initialisierungen hinweg.
Out-of-Distribution: Auch bei natürlichen Verteilungsverschiebungen (ImageNet-A, ImageNet-R) zeigt die Methode eine überlegene Kalibrierung im Vergleich zu Baselines.
Medizinische Bildgebung: Zusätzliche Tests auf medizinischen Datensätzen (Kather, PanNuke) bestätigen die Wirksamkeit in sicherheitskritischen Anwendungen.

5. Bedeutung und Fazit

Das Paper adressiert eine kritische Lücke im Einsatz von Vision-Language-Modellen in der realen Welt: Vertrauenswürdigkeit. In Anwendungen wie autonomen Fahrzeugen oder medizinischer Diagnostik sind falsche, aber hochkonfidente Vorhersagen gefährlich.

Die vorgeschlagene Methode ermöglicht es, Prompt-Tuning-Modelle so anzupassen, dass sie nicht nur genau, sondern auch zuverlässig sind. Durch die Trennung von semantischer Geometrie (durch Moment-Matching) und Entscheidungsmargen (durch Margin-Regularisierung) bietet sie einen allgemeinen Rahmen, der die Generalisierungsfähigkeit von CLIP bewahrt, während es für spezifische Aufgaben optimiert wird. Dies ist ein wichtiger Schritt hin zu vertrauenswürdigen KI-Systemen in offenen Umgebungen.