Towards Calibrating Prompt Tuning of Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms wat overmoedige kunstenaar hebt. Deze kunstenaar (het AI-model, genaamd CLIP) is getraind met miljoenen foto's en beschrijvingen. Hij kan heel goed herkennen wat er op een foto staat, zelfs als hij die specifieke foto nog nooit heeft gezien.

Het probleem is echter dat deze kunstenaar soms te zelfverzekerd is. Als hij een foto ziet van een vogel die hij niet kent, zegt hij misschien: "Dat is 100% zeker een papegaai!" terwijl het eigenlijk een papegaai is die hij niet kent, of misschien wel een kip. Hij is dan overmoedig. Aan de andere kant, als hij een bekende vogel ziet, zegt hij soms: "Hmm, ik denk dat het wel een papegaai is, maar ik ben niet helemaal zeker," terwijl hij het eigenlijk heel zeker moet weten. Hij is dan ondermoedig.

In de wereld van AI noemen we dit kalibratie. Een goed AI-model moet niet alleen de juiste antwoorden geven, maar ook de juiste mate van vertrouwen tonen. Als het AI-model zegt "90% zeker", moet het in 90% van de gevallen ook gelijk hebben.

Het Probleem: "Prompt Tuning" maakt het erger

Om deze kunstenaar te laten werken op nieuwe taken (bijvoorbeeld het herkennen van ziektes in medische foto's of het vinden van specifieke auto's), gebruiken wetenschappers een techniek genaamd Prompt Tuning.

Stel je voor dat je de kunstenaar niet volledig herschrijft (wat duur en moeilijk is), maar je geeft hem een nieuwe instructiekaartje (de "prompt"). Hij leert alleen wat nieuwe zinnen te gebruiken om de foto's te beschrijven. Dit werkt heel goed om de nauwkeurigheid te verhogen, maar het heeft een neveneffect: het verstoort zijn "intern kompas". Hij raakt zijn gevoel voor vertrouwen kwijt. Hij wordt onbetrouwbaar.

De Oplossing: Twee "Regels" voor Betrouwbaarheid

De auteurs van dit paper hebben een slimme oplossing bedacht om dit vertrouwen weer te herstellen, zonder de kunstenaar zijn creativiteit (zijn vermogen om nieuwe dingen te leren) af te nemen. Ze hebben twee nieuwe regels toegevoegd aan het leerproces:

1. De "Gelijkmatige Afstand"-Regel (Mean-Variance Margin)

Stel je voor dat de kunstenaar verschillende soorten vogels in een grote zaal moet plaatsen.

Het probleem: Soms staat hij te dicht bij elkaar (hij is niet zeker genoeg), en soms staat hij te ver uit elkaar (hij is te zeker over dingen die hij niet kent).
De oplossing: Deze regel zorgt ervoor dat de afstand tussen de juiste vogel en de verkeerde vogels altijd netjes en gelijkmatig is.
- Hij zorgt dat de juiste vogel ver genoeg weg staat van de verkeerde vogels (zodat hij zeker is).
- Maar hij zorgt ook dat die afstand niet te groot wordt voor vogels die hij niet kent (zodat hij niet overmoedig wordt).
- Analogie: Het is alsof je een dansvloer hebt waar je zorgt dat iedereen netjes op zijn eigen plek staat, niet te dicht op elkaar en niet te ver weg.

2. De "Geheugen-Bewaker"-Regel (Text Moment-Matching)

Dit is misschien wel het slimste deel.

Het probleem: Als de kunstenaar nieuwe instructies leert, kan hij zijn oorspronkelijke kennis over de wereld verdraaien. Hij begint vogels en kippen door elkaar te halen omdat hij zijn "intern kompas" heeft verloren.
De oplossing: Deze regel zorgt ervoor dat de kunstenaar zijn oorspronkelijke wereldbeeld behoudt. Hij vergelijkt zijn nieuwe kennis met zijn oude, betrouwbare kennis.
- Hij zegt: "Oké, ik heb nieuwe zinnen geleerd, maar de structuur van hoe vogels en auto's zich tot elkaar verhouden, moet precies hetzelfde blijven als in mijn oude training."
- Analogie: Stel je voor dat je een nieuwe taal leert. Je mag nieuwe woorden leren, maar je moet de grammatica en de logica van je moedertaal behouden, zodat je niet ineens begint te praten als een gek. Deze regel zorgt ervoor dat de AI niet "verwaand" raakt door zijn nieuwe kennis.

Waarom is dit belangrijk?

In de echte wereld, zoals bij zelfrijdende auto's of medische diagnose, is vertrouwen cruciaal.

Als een zelfrijdende auto denkt dat er een steen op de weg ligt, maar is er 100% zeker van terwijl het een schaduw is, remt hij te hard en veroorzaakt een ongeluk.
Als een arts AI denkt dat een tumor misschien kwaadaardig is, maar is er maar 50% zeker van terwijl het 99% zeker is, kan hij een patiënt onnodig angst bezorgen of juist een behandeling uitstellen.

Het Resultaat

De auteurs hebben hun methode getest op 11 verschillende soorten foto's (van bloemen tot vliegtuigen) en 7 verschillende manieren om AI te leren. Het resultaat?

Hun AI-model is nauwkeuriger geworden.
Maar belangrijker: het is veel betrouwbaarder in zijn vertrouwen. Als het zegt "ik weet het zeker", dan weet het het ook zeker.
Het werkt als een "plug-and-play" module: je kunt het toevoegen aan bestaande systemen zonder ze volledig opnieuw te moeten bouwen.

Kortom: Ze hebben een manier gevonden om de AI te leren dat "ik weet het zeker" ook echt betekent dat het zeker is, en "ik weet het niet" betekent dat het niet zeker is. Ze hebben de kunstenaar weer een gezond zelfvertrouwen gegeven zonder zijn creativiteit te beperken.

Each language version is independently generated for its own context, not a direct translation.

Titel: Towards Calibrating Prompt Tuning of Vision-Language Models

Auteurs: Ashshak Sharifdeen et al. (MBZUAI, University of Colombo, Michigan State University)

1. Het Probleem

Grootschalige Vision-Language Models (VLMs), zoals CLIP, hebben de open-vocabulary beeldherkenning revolutionair verbeterd. Om deze modellen efficiënt aan te passen aan specifieke downstream-taken, wordt vaak Prompt Tuning gebruikt. Deze techniek past slechts een klein subset van parameters aan (leerbare tokens) terwijl de zware encoder-decoders bevroren blijven, wat zorgt voor een goede balans tussen specialisatie en generalisatie.

Echter, een kritiek probleem dat tot nu toe vaak is genegeerd, is de calibratie van het vertrouwen (confidence calibration). Prompt-tuned modellen vertonen vaak een dubbele miscalibratie:

Ondervertrouwen (Underconfidence) op basisklassen: Voor klassen waar het model op is getraind, zijn de voorspelde kansen vaak lager dan de werkelijke nauwkeurigheid. Dit komt door te kleine marges tussen de juiste en onjuiste klassen.
Oververtrouwen (Overconfidence) op nieuwe klassen: Voor onbekende klassen (novel classes) is het model vaak onterecht zeer zeker van zijn zaak, zelfs als het fout is. Dit wordt veroorzaakt door opgeblazen marges en een vervorming van de semantische ruimte tijdens het tuning-proces.

Bestaande oplossingen, zoals post-hoc temperatuurschaal (Temperature Scaling) of normalisatie, lossen vaak slechts één kant van het probleem op of verstoren de geometrie van de embedding-ruimte, wat essentieel is voor robuuste generalisatie.

2. Methodologie

De auteurs stellen een trainings-tijd regularisatiekader voor dat de voorspelde betrouwbaarheid verbetert zonder de geometrie van de vooraf getrainde CLIP-embedding-ruimte te verstoren. De aanpak bestaat uit twee complementaire regularisatietermen die worden toegevoegd aan de standaard cross-entropy loss:

A. Mean-Variance Margin Regularization (Gemiddelde-Variantie Margin Regularisatie)

Deze term richt zich op de verdeling van de logits (de ruwe scores voorafgaand aan de softmax) om de marges tussen de juiste en onjuiste klassen te stabiliseren.

Doel: Het maximaliseren van de gemiddelde marge (om ondervertrouwen op basisklassen te voorkomen) en het minimaliseren van de variantie van deze marges (om te voorkomen dat er sporadische, onterechte pieken in vertrouwen ontstaan op nieuwe klassen).
Formule: $L_{Margin} = -\alpha \cdot \text{mean}(m) + \beta \cdot \text{Var}(m)$ , waarbij $m$ het verschil is tussen de logit van de juiste klasse en de hoogste logit van de onjuiste klassen.
Effect: Dit creëert stabiele besluitgrenzen en voorkomt dat het model te zeker wordt van fouten op nieuwe data.

B. Text Moment-Matching Loss (Tekst Moment-Matching)

Deze term richt zich op de geometrie van de tekst-embeddings zelf.

Doel: Het behouden van de globale semantische structuur van de oorspronkelijke, bevroren CLIP-ruimte. Prompt tuning kan de verdeling van tekst-embeddings verschuiven, wat leidt tot "embedding collapse" of spurious relaties.
Methode: De loss functioneert door de eerste orde momenten (gemiddelde/centrum) en tweede orde momenten (covariantie/spread) van de aangepaste tekst-embeddings af te stemmen op die van de bevroren (zero-shot) CLIP-embeddings.
Formule: $L_{mom} = \|\mu_{tuned} - \mu_{frozen}\|_2^2 + \|\Sigma_{tuned} - \Sigma_{frozen}\|_F^2$ .
Effect: Dit zorgt ervoor dat de relatieve structuur tussen klassen behouden blijft, wat cruciaal is voor correcte generalisatie naar nieuwe klassen zonder de taak-specifieke aanpassingen te beperken.

De totale objectief functie is:
$L_{total} = L_{CE} + \lambda_{Margin} L_{Margin} + \lambda_{mom} L_{mom}$

3. Belangrijkste Bijdragen

Identificatie van Dubbele Miscalibratie: Het paper analyseert systematisch dat prompt tuning zowel ondervertrouwen op basisklassen als oververtrouwen op nieuwe klassen veroorzaakt, en dat eerdere methoden dit niet gelijktijdig oplossen.
Nieuw Regularisatiekader: De introductie van een unieke combinatie van mean-variance margin regularisatie (voor logit-stabiliteit) en text moment-matching (voor embedding-geometrie behoud).
Plug-and-Play Modulariteit: De methode is onafhankelijk van de onderliggende prompt-tuning techniek (werkt met CoOp, MaPLe, KgCoOp, etc.), vereist geen extra inferentiële rekentijd en kan naadloos worden geïntegreerd in bestaande frameworks.
Uitgebreide Validatie: Experimenten op 11 diverse datasets (van grofkorrelig tot fijnkorrelig) en 7 verschillende prompt-tuning methoden.

4. Resultaten

De methode werd geëvalueerd op 11 datasets (waaronder ImageNet, Food101, Aircraft, Cars, DTD) en vergeleken met state-of-the-art baselines zoals Temperature Scaling, DAC, en ZS-Norm.

Calibratieverbetering (ECE): De methode reduceert de Expected Calibration Error (ECE) aanzienlijk.
- Op basisklassen: Bij CoOp daalde de ECE van 6,35% naar 2,93% (een verbetering ten opzichte van Temperature Scaling die op 2,96% bleef).
- Op nieuwe klassen: Bij MaPLe daalde de ECE van 5,76% naar 4,23%, terwijl de nauwkeurigheid gelijk bleef.
Afweging Nauwkeurigheid vs. Calibratie: In tegenstelling tot veel andere methoden die vaak een trade-off hebben (beter calibreren gaat ten koste van nauwkeurigheid), behoudt of verbetert de voorgestelde methode zelfs de classificatienauwkeurigheid.
Robuustheid: De methode presteert consistent goed over verschillende shot-aantallen (few-shot settings), verschillende initialisaties van prompts, en zelfs bij out-of-distribution datasets (zoals ImageNet-A en ImageNet-R).
Ablatie-studies: Experimenten tonen aan dat beide componenten (margin en moment matching) noodzakelijk zijn; alleen margin regularisatie kan leiden tot oververtrouwen op nieuwe klassen, terwijl alleen moment matching de ondervertrouwen op basisklassen niet volledig oplost.

5. Betekenis en Impact

Dit werk is van groot belang voor de veilige en betrouwbare implementatie van Vision-Language Models in kritieke toepassingen zoals:

Autonome systemen: Waar een verkeerd hoge zekerheid over een obstakel dodelijk kan zijn.
Medische beeldvorming: Waar het missen van een afwijking door onzekerheid of het verkeerd diagnosticeren door oververtrouwen ernstige gevolgen heeft.

Door de voorspelde onzekerheid te koppelen aan de werkelijke nauwkeurigheid zonder de semantische kennis van het model te beschadigen, maakt deze methode VLMs veel betrouwbaarder voor real-world scenario's. Het paper benadrukt dat het behoud van de geometrie van de embedding-ruimte essentieel is voor generalisatie, een inzicht dat vaak wordt genegeerd in eerdere calibratiestudies. De code is open-source beschikbaar gesteld, wat de adoptie in de gemeenschap zal bevorderen.