Towards Calibrating Prompt Tuning of Vision-Language Models

Deze paper introduceert een kalibratieframework voor prompt tuning van vision-language modellen zoals CLIP dat de voorspellende betrouwbaarheid verbetert door een gemiddelde-variatie-margestraf en een tekst-moment-aanpassingsverlies te gebruiken, waardoor de Expected Calibration Error aanzienlijk wordt verlaagd zonder de generalisatievermogen van het model te schaden.

Ashshak Sharifdeen, Fahad Shamshad, Muhammad Akhtar Munir, Abhishek Basu, Mohamed Insaf Ismithdeen, Jeyapriyan Jeyamohan, Chathurika Sewwandi Silva, Karthik Nandakumar, Muhammad Haris Khan

Gepubliceerd 2026-02-24
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms wat overmoedige kunstenaar hebt. Deze kunstenaar (het AI-model, genaamd CLIP) is getraind met miljoenen foto's en beschrijvingen. Hij kan heel goed herkennen wat er op een foto staat, zelfs als hij die specifieke foto nog nooit heeft gezien.

Het probleem is echter dat deze kunstenaar soms te zelfverzekerd is. Als hij een foto ziet van een vogel die hij niet kent, zegt hij misschien: "Dat is 100% zeker een papegaai!" terwijl het eigenlijk een papegaai is die hij niet kent, of misschien wel een kip. Hij is dan overmoedig. Aan de andere kant, als hij een bekende vogel ziet, zegt hij soms: "Hmm, ik denk dat het wel een papegaai is, maar ik ben niet helemaal zeker," terwijl hij het eigenlijk heel zeker moet weten. Hij is dan ondermoedig.

In de wereld van AI noemen we dit kalibratie. Een goed AI-model moet niet alleen de juiste antwoorden geven, maar ook de juiste mate van vertrouwen tonen. Als het AI-model zegt "90% zeker", moet het in 90% van de gevallen ook gelijk hebben.

Het Probleem: "Prompt Tuning" maakt het erger

Om deze kunstenaar te laten werken op nieuwe taken (bijvoorbeeld het herkennen van ziektes in medische foto's of het vinden van specifieke auto's), gebruiken wetenschappers een techniek genaamd Prompt Tuning.

Stel je voor dat je de kunstenaar niet volledig herschrijft (wat duur en moeilijk is), maar je geeft hem een nieuwe instructiekaartje (de "prompt"). Hij leert alleen wat nieuwe zinnen te gebruiken om de foto's te beschrijven. Dit werkt heel goed om de nauwkeurigheid te verhogen, maar het heeft een neveneffect: het verstoort zijn "intern kompas". Hij raakt zijn gevoel voor vertrouwen kwijt. Hij wordt onbetrouwbaar.

De Oplossing: Twee "Regels" voor Betrouwbaarheid

De auteurs van dit paper hebben een slimme oplossing bedacht om dit vertrouwen weer te herstellen, zonder de kunstenaar zijn creativiteit (zijn vermogen om nieuwe dingen te leren) af te nemen. Ze hebben twee nieuwe regels toegevoegd aan het leerproces:

1. De "Gelijkmatige Afstand"-Regel (Mean-Variance Margin)

Stel je voor dat de kunstenaar verschillende soorten vogels in een grote zaal moet plaatsen.

  • Het probleem: Soms staat hij te dicht bij elkaar (hij is niet zeker genoeg), en soms staat hij te ver uit elkaar (hij is te zeker over dingen die hij niet kent).
  • De oplossing: Deze regel zorgt ervoor dat de afstand tussen de juiste vogel en de verkeerde vogels altijd netjes en gelijkmatig is.
    • Hij zorgt dat de juiste vogel ver genoeg weg staat van de verkeerde vogels (zodat hij zeker is).
    • Maar hij zorgt ook dat die afstand niet te groot wordt voor vogels die hij niet kent (zodat hij niet overmoedig wordt).
    • Analogie: Het is alsof je een dansvloer hebt waar je zorgt dat iedereen netjes op zijn eigen plek staat, niet te dicht op elkaar en niet te ver weg.

2. De "Geheugen-Bewaker"-Regel (Text Moment-Matching)

Dit is misschien wel het slimste deel.

  • Het probleem: Als de kunstenaar nieuwe instructies leert, kan hij zijn oorspronkelijke kennis over de wereld verdraaien. Hij begint vogels en kippen door elkaar te halen omdat hij zijn "intern kompas" heeft verloren.
  • De oplossing: Deze regel zorgt ervoor dat de kunstenaar zijn oorspronkelijke wereldbeeld behoudt. Hij vergelijkt zijn nieuwe kennis met zijn oude, betrouwbare kennis.
    • Hij zegt: "Oké, ik heb nieuwe zinnen geleerd, maar de structuur van hoe vogels en auto's zich tot elkaar verhouden, moet precies hetzelfde blijven als in mijn oude training."
    • Analogie: Stel je voor dat je een nieuwe taal leert. Je mag nieuwe woorden leren, maar je moet de grammatica en de logica van je moedertaal behouden, zodat je niet ineens begint te praten als een gek. Deze regel zorgt ervoor dat de AI niet "verwaand" raakt door zijn nieuwe kennis.

Waarom is dit belangrijk?

In de echte wereld, zoals bij zelfrijdende auto's of medische diagnose, is vertrouwen cruciaal.

  • Als een zelfrijdende auto denkt dat er een steen op de weg ligt, maar is er 100% zeker van terwijl het een schaduw is, remt hij te hard en veroorzaakt een ongeluk.
  • Als een arts AI denkt dat een tumor misschien kwaadaardig is, maar is er maar 50% zeker van terwijl het 99% zeker is, kan hij een patiënt onnodig angst bezorgen of juist een behandeling uitstellen.

Het Resultaat

De auteurs hebben hun methode getest op 11 verschillende soorten foto's (van bloemen tot vliegtuigen) en 7 verschillende manieren om AI te leren. Het resultaat?

  • Hun AI-model is nauwkeuriger geworden.
  • Maar belangrijker: het is veel betrouwbaarder in zijn vertrouwen. Als het zegt "ik weet het zeker", dan weet het het ook zeker.
  • Het werkt als een "plug-and-play" module: je kunt het toevoegen aan bestaande systemen zonder ze volledig opnieuw te moeten bouwen.

Kortom: Ze hebben een manier gevonden om de AI te leren dat "ik weet het zeker" ook echt betekent dat het zeker is, en "ik weet het niet" betekent dat het niet zeker is. Ze hebben de kunstenaar weer een gezond zelfvertrouwen gegeven zonder zijn creativiteit te beperken.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →