Prompt Tuning for CLIP on the Pretrained Manifold

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een superintelligente robot hebt die is opgeleid met miljoenen foto's en teksten. Deze robot (CLIP) is een meester in het begrijpen van de wereld: hij weet dat een hond een hond is, of het nu een foto is van een Golden Retriever of een tekening. Hij heeft een enorme "mentale kaart" van de wereld opgebouwd.

Nu wil je deze robot een nieuwe, specifieke taak laten uitvoeren, bijvoorbeeld het herkennen van zeldzame soorten bloemen, maar je hebt maar weinig voorbeelden (misschien maar één foto per bloemsoort).

Hier komt het probleem: als je de robot probeert aan te passen met zo weinig voorbeelden, raakt hij in paniek. Hij probeert wanhopig om die paar foto's te onthouden door snelle trucs te gebruiken. Hij gaat bijvoorbeeld denken: "Ah, alle foto's van deze bloem hebben een groene achtergrond, dus ik zal gewoon kijken naar de groene kleur!"

Dit is wat de auteurs van dit paper "Manifold Drift" noemen. De robot verlaat zijn veilige, brede mentale kaart (de pretrained manifold) en dwaalt af naar een smalle, onbetrouwbare weg die alleen werkt voor die ene foto, maar faalt als je een andere foto laat zien.

De Oplossing: ManiPT (De "Veilige Navigatie")

De auteurs, Xi Yang en zijn team, hebben een nieuwe methode bedacht genaamd ManiPT. Ze gebruiken twee slimme strategieën om de robot op het juiste spoor te houden, zelfs met weinig data.

1. De "Buddy-System" (Cosine Consistency)

Stel je voor dat de robot een nieuwe route probeert te vinden, maar hij is bang om de weg kwijt te raken. ManiPT geeft hem een onmiskenbare buddy mee: de oorspronkelijke, slimme versie van de robot.

Hoe het werkt: Bij elke stap die de robot zet om de nieuwe bloemen te leren, kijkt hij naar zijn buddy en vraagt: "Zie jij dit ook zo?"
De analogie: Het is alsof je een leerling in een zwembad hebt. De leerling mag zwemmen, maar hij mag niet te ver van de rand (de oorspronkelijke kennis) vandaan komen. Als hij te ver weg zwemt, krijgt hij een zachte duwtje terug.
Het resultaat: De robot leert de nieuwe bloemen, maar hij doet dit binnen de grenzen van wat hij al weet. Hij leert niet dat "groene achtergrond = bloem", maar hij leert de echte vorm van de bloem, omdat hij zich blijft houden aan de regels van zijn brede kennis.

2. De "Fijnafstelling" in plaats van "Heruitvinding" (Structural Bias)

Vaak proberen robots bij het aanpassen van hun kennis de hele kaart te herschrijven. ManiPT zegt: "Nee, doe dat niet. Pas alleen de kleine details aan."

Hoe het werkt: De robot houdt de oude, sterke kennis vast en voegt daar heel voorzichtig kleine correcties aan toe. Het is alsof je een oude, betrouwbare auto hebt en je er een nieuwe, snelle motor in plaatst, maar je houdt het chassis en het stuur exact hetzelfde.
De analogie: Stel je voor dat je een schilderij maakt. In plaats van het hele canvas te verven (wat riskant is als je weinig verf hebt), schilder je alleen de kleine details bij. Je basis blijft intact.
Het resultaat: De robot maakt geen radicale, foutieve keuzes. Hij bouwt voort op wat hij al weet, wat zorgt voor een veel betrouwbaarder resultaat.

3. De "Slimme Gids" (LLM Knowledge)

Om de robot nog beter te helpen, gebruiken de auteurs een AI-schrijver (een LLM).

Hoe het werkt: In plaats van alleen te kijken naar de foto's, laat de robot de AI-schrijver beschrijven hoe de bloem eruit ziet (bijvoorbeeld: "Een bloem met vijf rode bloemblaadjes en een gele kern").
De analogie: Het is alsof je een leerling niet alleen foto's geeft, maar ook een gedetailleerde beschrijving uit een boek. Dit helpt de robot om de betekenis van de bloem te begrijpen, in plaats van alleen de pixels.

Waarom is dit belangrijk?

In het verleden hadden we te maken met een dilemma:

Of je gebruikt de robot zoals hij is (veilig, maar niet perfect voor nieuwe taken).
Of je past hem aan (goed voor de nieuwe taak, maar hij vergeet zijn algemene kennis en faalt bij onbekende situaties).

ManiPT lost dit op. Het zorgt ervoor dat de robot beter wordt in de nieuwe taak zonder zijn algemene intelligentie te verliezen.

Samenvatting in één zin

ManiPT is als een veiligheidsriem en een navigatiesysteem voor een AI: het laat de AI vrij om nieuwe dingen te leren, maar zorgt ervoor dat hij nooit de weg kwijtraakt in zijn eigen brede kennis, zelfs niet als hij maar heel weinig voorbeelden heeft om van te leren.

Dit maakt AI veel robuuster en betrouwbaarder voor echte toepassingen, waar we vaak niet duizenden foto's hebben, maar wel slimme oplossingen nodig hebben.

Each language version is independently generated for its own context, not a direct translation.

Titel: Prompt Tuning voor CLIP op het Voorgeprende Manifold

Auteurs: Xi Yang, Yuanrong Xu, Weigang Zhang, Guangming Lu, David Zhang, Jie Wen.

1. Het Probleem: Manifold-Drift en Overfitting

Hoewel grote vooraf getrainde visueel-taalmodellen (VLM's) zoals CLIP krachtige algemene representaties hebben geleerd, vertonen ze beperkingen bij aanpassing aan downstream-taken onder beperkte supervisie (bijv. few-shot learning).

Manifold-Drift: Bestaande prompt-tuning-methoden (zoals CoOp, CoCoOp) introduceren leerbare vectoren om het model aan te passen. Onder beperkte data neigt de optimalisatie echter om lokale, disciminatieve signalen (zoals achtergrondpatronen of tekstuurartefacten) te exploiteren in plaats van robuuste semantische relaties.
Gevolg: Hierdoor wijken de aangepaste representaties af van het oorspronkelijke, robuuste geometrische "manifold" van het vooraf getrainde model. Deze drift leidt tot overfitting op dataset-specifieke "shortcuts" (trucs) en resulteert in een slechte generalisatie naar ongeziene klassen of domeinen.
Bestaande Oplossingen: Huidige methoden gebruiken vaak heuristische regularisatie of maken prompts expressiever, maar ze controleren niet expliciet hoe de updates de representaties veranderen ten opzichte van de bevroren CLIP-features. Ze beperken de drift niet direct in de feature-ruimte.

2. Methodologie: ManiPT Framework

De auteurs stellen ManiPT (Manifold Prompt Tuning) voor, een raamwerk dat prompt tuning uitvoert terwijl de representaties binnen het geometrische bereik van het vooraf getrainde manifold worden gehouden. De methode bestaat uit drie kerncomponenten:

A. LLM-gebaseerde Kennisverrijking

Om stabiele semantische referenties te creëren die minder gevoelig zijn voor few-shot bias, genereren de auteurs voor elke klasse uitgebreide beschrijvingen met behulp van een Large Language Model (LLM). Deze beschrijvingen worden gecodeerd tot een "tekstfeaturebank" die dient als een semantisch prototype.

B. Cosine Consistentie Constraints (Cosine Consistency Constraints)

Om te voorkomen dat features uit het manifold drijven, worden consistentieverliesfuncties toegepast op zowel de visuele als de tekstuele modus:

Visueel: De aangepaste visuele features worden genormaliseerd en hun cosine-afstand tot de oorspronkelijke, bevroren CLIP-features wordt geminimaliseerd.
Tekstueel: De prompt-gebaseerde tekstfeatures worden genormaliseerd en vergeleken met de semantische prototypes (afgeleid van de LLM-beschrijvingen) in plaats van met handgemaakte templates.
Doel: Dit dwingt de aangepaste features om binnen het geometrische buurman van het vooraf getrainde manifold te blijven, waardoor grote afwijkingen worden voorkomen.

C. Structurele Bias (Structural Bias)

Alleen binnen het manifold blijven is niet voldoende, omdat er lokaal nog steeds "shortcut"-oplossingen kunnen bestaan. ManiPT introduceert een structurele bias via genormaliseerde additieve aggregatie:

De uiteindelijke features voor classificatie worden berekend door de bevroren features ( $z$ ) en de prompt-gebaseerde features ( $h$ ) op te tellen en te renormaliseren:
$f = \frac{z + h}{\|z + h\|}$
Wiskundig Effect: Deze constructie fungeert als een "geometrische contractie". Het garandeert dat de uiteindelijke representatie geometrisch dichter bij de bevroren referentie ligt dan de prompt-only representatie. Dit dwingt het model tot incrementele correcties in plaats van volledige vervanging, waardoor de aanpassing wordt geleid in de richting van overdraagbare semantiek en afhankelijkheid van dataset-specifieke shortcuts wordt onderdrukt.

3. Belangrijkste Bijdragen

Identificatie van Manifold-Drift: De auteurs identificeren en kwantificeren (via PCA) dat drift van het pretrained manifold een kritieke factor is die generalisatie onder beperkte supervisie beperkt.
ManiPT Framework: Een nieuw raamwerk dat cosine-consistentie constraints combineert met een structurele bias om prompt tuning te beperken tot het pretrained manifold.
Theoretische Garantie: Er worden theoretische bewijzen geleverd dat ManiPT de populatierisico-bounds verlaagt en overfitting vermindert door de logit-perturbatie te beperken ten opzichte van het bevroren model.
Uitgebreide Experimenten: Validatie op 15 datasets over vier scenario's: generalisatie naar ongeziene klassen, few-shot classificatie, cross-dataset transfer en domein-generalisatie.

4. Resultaten

ManiPT presteert consequent beter dan state-of-the-art baselines (zoals CoOp, CoCoOp, MaPLe, PromptSRC, TAC) in alle geteste settings:

Generalisatie naar Ongeziene Klassen: ManiPT behaalde de hoogste gemiddelde harmonische mean (HM) op 11 datasets, wat aangeeft dat het een beter evenwicht vindt tussen het behouden van basisprestaties en het generaliseren naar nieuwe klassen.
Cross-Dataset Transfer: Bij training op ImageNet en testen op andere datasets behaalde ManiPT een gemiddelde nauwkeurigheid van 68,04%, wat hoger is dan de concurrenten (bijv. CoPrompt: 66,99%).
Few-Shot Classificatie: Zelfs in extreme situaties (1-shot en 2-shot) behoudt ManiPT duidelijke prestatiewinsten, wat aantoont dat het overfitting op ruis effectief onderdrukt.
Domein-Generalisatie: Het model behoudt robuustheid op ImageNet-varianten (zoals ImageNet-Sketch en ImageNet-A), wat bevestigt dat het filteren van domein-specifieke ruis succesvol is.
Ablatie Studies: Het verwijderen van de cosine-consistentie leidt tot een sterke daling in prestaties (bevestiging van de noodzaak van geometrische beperking), en het verwijderen van de structurele bias vermindert de prestaties, wat aantoont dat incrementele correcties essentieel zijn.

5. Significatie en Impact

Nieuw Perspectief op Overfitting: Het paper biedt een expliciet geometrisch perspectief op waarom prompt tuning faalt bij beperkte data: het verlaten van het pretrained manifold.
Efficiëntie: ManiPT is parameter-efficiënt (alleen prompt-vectoren worden getraind) en voegt slechts een minimale latentie toe ten opzichte van single-branch methoden, terwijl het de prestaties aanzienlijk verbetert.
Stabiliteit: Door de bevroren features als anker te gebruiken, biedt ManiPT een stabielere basis voor aanpassing dan methoden die volledig nieuwe representaties proberen te leren zonder restricties.
Toekomstige Richting: De methode suggereert dat het handhaven van de geometrische structuur van foundation modellen cruciaal is voor succesvolle transfer learning, zelfs wanneer er weinig data beschikbaar is.

Samenvattend biedt ManiPT een robuuste oplossing voor het dilemma van aanpassing versus behoud bij vision-language modellen, door de leerprocessen te beperken tot de veilige, overdraagbare zone van het oorspronkelijke model.