Evolving Prompt Adaptation for Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een geniale chef-kok hebt die al duizenden kookboeken uit zijn hoofd kent. Deze chef kan op elk moment een gerecht maken, zelfs als hij nog nooit de specifieke ingrediënten heeft gezien (dit noemen we "zero-shot" leren). Hij is een Vision-Language Model (VLM), zoals CLIP: hij begrijpt zowel beelden als taal.

Het probleem is echter: wat als je die chef vraagt om een heel specifiek, nieuw gerecht te maken, bijvoorbeeld "de perfecte Nederlandse stroopwafel", maar je hebt hem maar één recept gegeven?

Als je de chef nu dwingt om zich op dat ene recept te focussen, kan hij zijn geheugen verliezen. Hij vergeet misschien hoe hij een pizza of een soep maakt, omdat hij zich zo op de stroopwafel heeft gefocust. Dit noemen onderzoekers catastrophic forgetting (catastrofaal vergeten).

Deze paper introduceert EvoPrompt, een slimme manier om die chef te trainen zonder zijn geheugen te laten verdwijnen. Hier is hoe het werkt, vertaald naar alledaagse termen:

1. De "Gemeenschappelijke Notitieblok" (Modality-Shared Prompt Projector)

Stel je voor dat de chef een enorme keuken heeft met 12 verschillende werkbladen (laagjes). Eerdere methoden gaven elke werkblad een apart, los notitieblokje met instructies. Dat werkte niet goed, want de instructies op werkblad 1 wisten niets van werkblad 12.

EvoPrompt doet iets anders: het gebruikt één groot, centraal notitieblok (de Modality-Shared Prompt Projector).

Dit notitieblok bevat de basisideeën.
Vervolgens worden deze ideeën slim vertaald naar elk specifiek werkblad.
Het voordeel: De chef houdt de connectie tussen alle werkbladen. Hij weet dat wat hij op het eerste blad leert, ook relevant is voor het laatste. Het zorgt voor een betere samenwerking tussen "zien" (beelden) en "lezen" (taal).

2. De "Richting vs. De Kracht" (Evolutionary Trajectory)

Dit is het meest creatieve deel. Stel je voor dat je een kompas hebt.

De richting is waar het kompas naartoe wijst (bijvoorbeeld: "Noorden"). Dit is de basisinformatie die de chef al kent.
De kracht is hoe hard je op de naald duwt om hem iets te laten bewegen.

Bij de oude methoden veranderde je zowel de richting als de kracht. Soms veranderde je de richting zo veel dat het kompas volledig verkeerd ging wijzen (vergeten van oude kennis).

EvoPrompt doet iets slims:

Het bevriest de richting die de chef in het begin heeft geleerd. Die basisrichting blijft altijd "Noorden".
Alleen de kracht (hoe hard je duwt) mag veranderen.
Als de chef later in de training nog iets nieuws moet leren, voegt hij een nieuwe richting toe, maar hij verandert de oude basisrichting niet.

De analogie: Het is alsof je een oude boom hebt. Je mag nieuwe takken laten groeien (nieuwe taken leren), maar je mag de stam (de oude kennis) niet kapen of verdraaien. De boom groeit, maar blijft staan.

3. De "Orde in de Keuken" (Feature Geometric Regularization)

Soms, als je te veel nieuwe instructies geeft, raken de instructies door elkaar. De chef weet niet meer welk ingrediënt bij welk gerecht hoort; alles wordt een modderige soep.

EvoPrompt voegt een regel toe: "Houd de planken gescheiden."
Het zorgt ervoor dat de verschillende kenmerken (zoals kleur, vorm, tekst) niet door elkaar lopen. Ze blijven "orthogonaal" (haaks op elkaar), net als de planken in een goed georganiseerde kast. Dit voorkomt dat de chef in de war raakt en zorgt dat hij scherp blijft.

4. De "Slimme Rangschikking" (Adaptive Rank Reduction)

In het begin van de training heeft de chef veel ruimte nodig om te ontdekken wat er mogelijk is. Maar naarmate hij meer leert, heeft hij minder ruimte nodig voor de kleine details.
EvoPrompt past dit automatisch aan:

Aan het begin: Veel ruimte (hoge "rang") om veel te leren.
Aan het einde: Minder ruimte (lagere "rang") voor de fijne afwerking.
Dit maakt het proces sneller en efficiënter, zonder dat de kwaliteit daalt.

Wat is het resultaat?

Met EvoPrompt kan de chef:

De perfecte stroopwafel maken (hij leert de nieuwe taak goed).
Maar hij vergeet niet hoe hij pizza's of soep maakt (hij behoudt zijn oude kennis).
Hij doet dit allemaal met heel weinig recepten (weinig data).

Kortom: EvoPrompt is als een slimme coach die een genie helpt zich aan te passen aan nieuwe taken, zonder dat het genie zijn eigen identiteit verliest. Het zorgt ervoor dat de AI niet "vergeten" raakt wat hij al wist, terwijl hij toch nieuw leert.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Evolving Prompt Adaptation for Vision-Language Models" in het Nederlands.

Probleemstelling

Grootschalige Vision-Language Models (VLMs), zoals CLIP, hebben de zero-shot generalisatie over diverse taken revolutionair verbeterd. Het aanpassen van deze modellen aan specifieke downstream-taken met beperkte gelabelde data (few-shot learning) blijft echter een uitdaging.

Volledige fine-tuning is computationally onhaalbaar vanwege de enorme grootte van de modellen.
Parameter-efficiënte aanpassing (Prompt Learning) is een veelbelovende oplossing, maar bestaande methoden lijden vaak onder catastrophical forgetting. Tijdens het trainen op beperkte data wijken de leerbare prompts te snel af van de oorspronkelijke semantische ankers van het voorgeöorde model, waardoor de oorspronkelijke zero-shot capaciteiten verloren gaan.
Bestaande methoden behandelen prompts vaak als statische parameters of hebben een text-gecentreerde bias, wat de hiërarchische stroom van semantische informatie en cross-modale interactie verstoort.

Methodologie: EvoPrompt

Het paper introduceert EvoPrompt, een raamwerk dat de evolutie van prompts expliciet stuurt om stabiele, kennisbehoudende fine-tuning te garanderen. De methode bestaat uit drie kerncomponenten:

1. Modality-Shared Prompt Projector (MPP)

In plaats van onafhankelijke prompts per laag (zoals bij MaPLe), gebruikt EvoPrompt een gedeelde, leerbare embedding-ruimte.

Unified Embedding: Een set van $K$ vectoren wordt getraind en via projectoren omgezet in prompts voor zowel de visuele als de tekstuele encoder.
Decoupled Low-Rank Expansion: De projectoren worden opgebouwd uit een gedeelde component ( $W_{shared}$ ) en laag-specifieke low-rank adapters ( $A_i B_i$ ). Dit zorgt voor een efficiënte parametergebruik (vergelijkbaar met LoRA) en bevordert cross-laag en cross-modale synergie.

2. Evolutionary Trajectory-Aware Learning Strategy

De kerninnovatie is het ontleden van de aanpassing in richting en grootte (magnitude) om vergeten te voorkomen.

Decoupling: De low-rank updates ( $\Delta W$ ) worden gefactoriseerd in een leerbare magnitude-coëfficiënt ( $\alpha$ ) en een genormaliseerde directionele matrix ( $\overline{AB}$ ).
Incrementele Update: Tijdens het trainen worden de richtingen van eerdere epoches "bevroren" om de oorspronkelijke semantische structuur te behouden. Alleen de magnitude-coëfficiënten en de nieuwe richting worden aangepast. Dit stelt het model in staat om nieuwe taken te leren zonder de fundamentele kennis te overschrijven.
Adaptive Rank Reduction: In latere trainingsfases wordt de rang (rank) van de leerbare matrices stapsgewijs verlaagd. Dit fungeert als een regularisatiemechanisme om overfitting te voorkomen en de optimalisatie te stabiliseren.

3. Feature Geometric Regularization (FGR)

Om te voorkomen dat de leerbare features in een "collapsed" (overbodig gecorreleerd) subspace terechtkomen, wordt een regularisatieterm toegevoegd gebaseerd op het Soft-HGR (Hirschfeld-Gebelein-Rényi) maximal correlation framework.

Deze term straft de covariantie binnen de modaliteiten af, waardoor de model wordt gedwongen orthogonale en gedecorrelieerde features te leren.
Knowledge Constancy Loss: Een extra term zorgt ervoor dat de geprompte features niet te ver afwijken van de oorspronkelijke, ingevroren CLIP-features, waardoor de zero-shot generalisatie behouden blijft.

Belangrijkste Bijdragen

EvoPrompt Framework: Een nieuw paradigma dat prompt-aanpassing behandelt als een geleide evolutie in plaats van statische injectie, wat catastrophical forgetting effectief tegengaat.
Decoupled Control: Een unieke trainingsstrategie die de richting en grootte van prompt-updates ontkoppelt, waardoor het model vroeg geleerde semantische richtingen behoudt terwijl het de grootte aanpast voor specifieke taken.
Geometrische Regularisatie: Integratie van FGR om representatie-instorting te voorkomen en een goed gestructureerde feature-ruimte te garanderen.
State-of-the-Art Prestaties: De methode bereikt nieuwe topprestaties op diverse benchmarks zonder de oorspronkelijke zero-shot capaciteiten op te offeren.

Resultaten

EvoPrompt is uitgebreid geëvalueerd op 11 datasets voor image classification, cross-dataset transfer, domain generalization en few-shot learning.

Base-to-Novel Generalization: EvoPrompt behaalde een nieuw state-of-the-art (SOTA) gemiddelde op 11 datasets. Het verbeterde de prestaties op "novel" klassen met 0,96% en de harmonische mean (HM) met 0,76% ten opzichte van de vorige beste methoden (zoals MaPLe en PromptSRC).
Cross-Dataset Transfer: Bij training op ImageNet en evaluatie op 10 andere datasets, behaalde EvoPrompt de hoogste gemiddelde nauwkeurigheid (66,82%), wat aantoont dat de prompts beter overdraagbaar zijn dan die van concurrenten.
Domain Generalization: Het model toonde superieure robuustheid op uitdagende ImageNet-varianten (zoals ImageNet-Sketch en ImageNet-A), wat aangeeft dat de inherente out-of-distribution generalisatie van CLIP beter behouden blijft.
Few-Shot Learning: De methode presteert consistent sterk bij verschillende shot-instellingen (1 tot 16 shots), waarbij het voordeel groter wordt naarmate er meer data beschikbaar is.
Efficiëntie: Met slechts 0,764M trainbare parameters (vergelijkbaar met of minder dan bestaande methoden) en een snelle inferentie (1282 FPS), is het model zeer efficiënt.

Betekenis en Impact

Dit werk biedt een fundamentele doorbraak in het aanpassen van grote multimodale modellen. Het lost het fundamentele dilemma op tussen het leren van nieuwe taken en het behouden van algemene kennis. Door de evolutie van prompts expliciet te sturen in plaats van ze willekeurig te laten convergeren, biedt EvoPrompt een robuuste oplossing voor data-schaarste scenario's. De methode maakt het mogelijk om krachtige VLMs op te schalen naar specifieke domeinen zonder dat ze hun universele generalisatievermogen verliezen, wat cruciaal is voor praktische toepassingen in real-world omgevingen waar gelabelde data schaars is.