Decoupling Vision and Language: Codebook Anchored Visual Adaptation

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een Grote Taal- en Beeldmodel (LVLM) een slimme detective is die foto's bekijkt en vragen daarover beantwoordt. Deze detective heeft twee hoofdonderdelen:

De Oog (Visuele Encoder): Kijkt naar de foto en vertaalt wat hij ziet naar een taal die de detective begrijpt.
De Brein (Taalmodel): Leest die vertaling en geeft een slim antwoord.

Het probleem is vaak dat het Oog niet goed genoeg is voor specifieke taken. Als je de detective vraagt naar een zeldzame bloemsoort of een medische scan, kan het Oog de details missen of verkeerd interpreteren. Als het Oog een fout maakt, wordt de hele detective verward en geeft hij een dom antwoord, zelfs als zijn Brein heel slim is.

Het oude probleem: Alles aanpassen is duur en rommelig

Tot nu toe was de oplossing om het hele systeem opnieuw te trainen als je een nieuwe specialiteit wilde (bijv. van "algemeen" naar "medisch").

Het probleem: Je moest het Oog aanpassen, maar toen sprak het Oog ineens een andere "dialect" dan het Brein. Je moest het Brein ook opnieuw leren om die nieuwe taal te begrijpen.
De consequentie: Dit kost enorm veel tijd, geld en rekenkracht. Bovendien vergeet het Brein soms zijn originele slimme vaardigheden (zoals goed praten) als je het te veel aanpast aan één specifieke taak.

De oplossing: CRAFT (De "Standaard Woordenlijst")

De auteurs van dit paper hebben CRAFT bedacht. Dit is een slimme, lichte manier om het Oog te verbeteren zonder het Brein ooit aan te raken.

Hier is hoe het werkt, met een creatieve analogie:

1. De "Standaard Woordenlijst" (Codebook)

Stel je voor dat het Oog en het Brein een gemeenschappelijke, vaste woordenlijst hebben. In plaats van dat het Oog complexe, vloeiende zinnen schrijft (die moeilijk te vertalen zijn), moet het Oog zijn waarnemingen vertalen naar specifieke nummers uit deze woordenlijst.

Voorbeeld: In plaats van "een ronde, gele bloem met een groene steel", zegt het Oog gewoon: "Woord 452".
Het Brein weet precies wat "Woord 452" betekent. Dit is hun stapelpunt.

2. Het Oog leren (Fine-tuning)

Wanneer je het model wilt specialiseren (bijv. voor plantenziekten), train je alleen het Oog.

Je leert het Oog hoe het de juiste nummers uit de woordenlijst moet kiezen voor plantenziekten.
Het Oog leert: "Oh, als ik deze vlek zie, moet ik niet 'Woord 100' zeggen, maar 'Woord 505' (wat betekent: bacteriële vlek)."
Cruciaal: Het Brein wordt niet aangepast. Het blijft precies hetzelfde. Omdat het Brein al weet wat "Woord 505" betekent, begrijpt het de nieuwe informatie direct.

3. De "Pruning" (Het opruimen)

Soms ziet het Oog heel veel details die niet belangrijk zijn (bijvoorbeeld de achtergrond van een foto).

CRAFT heeft een slimme truc: op het moment dat de detective de foto bekijkt, gooit hij de saaie, herhalende details weg (zoals de lucht of het gras) en houdt alleen de belangrijke nummers over.
Dit maakt het antwoord sneller en scherper, omdat het Brein niet wordt afgeleid door ruis.

Waarom is dit zo geweldig?

Plug-and-Play: Omdat het Oog en het Brein dezelfde "woordenlijst" gebruiken, kun je een Oog dat is getraind voor medische scans, direct koppelen aan een heel ander, nog slimmer Brein. Je hoeft het Brein niet opnieuw te leren praten. Het is alsof je een nieuwe, gespecialiseerde camera aansluit op een bestaande computer; de computer begrijpt de beelden direct.
Geen Vergeetziekte: Omdat het Brein niet wordt aangepast, vergeet hij nooit hoe hij normaal moet praten of redeneren. Hij blijft zijn slimme, menselijke kant behouden.
Snel en Goedkoop: Het kost veel minder rekenkracht dan het hele systeem opnieuw trainen.

Samenvattend in één zin:

CRAFT is als het geven van een nieuwe, gespecialiseerde lens aan een slimme detective, waarbij je de lens aanpast zodat hij de juiste "stempel" (woord) op de foto plakt. De detective (het Brein) hoeft niet te leren hoe hij die stempel moet lezen, want hij kent ze al allemaal, en hij vergeet daardoor ook niet hoe hij normaal moet denken.

Each language version is independently generated for its own context, not a direct translation.

Titel: Decoupling Vision and Language: Codebook Anchored Visual Adaptation

Auteurs: Jason Wu et al. (AWS & UCLA)

1. Het Probleem

Grote Vision-Language Modellen (LVLM's) gebruiken visuele encoders om afbeeldingen om te zetten in representaties voor downstream-redenering. Echter, deze encoders presteren vaak slecht op domeinspecifieke taken (zoals medische beeldvorming of fijne-granulatie classificatie) die ondervertegenwoordigd waren tijdens het voorvertrouwen.

Foutpropagatie: Fouten in de visuele representatie cascade door naar de taalmodel, wat leidt tot incorrecte antwoorden.
Koppeling (Coupling): Bestaande aanpassingsmethoden (zoals het tunen van projectors of LoRA op de LLM) koppelen de visuele encoder en het taalmodel te sterk aan elkaar. Als de visuele encoder wordt aangepast voor een nieuw domein, moet het taalmodel vaak opnieuw worden afgestemd (re-aligned) om de verschuiving in de feature-distributie te begrijpen.
Catastrofaal Vergeten: Het finetunen van het volledige multimodale stack (zowel encoder als LLM) leidt vaak tot het vergeten van linguïstische vaardigheden en instructie-opvolging, vooral als de trainingsdata beperkt is.
Rekenkracht: Het opnieuw trainen van de hele stack bij elke wijziging in de visuele encoder is computatief onpraktisch.

Kernvraag: Kunnen we een LVLM aanpassen aan een nieuw domein zonder het oorspronkelijke Large Language Model (LLM) ooit aan te raken?

2. Methodologie: CRAFT

De auteurs introduceren CRAFT (Codebook RegulAted Fine-Tuning), een lichtgewicht framework dat visuele aanpassing decoupeert van het taalmodel door gebruik te maken van een discrete codebook.

Kernconcept

In plaats van continue features te gebruiken, discretiseert CRAFT de visuele embeddings naar een gedeelde, bevroren codebook. De visuele encoder leert dan niet om nieuwe features te creëren, maar om de juiste bestaande "woorden" (tokens) uit dit codebook te selecteren en te rangschikken om visuele bewijzen over te dragen die het taalmodel begrijpt.

Het Trainingsproces

CRAFT finetuneert alleen de visuele encoder ( $E_\theta$ ) met drie samenstellende verliesfuncties:

Surrogate Alignment Loss ( $L_{SAL}$ ): Een klein "surrogaat"-taalmodel (bijv. Qwen2-0.5B) scoort de gezamenlijke beeld-tekstsequentie. De gradiënten worden teruggepropageerd naar de visuele encoder. Dit leert de encoder om tokens te kiezen die nuttig zijn voor redenering in het specifieke domein, zonder het grote inferentie-LLM te hoeven trainen.
Commitment Loss ( $L_{commit}$ ): Zorgt ervoor dat de continue output van de encoder dicht bij de toegewezen codebook-items blijft, zodat de kwantisatie (discretisatie) de representatie niet beschadigt.
Contrastive Loss ( $L_{con}$ ): Behoudt de semantische structuur van het voorvertrouwde model en voorkomt dat de encoder zijn algemene visuele kennis verliest.

Test-tijd Token Pruning

Om redundantie te verminderen, past CRAFT een token pruning strategie toe tijdens inferentie:

Tokens die vaak voorkomen (bijv. achtergrond) worden als minder informatief beschouwd.
Tokens met grote kwantisatie-residuen (moeilijk te kwantiseren, vaak belangrijke objecten) en ruimtelijk geïsoleerde tokens worden behouden.
Dit resulteert in een compacte visuele samenvatting die de LLM efficiënter kan verwerken.

Decoupling

Omdat de codebook-indexen een stabiele "visuele vocabulaire" vormen, kan een encoder die is getraind met een klein surrogaatmodel direct worden gebruikt met een veel groter LLM (bijv. 70B), zolang ze maar dezelfde codebook delen. Er is geen extra her-aanpassing nodig.

3. Belangrijkste Bijdragen

CRAFT Framework: Een lichtgewicht methode die alleen de discrete visuele encoder aanpast terwijl het LLM bevroren blijft. Dit maakt de encoder "portabel" over verschillende LLM-architecturen die dezelfde codebook delen.
Surrogate Supervision & Pruning: Een trainings- en inferentie-scheme dat surrogaat-LLM supervisie combineert met een test-tijd token-pruning strategie om domeinspecifieke priors in te brengen zonder het taalmodel te beschadigen.
Decoupling van Vision en Language: Het bewijst dat domeinadaptatie mogelijk is zonder de taalcomponent aan te raken, waardoor catastrofale vergeten van instructie-opvolging wordt voorkomen.

4. Resultaten

De auteurs evalueren CRAFT op 10 domeinspecifieke benchmarks (o.a. VQARAD, PlantVillage, IconQA, medische beeldvorming).

Prestatieverbetering: CRAFT bereikt een gemiddelde verbetering van 13,51% op domeinspecifieke taken vergeleken met zero-shot baselines.
Vergelijking met SOTA: Het presteert beter dan methoden die werken met continue tokens (zoals Vision FT, Projector FT, LDIFS) en methoden die de LLM finetunen (LoRA).
Behoud van Redenering: In tegenstelling tot LoRA-finetuning (die vaak leidt tot "collapsed reasoning" en korte, niet-geëxpliceerde antwoorden), behoudt CRAFT de vermogen van het LLM om uitgebreide en accurate uitleggen te geven.
- Voorbeeld: Op medische taken identificeert CRAFT correct "vloeistofaccumulatie" met een gedetailleerde uitleg, terwijl een standaard LVLM dit verwarde met een "gat" en een LoRA-getuned model alleen een kort antwoord gaf.
Efficiëntie:
- Training: Door gebruik te maken van een klein surrogaatmodel (bijv. 0.5B) is de trainingskosten 61,6% lager in VRAM en 73,5% sneller dan het finetunen van een 7B model.
- Inferentie: Token pruning verlaagt de FLOPs met 16% en de runtime met 7%.
Transfer Learning: Een encoder getraind met een klein surrogaatmodel (Qwen2-0.5B) werkt direct en effectief op grotere backbones (Qwen2.5-3B, VILA-U-7B) zonder extra training.

5. Betekenis en Impact

Dit paper biedt een fundamentele verschuiving in hoe we LVLM's voor specifieke domeinen aanpassen:

Modulariteit: Het scheidt visuele expertise van taalkundige redenering. Experts kunnen visuele encoders trainen voor specifieke domeinen (bijv. radiologie) die direct inzetbaar zijn voor elke grote LLM die de standaard codebook ondersteunt.
Kostenefficiëntie: Het elimineert de noodzaak om enorme taalmodellen opnieuw te trainen of te aligneren bij elke visuele update.
Robuustheid: Het voorkomt het verlies van instructie-opvolging en hallucinaties die vaak optreden bij traditionele finetuning-methoden.
Toekomstvisie: Het stelt de basis voor een ecosysteem van gedeelde visuele vocabulaires, waarbij visuele encoders en taalmodellen als losse, maar compatibele modules kunnen worden uitgewisseld en verbeterd.

Kortom, CRAFT lost het probleem van "visuele onderprestatie" in LVLM's op door een discrete, gedeelde interface te creëren die visuele aanpassing mogelijk maakt zonder de taalvaardigheden van het model te compromitteren.