Hyperdimensional Cross-Modal Alignment of Frozen Language and Image Models for Efficient Image Captioning

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je twee enorme, zeer intelligente bibliotheken hebt. De ene bevat miljoenen foto's (de beeldbibliotheek) en de andere bevat miljoenen boeken (de taalbibliotheek). Beide bibliotheken zijn al jarenlang door slimme mensen opgebouwd en bevatten een enorme hoeveelheid kennis. Ze zijn echter gescheiden: de boeken kunnen de foto's niet "zien" en de foto's kunnen de boeken niet "lezen".

Normaal gesproken, om deze twee bibliotheken te laten samenwerken, zou je een gigantische, energieverslindende operatie moeten uitvoeren. Je zou de bibliotheken moeten openbreken, de boeken herschrijven en de foto's opnieuw labelen, zodat ze op elkaar gaan lijken. Dit kost veel tijd, geld en computerkracht, en het risico is dat je tijdens dit proces de oorspronkelijke kennis in de boeken of foto's per ongeluk beschadigt.

HDFLIM (het onderwerp van dit paper) is een slimme, nieuwe manier om deze twee bibliotheken te laten praten zonder ze ook maar één woord te laten herschrijven.

Hier is hoe het werkt, vertaald in een alledaags verhaal:

1. De "Onveranderde" Bibliotheken (Frozen Models)

De auteurs gebruiken bestaande, zeer krachtige modellen (zoals DINOv3 voor beelden en Qwen voor taal). Ze noemen ze "bevroren" (frozen). Dat betekent: niets wordt aangepast. De boeken blijven precies zoals ze zijn, en de foto's ook. Ze zijn klaar om te werken, maar spreken nog geen elkaars taal.

2. De Vertaler: Hyperdimensionaal Rekenen

Hoe krijg je ze dan aan het praten? De auteurs gebruiken een truc genaamd Hyperdimensionaal Rekenen.

Stel je voor dat je elke foto en elke zin niet als een gewone foto of zin ziet, maar als een enorme, kleurrijke wolkenkrabber in een denkbeeldige stad.

Een foto van een hond wordt een wolkenkrabber met een specifieke vorm en kleur.
Het woord "hond" in een boek wordt een andere wolkenkrabber die er heel erg op lijkt, maar net even anders is.

In deze "stad" (de hyperdimensionale ruimte) zijn wolkenkrabbers die op elkaar lijken (bijvoorbeeld een foto van een hond en het woord "hond") fysiek dicht bij elkaar. Ze hoeven niet herschreven te worden; ze zijn al van nature op elkaar afgestemd omdat ze beide de wereld beschrijven.

3. Het Koppelen: Lijmen en Bundelen

Nu komt de magie van HDFLIM. In plaats van de bibliotheken te herschrijven, gebruiken ze twee simpele, maar krachtige gereedschappen:

Binding (Lijmen): Dit is alsof je een foto van een hond en het woord "hond" aan elkaar plakt met een onzichtbare lijm. In de "stad" van de wolkenkrabbers creëer je zo een nieuwe, gecombineerde structuur die zowel het beeld als het woord bevat.
Bundling (Bundelen): Stel je voor dat je duizenden van deze "hond-geplakte" paren in één grote doos doet. De doos wordt een prototype. Als je later een nieuwe foto van een hond ziet, kun je kijken of deze past in diezelfde doos.

4. Het Leerproces: Eén Kijkje

Normaal gesproken moeten computers duizenden keren naar dezelfde foto's en teksten kijken om te leren (zoals een student die een boek herhaaldelijk moet lezen).
HDFLIM doet dit slechts één keer.

Je loopt door de hele dataset (bijvoorbeeld 13 miljoen foto's).
Je plakt de foto's en teksten aan elkaar (Binding).
Je stopt ze in de juiste dozen (Bundling).
Klaar! Je hebt een enorme, gestructureerde "geheugenkast" vol met associaties.

5. Het Resultaat: Het Verhaal Schrijven

Wanneer je nu een nieuwe foto geeft, doet het systeem het volgende:

Het maakt een "wolkenkrabber" van de foto.
Het zoekt in zijn geheugenkast welke woorden (wolkenkrabbers) het dichtst bij die foto liggen.
Het plakt de woorden aan elkaar om een zin te maken.

Omdat het systeem ook een beetje hulp krijgt van de taalbibliotheek (om ervoor te zorgen dat de zinnen grammaticaal correct zijn), ontstaan er zinnen die niet alleen kloppen qua inhoud, maar ook goed klinken.

Waarom is dit zo speciaal?

Snelheid: Omdat je niet duizenden keren hoeft te "leren" (rekenen), is het veel sneller en goedkoper.
Veiligheid: Je verandert de oorspronkelijke bibliotheken niet. Je kunt de foto's en boeken altijd nog voor andere dingen gebruiken.
Geen "Vergeten": Normale AI-modellen vergeten soms oude kennis als ze nieuwe leren. Omdat HDFLIM alleen nieuwe "dozen" toevoegt aan de kast en de oude boeken niet aanraakt, vergeet het nooit wat het al wist.

Kortom:
HDFLIM is als het bouwen van een slim bruggetje tussen twee eilanden. In plaats van de eilanden zelf te veranderen of te verplaatsen (wat duur en riskant is), bouw je een brug (de hyperdimensionale ruimte) die ze direct met elkaar verbindt. Zo kunnen ze samenwerken, zonder dat je de natuur van de eilanden hoeft te veranderen.

Each language version is independently generated for its own context, not a direct translation.

1. Het Probleem

Bestaande vision-language modellen (VLM's) bereiken sterke prestaties bij taken zoals beeldbeschrijving (image captioning), maar ze hebben aanzienlijke nadelen:

Rekenkracht en Kosten: End-to-end training vereist intensieve berekeningen en grote updates van parameters.
Catastrofale Vergetelheid: Het fine-tunen van vooraf getrainde modellen kan leiden tot het verlies van bestaande kennis (catastrophic forgetting).
Stabiliteit: Modulaire benaderingen die vooraf getrainde componenten verbinden, vereisen vaak nog steeds aanzienlijke training en kunnen instabiel zijn bij voortdurende aanpassing.
Zero-shot Beperkingen: Train-vrije methoden (zoals ZeroCap of ConZIC) vermijden parameterupdates, maar zijn vaak vatbaar voor hallucinaties, langzame inferentie (door iteratieve optimalisatie) en genereren minder semantisch onderbouwde beschrijvingen.

De centrale vraag is: Kan cross-modale uitlijning worden bereikt zonder de modellen zelf aan te passen? Het paper stelt dat vooraf getrainde unimodale modellen al een latente semantische compatibiliteit bezitten die benut kan worden zonder zware hertraining.

2. Methodologie: HDFLIM

De auteurs introduceren HDFLIM (HyperDimensional computing with Frozen Language and Image Models). Dit is een raamwerk dat cross-modale uitlijning realiseert door vooraf getrainde visie- en taalmiddelen volledig bevroren (frozen) te houden en ze te verbinden via Hyperdimensional (HD) Computing.

Kernconcepten van HD Computing

HD computing gebruikt extreem hoge dimensionale binaire of bipolar vectoren (bijv. dimensie $\beta = 50.000$ ) en manipuleert deze met simpele algebraïsche operaties:

Binding ( $\otimes$ ): Een dimensionale vermenigvuldiging die twee vectoren associeert tot een samengestelde representatie die orthogonaal is aan de oorspronkelijke vectoren. Dit wordt gebruikt om variabelen en waarden te koppelen (bijv. beeld + tekst).
Bundling ( $\oplus$ ): Een dimensionale meerderheidsoperatie die meerdere vectoren samenvoegt tot één vector, wat ideaal is voor het representeren van verzamelingen of context.
Locality Sensitive Hashing (LSH): Real-valued features van de modellen worden omgezet naar HD-vectoren via LSH, zodat vergelijkbare features in de oorspronkelijke ruimte ook vergelijkbare HD-vectoren opleveren.

Het HDFLIM Proces

Het systeem gebruikt een bevroren visie-encoder (DINOv3) en een bevroren taalmodel (Qwen3-4B).

Leren (Eén Pass):
- Beeldverwerking: Een afbeelding wordt opgesplitst in patches. Elke patch wordt via LSH omgezet naar een HD-vector en gebonden aan een positionele vector (om ruimtelijke context te behouden). Deze worden gebundeld tot één beeld-HD-vector ( $HD_{img}$ ).
- Tekstverwerking: Een caption wordt sequentieel verwerkt. De hidden states van het taalmodel worden via LSH omgezet naar HD-token-vectoren.
- Associatie: De beeld-vector wordt gebonden aan de cumulatieve tekst-vector tot het huidige token. Dit resultaat wordt opgeslagen in een prototype-geheugen ( $HD_{pred}$ ), geïndexeerd op tokenpositie en vocabulaire-item. Dit proces gebeurt slechts één keer over de dataset (zonder backpropagation).
Inferentie:
- Bij het genereren van een beschrijving wordt de beeld-vector gebonden aan de tot nu toe gegenereerde tekst (in HD-ruimte).
- Het systeem zoekt in het prototype-geheugen naar de meest vergelijkbare vector (minimale Hamming-afstand) voor het volgende token.
- Logit Mixing: Om grammaticale fouten te voorkomen, worden de HD-logits gemengd met de logits van het bevroren taalmodel (met een factor van 0.15). Dit zorgt voor een balans tussen visuele gronding en linguïstische vloeiendheid.
- CLIP-geleide sampling: Extra visuele uitlijning wordt bereikt door CLIP-similarity scores te combineren met de HD-scores.
Geoptimaliseerde Inferentie:
- Het systeem gebruikt "extended positional search": in plaats van alleen naar het volgende token te kijken, zoekt het over een venster van naburige posities om syntactische variaties beter te hanteren.
- Gebruik van bit-packing en op-schijf opslag (on-disk learning) voor efficiënt geheugengebruik.

3. Belangrijkste Bijdragen

Bevroren Modellen: HDFLIM behoudt de volledige integriteit van vooraf getrainde foundation modellen (geen fine-tuning), wat catastrofale vergetelheid elimineert.
Symbolische Mapping: Het introduceert een nieuwe paradigma voor uitlijning waarbij semantische mapping wordt bereikt via symbolische operaties op HD-encodings in plaats van gradiëntbased learning.
Efficiëntie: Leren gebeurt in één pass over de data zonder iteratieve backpropagation. Inferentie is sneller dan train-vrije methoden die iteratieve optimalisatie vereisen.
Semantische Gronding: De gegenereerde captions zijn semantisch rijker dan zero-shot baselines, terwijl ze vergelijkbare prestaties leveren met end-to-end getrainde modellen op referentie-vrije metrics.

4. Resultaten

De auteurs evalueren HDFLIM op de COCO-dataset en de NOCAPS-validatieset (zero-shot).

Prestaties op COCO: HDFLIM (getraind op COCO) presteert sterk op CLIP-S en RefCLIP-S (referentie-vrije metrics), vergelijkbaar met end-to-end modellen zoals CLIP-Captioner en Qwen2-VL. Het behaalt aanzienlijk hogere SPICE-scores dan train-vrije methoden zoals MAGIC.
Zero-shot Generalisatie (NOCAPS): HDFLIM getraind op het grotere PixelProse-dataset (HDFLIM-P) toont betere generalisatie naar onbekende domeinen dan modellen die alleen op COCO zijn getraind.
Semantische Kwaliteit: Hoewel traditionele n-gram metrics (BLEU, CIDEr) soms lager scoren dan bij end-to-end modellen, tonen CLIP-Scores aan dat de gegenereerde captions visueel zeer relevant zijn. Post-processing met BART verbetert de traditionele metrics aanzienlijk, wat aangeeft dat de onderliggende semantiek van HDFLIM al sterk is.
Snelheid: HDFLIM genereert tokens aanzienlijk sneller dan ZeroCap en ConZIC, omdat het geen gradiëntberekeningen of Gibbs-sampling tijdens inferentie vereist.
Transferability: Het systeem toont robuustheid bij het vervangen van het basis-taalmodel door een instruct-getuned variant, hoewel er een kleine daling in prestaties optreedt.

5. Betekenis en Conclusie

Dit werk biedt een alternatief paradigma voor de integratie van foundation modellen. In plaats van modellen te hertrainen of te fine-tunen (wat duur en risicovol is), stelt HDFLIM voor om ze te integreren via gestructureerde representatieve mappingen in een hyperdimensionale ruimte.

De belangrijkste implicaties zijn:

Duurzaamheid: Het vermijden van grote parameterupdates maakt het systeem geschikter voor continue leeromgevingen en beperkte rekenresources.
Interpreteerbaarheid: De symbolische aard van binding en bundling maakt de cross-modale uitlijning transparanter dan de "black box" van diepe neurale netwerken.
Toekomstperspectief: Het bewijst dat cross-modale uitlijning mogelijk is zonder parameterhomogenisatie, wat de weg vrijmaakt voor modulair opgebouwde, wereld-model-architecturen die samengesteld worden uit gespecialiseerde, bevroren componenten.

Samenvattend demonstreert HDFLIM dat de semantische compatibiliteit tussen onafhankelijk getrainde visie- en taalmodellen kan worden geoperationaliseerd via hyperdimensionale computing, wat leidt tot een efficiënt, schaalbaar en robuust systeem voor beeldbeschrijving.