Hyperdimensional Cross-Modal Alignment of Frozen Language and Image Models for Efficient Image Captioning
Il paper introduce HDFLIM, un framework che allinea modelli di linguaggio e visione preaddestrati e congelati in uno spazio iperdimensionale tramite operazioni simboliche leggere, permettendo la generazione di didascalie immagini efficienti e semanticamente solide senza necessità di un addestramento multimodale intensivo.