Topological Alignment of Shared Vision-Language Embedding Space
Il paper presenta ToMCLIP, un framework che migliora l'allineamento multilingue nei modelli visione-linguaggio applicando vincoli topologici basati sull'omologia persistente per preservare la geometria globale dello spazio di embedding, ottenendo così prestazioni superiori nel recupero multilingue e nel riconoscimento zero-shot.