Topological Alignment of Shared Vision-Language Embedding Space
Ce papier présente ToMCLIP, un cadre d'apprentissage qui améliore l'alignement des modèles vision-langage multilingues en intégrant des contraintes topologiques via l'homologie persistante pour préserver la géométrie globale de l'espace d'embedding et renforcer les performances en zéro-shot et en récupération multilingue.