Topological Alignment of Shared Vision-Language Embedding Space
O artigo apresenta o ToMCLIP, um framework que utiliza alinhamento topológico baseado em homologia persistente para corrigir o viés linguístico e melhorar a coerência estrutural e o desempenho de modelos de visão e linguagem multilíngues.