Topological Alignment of Shared Vision-Language Embedding Space
El artículo presenta ToMCLIP, un marco que mejora la alineación multilingüe en modelos visión-idioma mediante restricciones topológicas basadas en homología persistente, logrando una mayor coherencia estructural y un mejor rendimiento en tareas de recuperación y clasificación.