Structure-aware Contrastive Learning for Diagram Understanding of Multimodal Models
Este artigo apresenta uma nova abordagem de aprendizado contrastivo estruturalmente consciente que, ao incorporar funções de perda especializadas e amostras difíceis, aprimora significativamente a compreensão de diagramas em modelos de linguagem e visão, superando os métodos padrão em tarefas como correspondência imagem-texto e resposta a perguntas visuais.