SkinCLIP-VL: Consistency-Aware Vision-Language Learning for Multimodal Skin Cancer Diagnosis
O artigo apresenta o SkinCLIP-VL, um framework eficiente de aprendizado visão-linguagem que supera modelos de base maiores em precisão e confiabilidade para diagnóstico de câncer de pele, utilizando um encoder CLIP congelado, um adaptador leve e uma nova função de perda de alinhamento consciente da consistência para mitigar custos computacionais, escassez de dados e a natureza de "caixa preta" dos modelos tradicionais.