Composed Vision-Language Retrieval for Skin Cancer Case Search via Joint Alignment of Global and Local Representations
Il paper propone un framework basato su transformer per la ricerca di casi di cancro della pelle mediante query composte da immagine e testo, che migliora le prestazioni attraverso un allineamento congiunto di rappresentazioni globali e locali, ottenendo risultati superiori rispetto agli stati dell'arte sul dataset Derm7pt.