Composed Vision-Language Retrieval for Skin Cancer Case Search via Joint Alignment of Global and Local Representations
Este artículo presenta un marco basado en transformadores para la recuperación de casos de cáncer de piel mediante consultas compuestas de imagen y texto, que logra mejoras sobre el estado del arte al alinear jerárquicamente representaciones globales y locales mediante un mecanismo de atención espacial y un ponderamiento convexo informado clínicamente.