VIVID-Med: LLM-Supervised Structured Pretraining for Deployable Medical ViTs
El artículo presenta VIVID-Med, un marco innovador que utiliza un modelo de lenguaje grande (LLM) congelado como maestro semántico estructurado para preentrenar transformadores de visión (ViT) médicos, logrando un rendimiento superior en diversas tareas de análisis de imágenes médicas con una fracción de los datos necesarios y eliminando la necesidad de depender del LLM en la fase de despliegue.