DerMAE: Improving skin lesion classification through conditioned latent diffusion and MAE distillation

DerMAE mejora la clasificación de lesiones cutáneas en entornos clínicos al generar imágenes sintéticas mediante modelos de difusión condicionados por clase, preentrenar grandes modelos ViT con MAE para extraer características robustas y transferir ese conocimiento a modelos ligeros mediante destilación, logrando así un alto rendimiento en dispositivos móviles a pesar del desequilibrio de clases.

Francisco Filho, Kelvin Cunha, Fábio Papais, Emanoel dos Santos, Rodrigo Mota, Thales Bezerra, Erico Medeiros, Paulo Borba, Tsang Ing Ren

Publicado 2026-02-24
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que el diagnóstico de cáncer de piel es como intentar encontrar una aguja en un pajar, pero el problema es que el pajar está lleno de paja (lesiones benignas) y solo hay un par de agujas (lesiones malignas). Además, los médicos a menudo no tienen tiempo o herramientas para mirar cada paja con lupa.

Este paper, titulado DERMAE, propone una solución inteligente que combina tres ideas mágicas para ayudar a las computadoras a diagnosticar mejor, incluso cuando hay muy pocos ejemplos de casos graves.

Aquí te lo explico con analogías sencillas:

1. El Problema: La Clase Desbalanceada

Imagina que estás entrenando a un perro para que reconozca gatos. Si le muestras 90 fotos de perros y solo 10 de gatos, el perro aprenderá a pensar que "todo lo que ve es un perro". En dermatología pasa lo mismo: hay miles de fotos de lunares inofensivos y muy pocas de cáncer. Las computadoras (Inteligencia Artificial) se vuelven "perezosas" y siempre dicen que es algo benigno, porque es lo que más ven.

2. La Solución Paso a Paso

Paso A: El "Chef de Cocina" (Generación de Imágenes Sintéticas)

Como no tenemos suficientes fotos de cáncer, los autores crearon un chef robot (un modelo de difusión).

  • ¿Qué hace? Este chef no solo copia y pega fotos existentes (como los métodos viejos). ¡Este chef cocina platos nuevos!
  • El truco: Le dicen al chef: "Hazme 100 fotos de lunares malignos". El chef usa su imaginación (basada en lo que ya sabe) para crear fotos de lunares que nunca existieron, pero que se ven reales.
  • El resultado: Ahora, en lugar de tener 10 fotos de cáncer, tenemos 100. Hemos equilibrado la balanza. Además, usaron una técnica especial (pérdida perceptual) para que las fotos no se vean borrosas o extrañas, sino que tengan la textura real de la piel.

Paso B: El "Estudiante Genio" que Aprende Solo (MAE Pre-entrenamiento)

Ahora tenemos muchas fotos (reales y las nuevas creadas por el chef), pero el modelo de IA es como un estudiante que necesita aprender a ver patrones antes de hacer el examen final.

  • La analogía: Imagina que le pones una venda a un estudiante genio (un modelo grande llamado ViT-Huge) y le muestras una foto de un lunar, pero le tapas el 75% de la imagen.
  • El reto: El estudiante tiene que adivinar qué hay debajo de la venda basándose en lo que ve.
  • El aprendizaje: Al hacer esto millones de veces con miles de fotos (incluyendo las creadas por el chef), el estudiante aprende a entender la "estructura" de un lunar, no solo a memorizar colores. Aprende a distinguir la diferencia entre un lunar normal y uno peligroso de forma muy profunda.

Paso C: El "Mentor" y el "Estudiante Pequeño" (Distilación de Conocimiento)

Aquí viene el problema práctico: El "Estudiante Genio" (ViT-Huge) es tan inteligente que es enorme. Es como un superordenador que no cabe en un teléfono móvil. Los médicos necesitan una app en su celular, no un servidor gigante.

  • La solución: Usamos una técnica llamada Distilación.
  • La analogía: Imagina que el "Estudiante Genio" (el maestro) le da clases a un "Estudiante Pequeño" (un modelo ligero como EfficientNet o ViT-Básico).
  • Cómo funciona: El maestro no solo le dice la respuesta correcta ("Esto es cáncer"). Le explica cómo piensa: "Mira, fíjate en estos bordes irregulares y este color". El estudiante pequeño copia la forma de pensar del maestro, pero en un cerebro mucho más pequeño y rápido.
  • El resultado: El estudiante pequeño es casi tan inteligente como el maestro, pero cabe perfectamente en un teléfono móvil y puede diagnosticar al instante.

3. ¿Qué lograron?

Al combinar estas tres cosas:

  1. Crear más datos (el chef robot).
  2. Aprender patrones profundos (el estudiante con la venda).
  3. Enseñar a un modelo pequeño (el mentor y el alumno).

Lograron que el modelo pequeño (el que cabe en el móvil) diagnosticara el cáncer de piel con mucha más precisión que los métodos anteriores, especialmente en los casos difíciles donde hay pocos ejemplos.

En resumen

El paper dice: "No podemos esperar a tener más fotos reales de cáncer, así que inventamos fotos realistas, las usamos para entrenar a un cerebro gigante que aprende a ver muy bien, y luego enseñamos a un cerebro pequeño a pensar como el gigante para que pueda funcionar en el teléfono del médico".

¡Es como tener un laboratorio de investigación completo dentro de la bolsita de un médico!

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →