Loss Design and Architecture Selection for Long-Tailed Multi-Label Chest X-Ray Classification

Este trabajo presenta una evaluación sistemática de funciones de pérdida, arquitecturas y estrategias de post-entrenamiento para la clasificación de radiografías de tórax con distribución de clases de cola larga, logrando el quinto lugar en el desafío CXR-LT 2026 mediante el uso de LDAM-DRW y la arquitectura ConvNeXt-Large.

Nikhileswara Rao Sulake

Publicado 2026-03-04
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

Imagina que estás entrenando a un detective médico (una Inteligencia Artificial) para que revise miles de radiografías de tórax y encuentre enfermedades. El problema es que este detective tiene un gran defecto: es muy bueno encontrando las enfermedades "populares" (como una neumonía común), pero es terrible detectando las enfermedades "raras" (como un neumotórax o un enfisema), aunque estas últimas sean muy peligrosas y vitales de detectar.

En el mundo de la estadística, esto se llama un problema de "cola larga": hay miles de casos comunes y muy pocos casos raros.

Este artículo es como el diario de entrenamiento de un equipo de investigadores (liderado por Nikhileswara Rao Sulake) que intentó arreglar a su detective para que fuera justo con todas las enfermedades, no solo con las populares. Participaron en una gran competencia llamada "CXR-LT 2026".

Aquí tienes la explicación de su viaje, usando analogías sencillas:

1. El Problema: El Detective Prejuicioso

En la mayoría de los datos médicos, hay 100 casos de "corazón grande" (común) por cada 1 caso de "pulmón colapsado" (raro).
Si entrenas a una IA con los métodos normales, el detective piensa: "¡Eh, casi siempre veo corazones grandes! Mejor me enfoco solo en eso y ignoro lo demás". Como resultado, falla estrepitosamente en los casos raros.

2. La Solución: Tres Herramientas Mágicas

El equipo probó tres cosas principales para arreglar a su detective:

A. El Entrenador Especial (La Función de Pérdida)

Imagina que el entrenador le grita al detective durante el entrenamiento.

  • Entrenador Normal (BCE): Le dice: "Si aciertas el caso común, ¡bien hecho! Si fallas el raro, no pasa nada". Esto hace que el detective ignore lo raro.
  • Entrenador Especial (LDAM-DRW): Este es el ganador. Le dice: "Si fallas un caso común, no te castigo mucho. PERO, si fallas un caso raro, ¡te voy a castigar muchísimo!". Además, empieza suave y luego se vuelve estricto con los casos difíciles.
    • Resultado: El detective aprende a prestar atención a las enfermedades raras.

B. El Cuerpo del Detective (La Arquitectura)

El equipo probó diferentes "cuerpos" o cerebros para su detective:

  • Los viejos confiables (ResNet, DenseNet): Eran buenos, pero tenían un límite. Como un coche antiguo, podían ir rápido en carretera plana (casos comunes), pero se quedaban cortos en terrenos difíciles (casos raros).
  • Los modernos (ConvNeXt): Imagina un coche de carreras futurista. Este modelo, llamado ConvNeXt-Large, tenía más "potencia" y un diseño más inteligente. Fue el que mejor desempeño tuvo, logrando ver detalles que los otros no podían.

C. Los Trucos de Último Minuto (Estrategias Post-Entrenamiento)

Una vez que el detective estaba entrenado, probaron trucos para mejorar su examen final:

  • Re-entrenar la cabeza (cRT): Imagina que el detective ya sabe ver bien las imágenes (el cuerpo), pero su "lente de decisión" (la cabeza) está un poco torcida. Les quitaron el lente y le pusieron uno nuevo, entrenándolo solo con los casos raros para que se ajustara mejor.
  • Mirar desde varios ángulos (TTA): Le mostraron la misma radiografía pero girada un poquito o reflejada. Si el detective veía la enfermedad en todas las versiones, estaba más seguro.
  • El consejo de expertos (Ensamblaje): En lugar de un solo detective, reunieron a varios y tomaron la decisión que la mayoría votó.

3. Los Resultados: ¿Cómo les fue?

  • En el entrenamiento (El simulacro): ¡Fue increíble! Su mejor modelo (ConvNeXt-Large con el Entrenador Especial) logró un puntaje de 0.5220. Era el mejor detective individual.
  • En la competencia real (El examen final): Cuando presentaron su trabajo a la competencia oficial, obtuvieron el 5º lugar entre 68 equipos.
    • Su puntaje bajó a 0.3950.
    • ¿Por qué bajó? El equipo fue muy honesto: admitieron que su detective estaba un poco "sobreentrenado" para sus propios datos de práctica. Era muy bueno clasificando (saber qué enfermedad es), pero malo en dar la probabilidad exacta (saber cuán seguro está).

4. La Lección Principal (El "Moraleja")

El equipo descubrió algo muy importante para la medicina:

No basta con saber "qué" enfermedad hay; también hay que saber "cuán seguro" estás de ello.

Su detective era muy bueno para decir: "Aquí hay una enfermedad rara" (bueno para el ranking), pero a veces decía "Estoy 51% seguro" cuando debería haber dicho "Estoy 90% seguro". Esto es peligroso en medicina.

En resumen:
Para que una IA funcione bien en radiografías con muchas enfermedades raras, necesitas:

  1. Un entrenador estricto que castigue los errores en casos raros (LDAM-DRW).
  2. Un cerebro moderno y potente (ConvNeXt).
  3. Y, sobre todo, ajustar la confianza del detective para que no sea ni demasiado arrogante ni demasiado tímido.

El equipo logró un gran avance, pero su mayor contribución fue decir: "Aquí está lo que funcionó, aquí está lo que falló, y aquí es donde debemos mejorar para salvar vidas en el futuro".