Effect of Patch Size on Fine-Tuning Vision Transformers in Two-Dimensional and Three-Dimensional Medical Image Classification

Este estudio demuestra que el uso de tamaños de parche más pequeños (1, 2 y 4) durante el ajuste fino de Vision Transformers mejora significativamente el rendimiento en la clasificación de imágenes médicas tanto bidimensionales como tridimensionales, superando a los parches grandes y ofreciendo resultados aún mejores mediante una estrategia de ensemble.

Massoud Dehghan, Ramona Woitek, Amirreza Mahbod

Publicado 2026-02-24
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que este artículo es como una receta de cocina para mejorar la inteligencia artificial que "ve" imágenes médicas. Aquí te lo explico de forma sencilla, usando analogías cotidianas.

🏥 El Problema: ¿Cómo leemos las radiografías a la IA?

Imagina que tienes una radiografía o una resonancia magnética (que puede ser una foto plana o un bloque 3D). Quieres que una Inteligencia Artificial (IA) te diga si hay algo malo, como un tumor o una fractura.

Para que la IA entienda la imagen, no la mira como un todo continuo (como lo hacemos nosotros). En su lugar, la IA la corta en trocitos, como si fuera un rompecabezas o una cuadrícula de mosaicos. A cada trocito le llamamos "parche" (patch).

La pregunta clave que se hicieron los autores de este estudio es: ¿Qué tamaño deben tener esos trocitos para que la IA sea más inteligente?

  • ¿Deben ser trozos gigantes (como ver la imagen a través de una ventana muy pequeña)?
  • ¿O deben ser trozos diminutos (como ver la imagen a través de un microscopio)?

🔍 La Experimentación: El "Microscopio" vs. La "Ventana"

Los investigadores probaron diferentes tamaños de estos trocitos en 12 conjuntos de datos médicos (algunos planos como fotos de piel o pulmones, y otros tridimensionales como bloques de tomografías).

Usaron una sola computadora potente (una tarjeta gráfica normal, nada de superordenadores) para probar tamaños que iban desde 28 (muy grandes) hasta 1 (muy pequeños, casi píxeles individuales).

La analogía de la pintura:

  • Parches grandes (28): Es como pintar un cuadro usando solo brochas gigantes. Puedes ver el color general, pero no ves los detalles finos, como las venas o las pequeñas grietas. La IA se pierde los detalles importantes.
  • Parches pequeños (1, 2, 4): Es como usar un pincel fino. La IA puede ver las texturas, los bordes y las pequeñas anomalías que un ojo humano o una IA con "parches grandes" ignoraría.

🏆 Los Resultados: ¡Más pequeños es mejor!

El hallazgo principal es sorprendente y muy claro: Cuanto más pequeños son los trocitos, mejor funciona la IA.

  1. En imágenes 2D (fotos planas): Al reducir el tamaño del trozo, la precisión mejoró hasta un 12%. Es como pasar de ver un mapa borroso a ver una foto en alta definición.
  2. En imágenes 3D (volumen, como una resonancia): La mejora fue aún más dramática, hasta un 23%. Aquí, ver los detalles internos es crucial.
  3. El truco del equipo (Ensamblaje): Cuando combinaron las predicciones de tres modelos (uno con trozos de tamaño 1, otro de 2 y otro de 4), obtuvieron el mejor resultado posible. Es como tener tres expertos revisando la misma radiografía: uno mira el panorama general, otro el detalle medio y otro el microscópico. Juntos, no fallan.

⚖️ El Precio a Pagar: La "Ley de la Gravedad" Computacional

Aquí viene la parte de "nada es gratis".

  • La analogía del tráfico:
    • Si usas parches grandes, tienes pocos trozos. La IA tiene que procesar poca información, como si hubiera pocos coches en la carretera. Es rápido y barato.
    • Si usas parches pequeños, tienes miles de trozos. La IA tiene que procesar muchísima más información. Es como si de repente hubiera miles de coches en la carretera. El tráfico se detiene y el proceso se vuelve muy lento y costoso en energía.

En imágenes 3D, al hacer los trozos más pequeños, el trabajo de la computadora se multiplicó por 64 veces. Es un precio alto, pero los autores dicen que vale la pena si la vida del paciente depende de un diagnóstico preciso.

💡 ¿Por qué es importante esto?

Antes, la mayoría de los investigadores usaban un tamaño de parche estándar (como 14x14) porque era lo "habitual" o porque los ordenadores no aguantaban más.

Este estudio nos dice:

  1. No te conformes con lo estándar: En medicina, los detalles importan. Usar trozos más pequeños ayuda a la IA a ver lo que antes ignoraba.
  2. Es posible hacerlo en casa: Aunque suene a que necesitas superordenadores, demostraron que con una sola computadora moderna y datos de tamaño adecuado, se pueden hacer estos estudios detallados. No necesitas un laboratorio gigante para investigar esto.
  3. El futuro: Aunque es más lento, la precisión ganada en diagnósticos médicos justifica el esfuerzo computacional.

En resumen

Imagina que la IA es un detective.

  • Con parches grandes, el detective mira la escena del crimen desde un helicóptero: ve el edificio, pero no encuentra la huella dactilar en la ventana.
  • Con parches pequeños, el detective baja y usa una lupa: encuentra la huella, el hilo y la prueba definitiva.

El estudio concluye que, aunque bajar a la calle (usar parches pequeños) le cuesta más tiempo y energía al detective, es la única forma de resolver el caso (diagnosticar la enfermedad) con total seguridad.

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →