Adaptive MLP Pruning for Large Vision Transformers

Este artículo presenta un método de poda adaptativa de MLP (AMP) que reduce aproximadamente un 40% de los parámetros y FLOPs en grandes transformadores de visión mediante un criterio de entropía de información libre de etiquetas y una búsqueda binaria, logrando una compresión casi sin pérdida de rendimiento sin necesidad de ajuste fino.

Chengchao Shen

Publicado 2026-03-10
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro! Imagina que los Transformers de Visión (como CLIP o DINOv2) son como gigantes de la inteligencia artificial que pueden ver y entender el mundo con una precisión increíble. Pero hay un problema: son tan grandes y pesados que requieren una computadora enorme y costosa para funcionar, como intentar correr una maratón con una mochila llena de ladrillos.

Los autores de este paper (Chengchao Shen y su equipo) han encontrado una forma de quitarle esos "ladrillos" sin que el gigante pierda su agilidad ni su inteligencia. Aquí te explico cómo lo hacen, usando analogías sencillas:

1. El Problema: El "Gordito" del Equipo

Dentro de estos gigantes de IA, hay una parte llamada MLP (Perceptrón Multicapa). Piensa en el MLP como el estómago del gigante: es donde procesa la información y "digiere" lo que ve.

  • El hallazgo: Los investigadores descubrieron que este "estómago" es el que más pesa. En algunos modelos, el 81% del peso total del cerebro de la IA está en este estómago.
  • La solución: Si queremos aligerar al gigante, no debemos tocar sus ojos (la atención) ni sus músculos, sino adelgazar su estómago.

2. La Herramienta 1: La Brújula de la "Entropía" (No solo mirar la respuesta correcta)

Antes, para decidir qué neuronas (células del estómago) podían ser eliminadas, los científicos usaban una regla simple: "¿Esta neurona ayudó a acertar la respuesta correcta?".

  • El error: Es como si un profesor solo mirara si un alumno acertó la respuesta de "A" en un examen de opción múltiple, ignorando si el alumno también entendía por qué las opciones "B", "C" y "D" eran incorrectas. Se perdía mucha información.
  • La innovación (Entropía de Información): El nuevo método usa una brújula más inteligente. En lugar de mirar solo la respuesta correcta, mira todas las posibilidades que el gigante considera.
    • Analogía: Imagina que el gigante está adivinando qué animal es una foto. En lugar de solo mirar si dijo "Perro", miramos si también pensó en "Lobo" o "Zorro" y cómo de seguro estaba en cada opción. Esto les da una brújula mucho más precisa para saber qué neuronas son realmente importantes y cuáles son solo "ruido" o redundancia. Además, esta brújula funciona sin necesidad de las respuestas correctas (etiquetas), lo que es genial porque a veces no tenemos el manual de respuestas de modelos muy nuevos.

3. La Herramienta 2: El "Corte Inteligente" (Búsqueda Binaria)

Una vez que tienen la lista de neuronas ordenadas de "más importantes" a "menos importantes", no cortan de golpe.

  • El método antiguo: Era como decir: "¡Cortemos el 40% del estómago!" sin saber si eso mataría al gigante.
  • El método nuevo (Adaptativo): Es como un juego de adivinar el peso.
    1. Empiezan cortando un poco.
    2. Ponen al gigante a caminar (evalúan si sigue entendiendo bien).
    3. Si camina bien, cortan un poco más.
    4. Si tropieza, vuelven un paso atrás.
    • Usan un algoritmo llamado búsqueda binaria (como buscar una palabra en un diccionario abriéndolo por la mitad, luego por la mitad de esa mitad, etc.) para encontrar el punto exacto donde el gigante está lo más ligero posible sin perder su inteligencia. No hay una regla fija; se adapta a cada modelo.

4. El Remate: El "Entrenador" (Distilación de Conocimiento)

Después de cortar, el gigante está un poco aturdido. Para recuperarlo, usan al gigante original (antes de cortarle el estómago) como un entrenador personal.

  • El gigante original le enseña al gigante "adelgazado" cómo pensar de nuevo.
  • Analogía: Es como si un maestro de ajedrez (el modelo original) le enseñara a un estudiante (el modelo cortado) a jugar las mismas partidas. Gracias a que la estructura es muy similar, el estudiante aprende muy rápido y recupera su nivel casi al instante.

¿Qué lograron? (Los Resultados)

  • Reducción masiva: Lograron quitarle un 40% de peso (parámetros y cálculos) a estos gigantes de IA.
  • Velocidad: Ahora son un 50% más rápidos (casi el doble de velocidad).
  • Sin dolor: Lo increíble es que, incluso sin volver a entrenarlos mucho, siguen funcionando casi igual de bien que antes. En muchos casos, después del entrenamiento con el "entrenador", ¡incluso funcionan mejor que el original!
  • Versatilidad: Funciona con modelos famosos como CLIP (que entiende imágenes y texto) y DINOv2 (que solo entiende imágenes), incluso si no tenemos acceso a todas sus partes internas.

En resumen

Este paper nos dice que no necesitamos gigantes pesados para tener inteligencia. Con una brújula más inteligente para saber qué cortar y un corte a medida (no a lo loco), podemos tener modelos de visión por computadora que son ligeros, rápidos y baratos, pero que siguen siendo geniales entendiendo el mundo. ¡Es como convertir a un elefante en un guepardo sin perder su fuerza!