Motivating Next-Gen Accelerators with Flexible (N:M) Activation Sparsity via Benchmarking Lightweight Post-Training Sparsification Approaches

Este trabajo demuestra que el podado de activaciones con patrones N:M post-entrenamiento preserva mejor las capacidades de los modelos de lenguaje grandes que el podado de pesos, estableciendo métodos prácticos y motivando el soporte de hardware para patrones de dispersión flexibles como el 8:16.

Shirin Alanova, Kristina Kazistova, Ekaterina Galaeva, Alina Kostromina, Vladimir Smirnov, Redko Dmitry, Alexey Dontsov, Maxim Zhelnin, Evgeny Burnaev, Egor Shvetsov

Publicado 2026-03-03
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un chef genio (un Modelo de Lenguaje Grande, o LLM) que puede escribir historias, responder preguntas y resolver problemas. Pero este chef tiene un problema: su cocina es enorme, llena de ingredientes y utensilios, y para cocinar un plato simple, tiene que revisar todo el armario cada vez. Esto hace que la cocina sea lenta, consuma mucha energía y sea muy costosa.

Los investigadores de este artículo quieren hacer que este chef sea más rápido y eficiente sin que pierda su talento culinario.

Aquí está la explicación de su trabajo, usando analogías sencillas:

1. El Problema: La "Cocina" está llena de basura

Hasta ahora, los ingenieros intentaban acelerar al chef tirando a la basura los utensilios que nunca usa (esto se llama "podar los pesos"). Pero hay un problema: a veces, el chef necesita esos utensilios específicos para platos muy complicados, y al tirarlos, el sabor del plato empeora.

Además, la tecnología actual solo permite tirar utensilios de una manera muy rígida (como decir: "solo puedes tener 2 de cada 4 tipos de cuchillos"). Es como si te obligaran a organizar tu cocina en bloques fijos, sin importar qué plato estés cocinando.

2. La Idea Brillante: No tires los utensilios, ignora los ingredientes que no necesitas

En lugar de tirar utensilios permanentemente, los autores proponen algo más inteligente: ignorar los ingredientes que no se usan en ese momento.

  • La Analogía: Imagina que el chef está cocinando una sopa. En ese momento, no necesita el helado ni el chocolate. En lugar de tirarlos a la basura (lo cual es permanente), simplemente no los toca. Si luego quiere hacer un pastel, entonces los usa.
  • En la ciencia: Esto se llama "esparsidad de activación". En lugar de eliminar partes fijas del cerebro del modelo, el modelo decide dinámicamente qué partes de su "pensamiento" (activaciones) son importantes para la pregunta actual y cuáles puede ignorar.

3. El Hallazgo Principal: ¡Funciona mejor!

Los investigadores probaron esta idea en cuatro chefs famosos (modelos como Llama, Qwen y Gemma). Descubrieron algo sorprendente:

  • Tirar utensilios (podar pesos) es como cortar la mano del chef para siempre. A veces funciona, pero a menudo el chef pierde su habilidad.
  • Ignorar ingredientes (podar activaciones) es como decirle al chef: "Oye, hoy no uses el horno". El chef sigue teniendo el horno, pero no gasta energía usándolo.
  • Resultado: La segunda opción mantiene la calidad del plato (la precisión del modelo) mucho mejor que la primera.

4. El Reto de la "Cocina" Actual: Las herramientas no están listas

Aquí viene la parte de la ingeniería.

  • El problema: Las cocinas actuales (los chips de las computadoras) están diseñadas para trabajar con utensilios fijos (como el patrón 2:4). Si intentas ignorar ingredientes de forma dinámica, la cocina se vuelve lenta porque el chef tiene que pensar mucho en qué ingredientes ignorar antes de empezar a cocinar.
  • La propuesta: Los autores dicen: "Necesitamos nuevas cocinas (nuevos chips de hardware) que estén diseñadas específicamente para ignorar ingredientes dinámicamente".

5. La Receta Perfecta: El patrón "8:16"

Probaron diferentes formas de organizar la ignorancia de los ingredientes:

  • 2:4 (El estándar actual): Muy rígido. Como si solo pudieras ignorar la mitad de los ingredientes, pero en grupos muy pequeños. Funciona, pero no es muy eficiente.
  • 16:32 (El futuro): Muy flexible. Puedes ignorar la mitad de los ingredientes de cualquier manera que quieras. Es casi tan bueno como tener una cocina perfecta, pero requiere herramientas muy complejas.
  • 8:16 (El punto dulce): ¡Esta es la ganadora! Es el equilibrio perfecto. Te da el doble de flexibilidad que el estándar actual (2:4) sin ser tan complicado de construir. Es como encontrar el tamaño de cuchillo perfecto: lo suficientemente grande para cortar rápido, pero no tan grande que sea incómodo.

6. ¿Cómo lo hacen sin arruinar el sabor? (Mitigación de errores)

Cuando ignoras ingredientes, a veces el plato sale un poco salado o insípido. Los investigadores probaron trucos sencillos para arreglarlo sin tener que volver a entrenar al chef (lo cual es muy caro):

  • El truco del "Desplazamiento": Ajustan un poco el punto de partida de los ingredientes para compensar lo que ignoraron.
  • El truco de la "Varianza": Ajustan la intensidad de los sabores restantes para que el plato no se sienta "vacío".
  • Resultado: Con estos trucos simples, el plato sale delicioso incluso con muchos ingredientes ignorados.

En Resumen

Este paper es un llamado a la acción para los fabricantes de chips.

Dicen: "Dejen de diseñar computadoras que solo entienden reglas rígidas para ahorrar espacio. Necesitamos máquinas que puedan 'ignorar' información en tiempo real de forma inteligente. Si hacen esto, podremos tener modelos de IA más rápidos, que consuman menos energía y que sean más baratos de usar, sin perder su inteligencia."

Es como pasar de una cocina donde tienes que tirar los ingredientes que no usas, a una cocina inteligente donde los ingredientes que no necesitas se desvanecen mágicamente, ahorrando energía y tiempo, pero manteniendo la magia de la comida.

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →