HEAPr: Hessian-based Efficient Atomic Expert Pruning in Output Space

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que tienes un gigantesco equipo de chefs en una cocina de restaurante muy famoso (este es el modelo de Inteligencia Artificial, o LLM).

Hasta ahora, estos restaurantes usaban un sistema llamado "Mezcla de Expertos" (MoE). La idea era genial: en lugar de tener un solo chef que hiciera todo, tenían cientos de chefs especializados. Cuando llegaba un pedido (una pregunta), un "gerente" (el enrutador) decidía qué 2 o 3 chefs específicos debían cocinar ese plato. Esto hacía que el restaurante fuera muy rápido y eficiente, porque solo activaba a unos pocos chefs a la vez.

Pero había un problema gigante: Aunque solo cocinaban 3 chefs, todos los chefs tenían que estar sentados en la cocina ocupando espacio, esperando su turno. El restaurante necesitaba un edificio inmenso (memoria de la computadora) para guardar a todos, incluso a los que no trabajaban en ese momento. Era demasiado caro y difícil de instalar en casas pequeñas (dispositivos móviles o servidores limitados).

¿Qué hicieron antes? (El problema de los métodos antiguos)

Los intentos anteriores para arreglar esto eran como despedir a chefs enteros.

Si el gerente pensaba que el "Chef de Pastas" no era muy útil, lo despedían a él y a todo su equipo.
El problema: A veces, el Chef de Pastas tenía un ingrediente secreto muy bueno que necesitabas para un plato específico. Al despedirlo a todos, la comida salía mal (la inteligencia artificial perdía precisión). Era una solución muy "tosca".

La solución mágica: HEAPr (El nuevo método)

Los autores de este paper, llamados HEAPr, tienen una idea mucho más inteligente. En lugar de despedir a chefs enteros, decidieron despedir solo a los "ayudantes" o "ingredientes" específicos dentro de cada chef.

Imagina que cada chef tiene una caja de herramientas con 100 destornilladores.

El método antiguo: Si el chef no es muy bueno, lo echas a él y tiras sus 100 destornilladores.
El método HEAPr: Se dan cuenta de que, de esos 100 destornilladores, 20 son de mala calidad y casi nunca se usan. ¡Los quitan! Pero dejan al chef y a los otros 80 destornilladores.

Esto es lo que llaman "Expertos Atómicos". Descomponen a cada experto en piezas pequeñas e indivisibles (átomos) y solo eliminan las piezas que realmente no sirven.

¿Cómo saben qué piezas quitar sin arruinar la comida? (La magia matemática)

Aquí es donde entra la parte genial. Normalmente, para saber qué pieza quitar sin estropear el plato, tendrías que probar cada combinación posible, lo cual tomaría años y requeriría una computadora del tamaño de un planeta.

HEAPr usa un truco inteligente basado en la teoría del "Cerebro Óptimo":

No miran los músculos (parámetros), miran el resultado: En lugar de analizar cómo se mueve cada destornillador, miran el plato final que sale de la cocina.
El truco de la "Segunda Oportunidad": Usan una fórmula matemática (basada en la segunda derivada, suena complicado, pero es como medir qué tan sensible es el plato a un pequeño cambio) para predecir: "Si quitamos este destornillador, ¿cuánto se va a estropear el sabor?".
Ahorro de espacio: Gracias a una propiedad especial de estos chefs, descubrieron que no necesitan calcular todo el edificio de nuevo. Solo necesitan calcular el impacto en la mesa del restaurante. Esto reduce la memoria necesaria de una cantidad astronómica a algo manejable.

¿Qué logran con esto?

Despiden a la "basura" sin perder sabor: Pueden eliminar hasta un 20-25% de los "destornilladores" (parámetros) y la comida sigue sabiendo exactamente igual que antes. ¡Es casi como si no hubieran quitado nada!
Ahorran espacio y energía: Al quitar esas piezas inútiles, el restaurante es más pequeño y consume menos electricidad (reduce los cálculos necesarios en un 20%).
Funciona en cualquier cocina: Lo probaron en restaurantes famosos como DeepSeek y Qwen, y funcionó perfecto en todos.

En resumen

Imagina que tienes un coche de Fórmula 1 con 1000 piezas. Los métodos antiguos decían: "Si el motor es pesado, quitamos el motor entero".
HEAPr dice: "No, el motor es genial, pero tiene 50 tornillos de titanio que pesan mucho y no hacen nada. Quitemos solo esos 50 tornillos".

El resultado es un coche más ligero, más rápido y más barato de mantener, pero que sigue ganando las carreras con la misma velocidad. ¡Y todo esto sin tener que volver a entrenar al coche desde cero!

Es una forma muy elegante y eficiente de hacer que la Inteligencia Artificial sea más accesible para todos, sin perder su inteligencia.

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo HEAPr: Hessian-Based Efficient Atomic Expert Pruning in Output Space, presentado en ICLR 2026.

1. Problema y Motivación

Las arquitecturas de Mezcla de Expertos (MoE) en Modelos de Lenguaje Grandes (LLM) han demostrado un rendimiento excepcional y menores costos de inferencia en comparación con los modelos densos, activando solo un subconjunto de parámetros durante la inferencia. Sin embargo, enfrentan un desafío crítico: la memoria. Aunque la activación es dispersa, todos los parámetros del modelo (incluyendo los expertos no activos) deben residir en la memoria de la GPU, lo que genera costos de despliegue prohibitivos.

Los métodos de poda (pruning) existentes presentan una disyuntiva fundamental:

Poda a nivel de experto (coarse-grained): Eliminar expertos completos reduce la memoria y acelera la inferencia, pero a menudo causa una degradación significativa de la precisión al perder conocimientos especializados.
Poda a nivel de parámetros (fine-grained): Preserva mejor la precisión pero ofrece beneficios limitados en aceleración de hardware debido a la ineficiencia en el acceso a memoria.

Además, los métodos actuales de poda de expertos (como la eliminación o fusión de expertos) sufren de inestabilidad en las medidas de similitud o requieren operaciones de descomposición costosas que aún resultan en pérdida de precisión.

2. Metodología: HEAPr

El artículo introduce HEAPr, un algoritmo de poda que opera a un nivel de granularidad más fino: el Experto Atómico.

A. Definición de Experto Atómico

En lugar de tratar un experto completo como una unidad indivisible, HEAPr descompone cada experto en unidades más pequeñas llamadas "expertos atómicos".

Un experto $E_i$ se compone de matrices $W_{up}$ , $W_{gate}$ y $W_{down}$ .
Un experto atómico se define agrupando la $j$ -ésima fila de $W_{up}$ y $W_{gate}$ , junto con la $j$ -ésima columna de $W_{down}$ .
La salida de un experto completo es la suma de las salidas de sus expertos atómicos constituyentes. Esto permite podar columnas/filas específicas sin destruir la estructura completa del experto.

B. Estimación de Importancia basada en Hessian (OBS)

Para determinar qué expertos atómicos eliminar, HEAPr se basa en la teoría del Optimal Brain Surgeon (OBS), que utiliza información de segundo orden (la matriz Hessiana) para estimar el aumento de pérdida al eliminar un parámetro.

Desafío: Calcular el Hessiano completo es computacionalmente prohibitivo ( $O(d^4)$ ).
Optimización 1 (Desacoplamiento): Se demuestra que los parámetros de diferentes expertos atómicos dentro del mismo experto están desacoplados (las derivadas cruzadas son cero). Esto reduce la complejidad del espacio de almacenamiento del Hessiano.
Optimización 2 (Espacio de Salida): En lugar de trabajar en el espacio de parámetros, HEAPr reformula el problema en el espacio de salida de los expertos atómicos. Utiliza la Matriz de Información de Fisher (equivalente al Hessiano esperado en redes bien entrenadas) combinada con una expansión de Taylor de la función del experto atómico.
Resultado de complejidad: Esta transformación reduce la complejidad espacial de la información de segundo orden de $O((3d_{model} \cdot d_{inter})^2)$ a $O(d_{model}^2)$ .

C. Algoritmo Eficiente

HEAPr calcula la importancia de todos los expertos atómicos utilizando solo:

Dos pasadas hacia adelante (forward passes) y una pasada hacia atrás (backward pass) en un pequeño conjunto de calibración.
Calcula una matriz de covarianza de gradientes compartida para todos los expertos atómicos de un mismo experto (ya que comparten el gradiente de salida).
Calcula la puntuación de importancia $s$ para cada experto atómico basándose en la proyección de su salida sobre esta matriz de covarianza.
Realiza una clasificación global (global ranking) de todos los expertos atómicos en todas las capas y poda el porcentaje inferior.

3. Contribuciones Clave

Nueva Granularidad: Introduce el concepto de "experto atómico" para la poda en MoE, permitiendo una eliminación más flexible y precisa que la poda a nivel de experto completo.
Esquema de Aproximación de Segundo Orden Eficiente: Desarrolla un método para transformar la información del Hessiano de parámetros de expertos a parámetros atómicos y finalmente a su espacio de salida, reduciendo la complejidad de almacenamiento de $O(d^4)$ a $O(d^2)$ .
Algoritmo Escalable (HEAPr): Un algoritmo que requiere solo un conjunto de calibración pequeño y operaciones estándar de forward/backward, evitando la necesidad de reentrenamiento (fine-tuning) costoso.
Rendimiento Superior: Demostración experimental de que HEAPr supera a los métodos actuales (SOTA) en una amplia gama de modelos y ratios de poda.

4. Resultados Experimentales

Los experimentos se realizaron en modelos MoE modernos, incluyendo DeepSeekMoE-16B-Base, Qwen1.5-MoE-A2.7B-Chat, Qwen2-57B-A14B y Qwen3-30B-A3B.

Compresión Casi sin Pérdida:
- En DeepSeekMoE-16B, HEAPr logra una compresión casi sin pérdida (manteniendo el rendimiento original) con un ratio de poda del 20%.
- En Qwen1.5-MoE, mantiene el rendimiento con un 25% de poda.
- En Qwen2-57B, mantiene un rendimiento casi idéntico al modelo original incluso con un 40% de poda.
- En el modelo más reciente Qwen3-30B-A3B, la precisión promedio solo cae 0.03 puntos con un 25% de poda.
Comparación con SOTA: HEAPr supera consistentemente a métodos de poda de expertos (NAEE, MoE-I2), fusión (MC-SMoE, HC-SMoE) y descomposición (Sub-MoE, D2-MoE).
Reducción de FLOPs: Además de reducir la memoria, HEAPr reduce los FLOPs en aproximadamente un 20% en los ratios de poda moderados, algo que la poda a nivel de experto no logra eficazmente.
Análisis de Límites: El modelo mantiene el 93% de la precisión base con una reducción del 20% en FLOPs. Incluso con una compresión extrema (90%), retiene un 38% de la precisión base.

5. Significado e Impacto

HEAPr representa un avance significativo en la compresión de modelos MoE al resolver el compromiso entre eficiencia de hardware y precisión del modelo.

Viabilidad de Despliegue: Hace posible desplegar modelos MoE masivos en dispositivos con recursos limitados al reducir drásticamente los requisitos de memoria y computación sin sacrificar capacidades.
Eficiencia Computacional: Al reducir la complejidad de la información de segundo orden, hace factible aplicar técnicas de poda basadas en Hessian (generalmente prohibitivas) a modelos de gran escala.
Comprensión de MoE: Proporciona una perspectiva más profunda sobre la redundancia dentro de los expertos, demostrando que la información valiosa está distribuida a nivel atómico y no necesariamente requiere mantener expertos completos.

En resumen, HEAPr ofrece una solución práctica y teóricamente fundamentada para la compresión de LLMs basados en MoE, permitiendo una implementación más eficiente en el mundo real.