HEAPr: Hessian-based Efficient Atomic Expert Pruning in Output Space

El artículo presenta HEAPr, un algoritmo de poda eficiente basado en la información de Hessiana que descompone los expertos en unidades atómicas para lograr una compresión casi sin pérdidas en modelos LLM de tipo Mixture-of-Experts, reduciendo significativamente los requisitos de memoria y los FLOPs sin sacrificar la precisión.

Ke Li, Zheng Yang, Zhongbin Zhou, Feng Xue, Zhonglin Jiang, Wenxiao Wang

Publicado 2026-03-03
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que tienes un gigantesco equipo de chefs en una cocina de restaurante muy famoso (este es el modelo de Inteligencia Artificial, o LLM).

Hasta ahora, estos restaurantes usaban un sistema llamado "Mezcla de Expertos" (MoE). La idea era genial: en lugar de tener un solo chef que hiciera todo, tenían cientos de chefs especializados. Cuando llegaba un pedido (una pregunta), un "gerente" (el enrutador) decidía qué 2 o 3 chefs específicos debían cocinar ese plato. Esto hacía que el restaurante fuera muy rápido y eficiente, porque solo activaba a unos pocos chefs a la vez.

Pero había un problema gigante: Aunque solo cocinaban 3 chefs, todos los chefs tenían que estar sentados en la cocina ocupando espacio, esperando su turno. El restaurante necesitaba un edificio inmenso (memoria de la computadora) para guardar a todos, incluso a los que no trabajaban en ese momento. Era demasiado caro y difícil de instalar en casas pequeñas (dispositivos móviles o servidores limitados).

¿Qué hicieron antes? (El problema de los métodos antiguos)

Los intentos anteriores para arreglar esto eran como despedir a chefs enteros.

  • Si el gerente pensaba que el "Chef de Pastas" no era muy útil, lo despedían a él y a todo su equipo.
  • El problema: A veces, el Chef de Pastas tenía un ingrediente secreto muy bueno que necesitabas para un plato específico. Al despedirlo a todos, la comida salía mal (la inteligencia artificial perdía precisión). Era una solución muy "tosca".

La solución mágica: HEAPr (El nuevo método)

Los autores de este paper, llamados HEAPr, tienen una idea mucho más inteligente. En lugar de despedir a chefs enteros, decidieron despedir solo a los "ayudantes" o "ingredientes" específicos dentro de cada chef.

Imagina que cada chef tiene una caja de herramientas con 100 destornilladores.

  • El método antiguo: Si el chef no es muy bueno, lo echas a él y tiras sus 100 destornilladores.
  • El método HEAPr: Se dan cuenta de que, de esos 100 destornilladores, 20 son de mala calidad y casi nunca se usan. ¡Los quitan! Pero dejan al chef y a los otros 80 destornilladores.

Esto es lo que llaman "Expertos Atómicos". Descomponen a cada experto en piezas pequeñas e indivisibles (átomos) y solo eliminan las piezas que realmente no sirven.

¿Cómo saben qué piezas quitar sin arruinar la comida? (La magia matemática)

Aquí es donde entra la parte genial. Normalmente, para saber qué pieza quitar sin estropear el plato, tendrías que probar cada combinación posible, lo cual tomaría años y requeriría una computadora del tamaño de un planeta.

HEAPr usa un truco inteligente basado en la teoría del "Cerebro Óptimo":

  1. No miran los músculos (parámetros), miran el resultado: En lugar de analizar cómo se mueve cada destornillador, miran el plato final que sale de la cocina.
  2. El truco de la "Segunda Oportunidad": Usan una fórmula matemática (basada en la segunda derivada, suena complicado, pero es como medir qué tan sensible es el plato a un pequeño cambio) para predecir: "Si quitamos este destornillador, ¿cuánto se va a estropear el sabor?".
  3. Ahorro de espacio: Gracias a una propiedad especial de estos chefs, descubrieron que no necesitan calcular todo el edificio de nuevo. Solo necesitan calcular el impacto en la mesa del restaurante. Esto reduce la memoria necesaria de una cantidad astronómica a algo manejable.

¿Qué logran con esto?

  • Despiden a la "basura" sin perder sabor: Pueden eliminar hasta un 20-25% de los "destornilladores" (parámetros) y la comida sigue sabiendo exactamente igual que antes. ¡Es casi como si no hubieran quitado nada!
  • Ahorran espacio y energía: Al quitar esas piezas inútiles, el restaurante es más pequeño y consume menos electricidad (reduce los cálculos necesarios en un 20%).
  • Funciona en cualquier cocina: Lo probaron en restaurantes famosos como DeepSeek y Qwen, y funcionó perfecto en todos.

En resumen

Imagina que tienes un coche de Fórmula 1 con 1000 piezas. Los métodos antiguos decían: "Si el motor es pesado, quitamos el motor entero".
HEAPr dice: "No, el motor es genial, pero tiene 50 tornillos de titanio que pesan mucho y no hacen nada. Quitemos solo esos 50 tornillos".

El resultado es un coche más ligero, más rápido y más barato de mantener, pero que sigue ganando las carreras con la misma velocidad. ¡Y todo esto sin tener que volver a entrenar al coche desde cero!

Es una forma muy elegante y eficiente de hacer que la Inteligencia Artificial sea más accesible para todos, sin perder su inteligencia.

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →