HEAPr: Hessian-based Efficient Atomic Expert Pruning in Output Space

O artigo apresenta o HEAPr, um novo algoritmo de poda que decompõe especialistas em unidades atômicas e utiliza informações de segunda ordem no espaço de saída para alcançar uma compressão quase sem perdas em modelos MoE, superando métodos existentes com menor custo computacional.

Ke Li, Zheng Yang, Zhongbin Zhou, Feng Xue, Zhonglin Jiang, Wenxiao Wang

Publicado 2026-03-03
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um gigante da inteligência artificial (um Modelo de Linguagem Grande, ou LLM) que é incrivelmente inteligente, mas também gigantesco e caro de manter. Ele ocupa tanto espaço na memória do computador que é difícil colocá-lo em dispositivos comuns, como celulares ou servidores menores.

Esse gigante é construído como uma equipe de especialistas (chamada de "Mixture of Experts" ou MoE). Em vez de ter um único cérebro gigante, ele tem centenas de "cérebros menores" (especialistas) que trabalham juntos. Quando você faz uma pergunta, o sistema escolhe apenas alguns desses especialistas para responder, economizando energia de processamento.

O Problema:
Mesmo que o sistema só use alguns especialistas de cada vez, ele precisa guardar todos eles na memória o tempo todo. É como ter uma biblioteca com 1.000 livros, mas você só lê 5 por dia. O problema é que você ainda precisa ter espaço para os 1.000 livros na estante. Isso torna o sistema muito pesado e caro para rodar.

A Solução Antiga (e Imperfeita):
Até agora, as tentativas de aliviar esse peso eram como demitir especialistas inteiros. Se um especialista parecia "menos útil", eles o tiravam da equipe.

  • O problema: É como demitir um médico inteiro só porque ele não é bom em tratar um tipo específico de doença. Você perde muita capacidade e o sistema fica "burro" ou erra muito. É uma solução muito grosseira.

A Nova Solução: O HEAPr (O "Poda de Precisão")
Os autores deste trabalho criaram um método chamado HEAPr. Em vez de demitir especialistas inteiros, eles decidiram fazer uma cirurgia de precisão dentro de cada especialista.

Aqui está a analogia para entender como funciona:

1. A Analogia da Fábrica de Móveis

Imagine que cada "Especialista" é uma fábrica de móveis.

  • O jeito antigo: Se a fábrica não estava vendendo bem, você fechava a fábrica inteira. Perdeu-se tudo.
  • O jeito novo (HEAPr): Eles perceberam que dentro de cada fábrica, existem máquinas individuais (chamadas de "especialistas atômicos"). Algumas máquinas fazem apenas as pernas da mesa, outras fazem o tampo, outras fazem o acabamento.
  • O HEAPr olha para dentro da fábrica e diz: "Olha, a máquina que faz as pernas da mesa número 42 está quase parada. Vamos desligar apenas ela, mas manter o resto da fábrica funcionando."

Isso permite remover pedaços pequenos e inúteis sem destruir a capacidade total do sistema.

2. Como eles sabem o que cortar? (O "Raio-X" do Cérebro)

O grande desafio é: Como saber qual máquina desligar sem estragar o móvel?
Se você desligar a máquina errada, a mesa fica torta.

Os autores usaram uma técnica matemática avançada chamada Teoria do Cirurgião Cerebral Ótimo (Optimal Brain Surgeon).

  • A ideia: Em vez de chutar, eles usam uma "fórmula de segunda ordem" (uma espécie de raio-x matemático) para medir exatamente o quanto o sistema vai sofrer se aquela peça for removida.
  • O Truque Genial: Calcular esse "raio-x" para todo o sistema seria tão pesado que o computador travaria. Então, eles descobriram um atalho inteligente:
    1. Eles transformaram o problema de "analisar os parâmetros" (os pesos internos) para "analisar a saída" (o resultado final).
    2. É como se, em vez de tentar entender a engenharia complexa de cada máquina, eles apenas olhassem para o produto final que a máquina produz e perguntassem: "Se essa máquina parar, o produto final muda muito?"
    3. Se a resposta for "não muda quase nada", eles cortam.

Isso reduziu a necessidade de memória e poder de cálculo de algo impossível para algo muito leve.

3. Os Resultados Mágicos

O que acontece quando você aplica o HEAPr?

  • Leveza: Eles conseguiram remover cerca de 20% a 25% do "peso" do modelo (os especialistas atômicos inúteis) e o modelo quase não perdeu inteligência. Foi como tirar a gordura de um atleta sem tirar o músculo.
  • Velocidade: O modelo ficou cerca de 20% mais rápido para rodar.
  • Precisão: Em testes com modelos famosos (como os da família Qwen e DeepSeek), o método funcionou muito melhor do que as técnicas antigas de "demitir especialistas inteiros".

Resumo em uma frase:

O HEAPr é como um cirurgião de precisão que, em vez de amputar membros inteiros de um gigante para fazê-lo caber em um carro pequeno, remove apenas as células de gordura inúteis, permitindo que o gigante continue forte e inteligente, mas agora leve o suficiente para viajar em qualquer lugar.

Por que isso importa?
Isso significa que em breve poderemos ter modelos de IA superinteligentes rodando em nossos computadores pessoais e celulares, sem precisar de supercomputadores caros, porque aprendemos a "podar" a inteligência de forma eficiente e sem perder qualidade.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →