Motivating Next-Gen Accelerators with Flexible (N:M) Activation Sparsity via Benchmarking Lightweight Post-Training Sparsification Approaches

Este trabalho apresenta uma análise abrangente de técnicas de poda de ativações esparsas (N:M) pós-treinamento para modelos de linguagem grandes, demonstrando que a poda de ativações preserva melhor a capacidade generativa do que a de pesos e identificando o padrão 8:16 como um equilíbrio ideal entre flexibilidade de desempenho e complexidade de implementação em hardware.

Shirin Alanova, Kristina Kazistova, Ekaterina Galaeva, Alina Kostromina, Vladimir Smirnov, Redko Dmitry, Alexey Dontsov, Maxim Zhelnin, Evgeny Burnaev, Egor Shvetsov

Publicado 2026-03-03
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um restaurante gigante e muito famoso (o Modelo de Linguagem, como o Llama ou o Qwen) que atende milhões de clientes por dia. O problema é que a cozinha está tão cheia e o movimento tão grande que demora muito para servir os pratos, e o custo de energia está subindo.

Para resolver isso, os chefs (cientistas de dados) tentaram duas estratégias principais nos últimos anos:

  1. A Estratégia "Peso" (Weight Pruning): Eles decidiram demitir permanentemente alguns ajudantes de cozinha e jogar fora algumas panelas que usavam pouco. O problema? Isso é como demitir um funcionário e nunca mais poder contratá-lo de volta. Se o prato for complexo, a cozinha fica sem a ferramenta certa e o sabor do prato (a inteligência do modelo) fica ruim.
  2. A Estratégia "Ativação" (Activation Sparsity): Em vez de demitir pessoas, eles decidiram que, para cada pedido específico, apenas os ajudantes necessários naquele momento vão trabalhar. Se um pedido é simples, só 2 pessoas trabalham. Se é complexo, trabalham 8. É dinâmico, inteligente e não joga nada fora permanentemente.

O Problema Atual: A Cozinha Rígida

O grande problema é que a cozinha atual (o hardware dos computadores) foi construída para funcionar de um jeito muito rígido. Ela só aceita que, a cada 4 ajudantes, exatamente 2 trabalhem (uma regra chamada 2:4). É como se o gerente dissesse: "Não importa se o pedido é para um sanduíche ou um banquete, sempre trabalhem 2 de cada 4". Isso limita muito a eficiência.

A Grande Descoberta deste Trabalho

Os autores deste artigo foram para a cozinha e testaram uma ideia ousada: "E se a gente permitir que a cozinha funcione com regras mais flexíveis?"

Eles testaram regras onde, a cada 16 ajudantes, 8 trabalham (regra 8:16), ou até 16 de 32 (16:32).

Aqui estão os pontos principais, traduzidos para uma linguagem simples:

1. "Ativação" é melhor que "Peso"

Eles descobriram que a estratégia de "contratar apenas quem precisa no momento" (Ativação) funciona muito melhor do que "demitir permanentemente" (Peso).

  • Analogia: É como ter um guarda-chuva. Se você joga o guarda-chuva fora (peso), você fica molhado quando chove. Se você só abre o guarda-chuva quando chove (ativação), você se protege sem carregar peso o tempo todo. O modelo mantém sua inteligência quase intacta, mesmo com menos gente trabalhando.

2. O Segredo da Flexibilidade (N:M)

A regra antiga (2:4) é muito limitada. Imagine que você tem 4 pessoas e só pode escolher 2. Existem apenas 6 combinações possíveis. É muito pouco!
Já a regra nova (8:16) permite escolher 8 pessoas entre 16. Existem 12.870 combinações possíveis!

  • Analogia: É a diferença entre ter apenas 6 cores de tinta para pintar uma casa e ter 12.870 tons. Com mais opções, você consegue pintar a casa (resolver o problema) de um jeito muito mais preciso e bonito, sem gastar mais tinta.

3. O "Truque" para não estragar o prato (Correção de Erros)

Quando você tira metade das pessoas da cozinha, o prato pode ficar sem sal ou sem tempero. O modelo pode começar a alucinar ou errar.
Os autores testaram vários "temperos mágicos" (métodos de correção) que são fáceis de aplicar e não exigem reeducar todo o restaurante do zero.

  • O Vencedor: Eles descobriram que métodos simples, como ajustar o "centro" do pedido (Shift) ou corrigir a "variação" (Variance), funcionam maravilhosamente bem. É como um chef experiente que, ao ver que faltou um ingrediente, ajusta o sal na hora para salvar o prato.

4. O Resultado Final

  • A regra 16:32 funciona quase tão bem quanto não ter nenhuma regra (o modelo original), mantendo a inteligência quase 100%.
  • A regra 8:16 é o "ponto ideal". Ela oferece um ganho enorme de velocidade e economia de energia, mas ainda é prática para ser implementada em computadores reais em breve.
  • A regra antiga 2:4 é muito pior, perdendo muita qualidade.

Por que isso importa para o futuro?

Hoje, os chips de computador (como os da NVIDIA) são feitos pensando apenas na regra rígida de 2:4. Este artigo é um convite urgente para os engenheiros de hardware:

"Parem de construir cozinhas rígidas! Se vocês construírem chips que entendam regras flexíveis (como 8:16), vocês poderão rodar modelos de Inteligência Artificial muito mais rápidos, mais baratos e com menos consumo de energia, sem perder a inteligência deles."

Resumo em uma frase:
Este trabalho mostra que, em vez de forçar a Inteligência Artificial a seguir regras rígidas e perder qualidade, devemos construir computadores mais flexíveis que permitam que o modelo "descanse" partes de si mesmo quando não precisa delas, economizando energia e tempo sem perder a inteligência.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →