ROSE: Reordered SparseGPT for More Accurate One-Shot Large Language Models Pruning

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um gigante (um Modelo de Linguagem Grande, ou LLM) que sabe responder a tudo, mas é tão pesado que não cabe no seu celular ou computador. Ele tem milhões de "cérebros" (parâmetros) conectados por trilhões de fios.

Para torná-lo leve, precisamos cortar alguns fios. Isso é chamado de poda (pruning).

O problema é: quais fios cortar? Se você cortar os errados, o gigante esquece tudo e começa a falar bobagem.

O Problema: A "Poda Cega"

O método antigo, chamado SparseGPT, funcionava como um jardineiro que corta os galhos da esquerda para a direita, sem olhar muito para o que está acontecendo. Ele segue uma ordem fixa: "Corte o fio 1, depois o 2, depois o 3...".

A descoberta deste novo trabalho é que, em alguns lugares do cérebro do gigante, os fios não estão misturados aleatoriamente. Eles estão organizados em colunas (como fileiras de soldados).

Se você cortar os soldados da frente (os fios da esquerda) primeiro, os que ficam atrás não conseguem compensar o erro.
Se você cortar os "soldados problemáticos" (aqueles que causam mais confusão se forem removidos) primeiro, os outros podem se organizar e compensar o dano.

O método antigo cortava na ordem errada para esses casos específicos, deixando o modelo com "cicatrizes" maiores do que o necessário.

A Solução: ROSE (O Jardineiro Inteligente)

Os autores criaram o ROSE (Reordered SparseGPT). Pense no ROSE como um jardineiro muito esperto que, antes de cortar, dá uma volta pelo jardim para planejar a melhor estratégia.

Aqui está como ele funciona, passo a passo, com analogias:

1. O "Ensaio Geral" (Pré-poda)

Antes de cortar de verdade, o ROSE faz um "ensaio". Ele simula a poda para ver quais fios, se cortados, causariam o maior estrago.

Analogia: É como um maestro que faz um teste de som antes do concerto para ver quais instrumentos estão desafinados e precisam de atenção.

2. O Mapa do Tesouro (Identificação de Padrões)

O ROSE olha para o jardim e pergunta: "Aqui, os fios estão misturados ou estão em fileiras (colunas)?"

Se os fios estiverem misturados (padrão comum), ele usa o método antigo.
Se ele encontrar fileiras de fios (padrão colunar), ele sabe que precisa de uma estratégia especial. Ele usa uma régua mágica (chamada "faixa relativa de perda") para medir o caos nessas fileiras.

3. A Reorganização (O Segredo do ROSE)

Aqui está a mágica. Em vez de cortar da esquerda para a direita, o ROSE reorganiza a fila antes de cortar:

Passo A (Dentro da fileira): Ele pega os fios que causam mais problema e os coloca no começo da fila para serem cortados primeiro. Assim, os fios restantes têm mais tempo e espaço para se ajustar e corrigir o erro.
Passo B (Entre as fileiras): Ele faz o mesmo com as fileiras inteiras. As fileiras mais "problemáticas" vão para a frente da fila geral.
Analogia: Imagine que você tem uma pilha de caixas para jogar fora. Algumas caixas são cheias de vidro (perigosas) e outras são de papelão (leves).
- O método antigo jogaria as caixas fora na ordem em que estavam na pilha. Se a caixa de vidro estivesse no fundo, ela quebraria tudo ao cair.
- O ROSE olha para a pilha, pega as caixas de vidro e as coloca no topo para serem jogadas fora primeiro, com cuidado. Depois, ele joga as caixas de papelão. O resultado é uma pilha de lixo mais organizada e menos bagunça.

Por que isso é importante?

O ROSE não precisa reensinar o gigante (o que levaria meses e custaria uma fortuna). Ele apenas reordena a ordem em que corta e faz um ajuste matemático rápido.

Resultado: O modelo fica muito mais leve (com menos parâmetros), mas continua falando com a mesma clareza e inteligência.
Velocidade: É quase tão rápido quanto o método antigo, mas muito mais preciso.

Resumo em uma frase

O ROSE é como um cirurgião que, em vez de cortar aleatoriamente, primeiro examina o paciente, identifica as áreas mais sensíveis e decide a ordem exata das incisões para garantir que o paciente saia da sala de cirurgia (e do computador) com a saúde perfeita, mesmo tendo perdido parte do corpo.

O artigo mostra que, ao simplesmente mudar a ordem em que cortamos os fios em modelos gigantes, conseguimos modelos muito mais eficientes e inteligentes para rodar em dispositivos menores.

Each language version is independently generated for its own context, not a direct translation.

Título: ROSE: SparseGPT Reordenado para Poda Mais Precisa de Modelos de Linguagem de Grande Escala (LLMs) em Um Único Passo

1. O Problema

A poda (pruning) é uma técnica essencial para reduzir o tamanho e o custo computacional de Grandes Modelos de Linguagem (LLMs), permitindo sua implantação em dispositivos com recursos limitados. O método SparseGPT é uma abordagem pioneira de poda "one-shot" (em um único passo) que utiliza gradientes de segunda ordem (Hessiana) para compensar o erro de poda sem necessidade de re-treinamento.

No entanto, o artigo identifica uma limitação crítica no SparseGPT:

Ordem de Poda Fixa: O SparseGPT utiliza uma ordem de poda pré-definida (da esquerda para a direita, baseada na ordem dos canais de entrada).
Padrões Colunares: Em certas camadas de LLMs (especificamente nas projeções de saída da atenção, o_proj), os pesos exibem um padrão colunar, onde pesos de alta magnitude estão concentrados em blocos específicos de canais de entrada.
Consequência: Quando o SparseGPT poda esses blocos de alta magnitude tardiamente (devido à ordem fixa), a capacidade de compensação do erro diminui drasticamente, pois há menos pesos restantes disponíveis para ajustar a reconstrução. Isso leva a um aumento súbito e subótimo no erro de reconstrução e na perplexidade do modelo.

2. Metodologia: A Abordagem ROSE

O ROSE (Reordered SparseGPT) é um método proposto para otimizar a ordem de poda dentro do framework do SparseGPT, priorizando a remoção de pesos que causam maior erro potencial primeiro. O processo é dividido em três etapas principais:

A. Pré-Poda (Pre-pruning) e Estimação de Perda

Antes da poda real, o método executa uma etapa de pré-poda para identificar quais pesos têm maior probabilidade de serem removidos.
Utiliza uma pontuação de importância baseada no método Wanda (magnitute do peso $\times$ norma da ativação de entrada).
Calcula uma matriz de perda potencial ( $L$ ) para cada bloco de pesos, estimando o erro de reconstrução se aqueles pesos fossem removidos.

B. Reordenamento em Dois Níveis (Two-level Reordering)
O objetivo é garantir que os blocos e colunas com maior perda potencial sejam processados primeiro, deixando mais pesos ajustáveis disponíveis para compensação posterior.

Reordenamento de Colunas (dentro do bloco): Dentro de cada bloco, as colunas são reordenadas em ordem decrescente de sua perda de coluna ( $l_j$ ).
Reordenamento de Blocos (global): Os próprios blocos são reordenados em ordem decrescente de sua perda total de bloco ( $L^{(k)}$ ).

Nota: Após a poda no novo ordenamento, a matriz esparsa é restaurada para a ordem original para manter a compatibilidade com a inferência.

C. Identificação de Camadas Colunares
Nem todas as camadas possuem o padrão colunar que se beneficia dessa reordenação. O ROSE introduz uma métrica automática para detectar essas camadas:

Faixa Relativa da Perda do Bloco ( $R_{rel}$ ): Calcula-se a variação relativa entre a perda máxima e mínima dos blocos em uma camada.
Se $R_{rel}$ exceder um limiar pré-definido (0.5 no experimento), a camada é classificada como "colunar" e sofre o processo de reordenamento. Caso contrário, aplica-se o SparseGPT padrão.

3. Contribuições Principais

Descoberta da Importância da Ordem: O trabalho demonstra que, no framework SparseGPT, a ordem de poda é um fator determinante para a precisão final, especialmente em camadas com distribuição de pesos não uniforme (padrão colunar).
Método ROSE: Propõe um algoritmo de reordenamento adaptativo que prioriza a poda de pesos com maior erro potencial, preservando mais parâmetros ajustáveis para etapas subsequentes.
Métrica de Detecção: Introduz uma métrica baseada na faixa relativa de perda de bloco para identificar automaticamente quais camadas se beneficiam da reordenação, evitando overhead desnecessário em camadas uniformes.
Extensibilidade: O método é aplicável tanto à poda não estruturada quanto à semi-estruturada (ex: padrões 2:4 e 4:8).

4. Resultados Experimentais

Os autores avaliaram o ROSE em modelos populares (LLaMA2-7B/13B/70B, LLaMA3-8B, Mistral-7B) usando o conjunto de dados WikiText-2 e tarefas de zero-shot.

Redução de Perplexidade: O ROSE superou consistentemente o SparseGPT original e outros métodos (Magnitude, Wanda, DSnoT, OATS).
- Exemplo: No LLaMA3-8B com 80% de esparsidade, o ROSE reduziu a perplexidade de 203.45 (SparseGPT) para 172.14.
Precisão em Tarefas Zero-Shot: O ROSE alcançou maior precisão média em tarefas de raciocínio e compreensão (BoolQ, WinoGrande, ARC, etc.) em comparação com o SparseGPT.
Análise de Erro de Reconstrução: Gráficos mostram que a reordenação de blocos e colunas reduz significativamente o erro de reconstrução, especialmente em níveis altos de esparsidade. A inversão da ordem (poder os menores erros primeiro) piorou o desempenho, confirmando a hipótese.
Eficiência Computacional:
- O tempo de poda do ROSE é marginalmente superior ao do SparseGPT (ex: aumento de 4.76 min para 5.15 min no LLaMA2-7B), devido às etapas leves de cálculo de perda e reordenamento.
- Não há impacto no tempo de inferência, pois a reordenação ocorre apenas durante a poda e a matriz é restaurada.
Poda Semi-estruturada: O método também demonstrou superioridade em padrões 2:4 e 4:8, reduzindo a perplexidade em comparação com o SparseGPT padrão.

5. Significado e Impacto

O ROSE representa um avanço significativo na área de compressão de LLMs sem re-treinamento (post-training pruning).

Otimização de Recursos: Permite podar modelos massivos (até 70B de parâmetros) com maior precisão, mantendo a viabilidade de implantação em hardware limitado.
Insight Teórico: A descoberta de que a ordem de poda afeta a compensação de erro em padrões colunares abre novas direções de pesquisa para otimização de algoritmos de poda baseados em Hessiana.
Praticidade: Ao ser uma extensão direta do SparseGPT com overhead computacional mínimo, o ROSE é facilmente integrável em pipelines existentes de compressão de modelos, oferecendo ganhos imediatos de desempenho sem a necessidade de re-treinamento custoso.

Em resumo, o ROSE resolve uma ineficiência fundamental na poda one-shot de LLMs, transformando a ordem de poda de um parâmetro fixo em uma estratégia adaptativa que maximiza a retenção de desempenho do modelo.