ROSE: Reordered SparseGPT for More Accurate One-Shot Large Language Models Pruning

O artigo apresenta o ROSE, um método de poda "one-shot" para Grandes Modelos de Linguagem que reordena os pesos com base na perda de poda estimada para superar as limitações de ordem pré-definida do SparseGPT, alcançando maior precisão em modelos como LLaMA e Mistral.

Mingluo Su, Huan Wang

Publicado 2026-03-09
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um gigante (um Modelo de Linguagem Grande, ou LLM) que sabe responder a tudo, mas é tão pesado que não cabe no seu celular ou computador. Ele tem milhões de "cérebros" (parâmetros) conectados por trilhões de fios.

Para torná-lo leve, precisamos cortar alguns fios. Isso é chamado de poda (pruning).

O problema é: quais fios cortar? Se você cortar os errados, o gigante esquece tudo e começa a falar bobagem.

O Problema: A "Poda Cega"

O método antigo, chamado SparseGPT, funcionava como um jardineiro que corta os galhos da esquerda para a direita, sem olhar muito para o que está acontecendo. Ele segue uma ordem fixa: "Corte o fio 1, depois o 2, depois o 3...".

A descoberta deste novo trabalho é que, em alguns lugares do cérebro do gigante, os fios não estão misturados aleatoriamente. Eles estão organizados em colunas (como fileiras de soldados).

  • Se você cortar os soldados da frente (os fios da esquerda) primeiro, os que ficam atrás não conseguem compensar o erro.
  • Se você cortar os "soldados problemáticos" (aqueles que causam mais confusão se forem removidos) primeiro, os outros podem se organizar e compensar o dano.

O método antigo cortava na ordem errada para esses casos específicos, deixando o modelo com "cicatrizes" maiores do que o necessário.

A Solução: ROSE (O Jardineiro Inteligente)

Os autores criaram o ROSE (Reordered SparseGPT). Pense no ROSE como um jardineiro muito esperto que, antes de cortar, dá uma volta pelo jardim para planejar a melhor estratégia.

Aqui está como ele funciona, passo a passo, com analogias:

1. O "Ensaio Geral" (Pré-poda)

Antes de cortar de verdade, o ROSE faz um "ensaio". Ele simula a poda para ver quais fios, se cortados, causariam o maior estrago.

  • Analogia: É como um maestro que faz um teste de som antes do concerto para ver quais instrumentos estão desafinados e precisam de atenção.

2. O Mapa do Tesouro (Identificação de Padrões)

O ROSE olha para o jardim e pergunta: "Aqui, os fios estão misturados ou estão em fileiras (colunas)?"

  • Se os fios estiverem misturados (padrão comum), ele usa o método antigo.
  • Se ele encontrar fileiras de fios (padrão colunar), ele sabe que precisa de uma estratégia especial. Ele usa uma régua mágica (chamada "faixa relativa de perda") para medir o caos nessas fileiras.

3. A Reorganização (O Segredo do ROSE)

Aqui está a mágica. Em vez de cortar da esquerda para a direita, o ROSE reorganiza a fila antes de cortar:

  • Passo A (Dentro da fileira): Ele pega os fios que causam mais problema e os coloca no começo da fila para serem cortados primeiro. Assim, os fios restantes têm mais tempo e espaço para se ajustar e corrigir o erro.

  • Passo B (Entre as fileiras): Ele faz o mesmo com as fileiras inteiras. As fileiras mais "problemáticas" vão para a frente da fila geral.

  • Analogia: Imagine que você tem uma pilha de caixas para jogar fora. Algumas caixas são cheias de vidro (perigosas) e outras são de papelão (leves).

    • O método antigo jogaria as caixas fora na ordem em que estavam na pilha. Se a caixa de vidro estivesse no fundo, ela quebraria tudo ao cair.
    • O ROSE olha para a pilha, pega as caixas de vidro e as coloca no topo para serem jogadas fora primeiro, com cuidado. Depois, ele joga as caixas de papelão. O resultado é uma pilha de lixo mais organizada e menos bagunça.

Por que isso é importante?

O ROSE não precisa reensinar o gigante (o que levaria meses e custaria uma fortuna). Ele apenas reordena a ordem em que corta e faz um ajuste matemático rápido.

  • Resultado: O modelo fica muito mais leve (com menos parâmetros), mas continua falando com a mesma clareza e inteligência.
  • Velocidade: É quase tão rápido quanto o método antigo, mas muito mais preciso.

Resumo em uma frase

O ROSE é como um cirurgião que, em vez de cortar aleatoriamente, primeiro examina o paciente, identifica as áreas mais sensíveis e decide a ordem exata das incisões para garantir que o paciente saia da sala de cirurgia (e do computador) com a saúde perfeita, mesmo tendo perdido parte do corpo.

O artigo mostra que, ao simplesmente mudar a ordem em que cortamos os fios em modelos gigantes, conseguimos modelos muito mais eficientes e inteligentes para rodar em dispositivos menores.