QKV Projections Require a Fraction of Their Memory

O artigo propõe a técnica PAMM, que comprime as ativações das projeções Q, K e V em camadas de atenção, reduzindo seu consumo de memória em até 512 vezes sem prejudicar a perplexidade final, tornando-se um método complementar e eficaz para o treinamento eficiente de LLMs.

Malik Khalaf, Yara Shamshoum, Nitzan Hodos, Yuval Sieradzki, Assaf Schuster

Publicado 2026-03-03
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está organizando uma festa gigante para treinar um "cérebro" digital (uma Inteligência Artificial chamada LLM). Para que esse cérebro aprenda, ele precisa ler milhões de frases e lembrar de tudo o que leu.

O problema é que, para processar essas frases, o computador precisa guardar uma quantidade absurda de "bilhetes de memória" (chamados de ativations) na sua memória RAM. É como se, para cada frase que o cérebro lê, ele tivesse que escrever cada palavra em um post-it e colar na parede. Com frases longas e muitas pessoas (frases) na festa, a parede enche, a memória acaba e o computador trava.

A maioria das pesquisas tenta encurtar as frases ou apagar post-its que parecem inúteis. Mas os autores deste paper olharam para o processo e perceberam algo curioso: muitos desses post-its são quase idênticos.

A Grande Descoberta: A Festa Repetitiva

Imagine que na sua festa, 500 pessoas estão falando sobre "café". Elas usam palavras diferentes, mas a ideia é a mesma. Em vez de escrever 500 post-its diferentes, você poderia escrever apenas um post-it com a ideia principal de "café" e, para as outras 499 pessoas, apenas um pequeno bilhete dizendo: "Você é igual ao post-it de café, só que um pouquinho mais forte" ou "Você é igual, só que mais fraco".

Isso é o que o PAMM (Multiplicação de Matriz Aproximada por Pontos) faz.

Como o PAMM Funciona (A Analogia do "Chefe e os Estagiários")

O método funciona em duas etapas simples:

  1. Escolha dos "Chefes" (Geradores): O computador olha para todas as frases (os dados) e escolhe aleatoriamente um pequeno grupo de "representantes" ou "chefes". Digamos que ele escolha apenas 10 pessoas de um grupo de 5.000.
  2. Os "Estagiários" (Aproximação): Para as outras 4.990 pessoas, o sistema não guarda o post-it completo. Ele guarda apenas:
    • Quem é o "chefe" que essa pessoa se parece mais (ex: "Pessoa 42 se parece com o Chefe 3").
    • Um multiplicador (ex: "Pessoa 42 é 1,5 vezes mais intensa que o Chefe 3").

O Resultado? Em vez de guardar 5.000 post-its gigantes, você guarda 10 post-its completos e 5.000 pequenos bilhetes de anotação.

Por que isso é incrível?

  • Economia Extrema: O paper mostra que você pode reduzir o uso de memória em 512 vezes. É como transformar uma biblioteca inteira de livros em uma única caixa de sapatos cheia de resumos.
  • Sem Perda de Qualidade: O mais surpreendente é que, mesmo com essa compressão absurda, o "cérebro" da IA aprende exatamente da mesma forma (ou até melhor!). Isso acontece porque, na verdade, a maioria das frases que a IA lê é repetitiva e redundante. O sistema estava gastando energia guardando coisas que já sabia.
  • Funciona com Tudo: O PAMM é como um "plug-and-play". Você pode usá-lo junto com outras tecnologias modernas de IA (como FlashAttention) sem quebrar nada.

A Metáfora Final: O Mapa da Cidade

Pense no treinamento da IA como um turista tentando memorizar o mapa de uma cidade enorme.

  • O método antigo: O turista tenta desenhar cada rua, cada poste de luz e cada árvore em um mapa gigante. O mapa fica tão pesado que ele não consegue carregá-lo.
  • O método PAMM: O turista percebe que a cidade tem bairros inteiros que são idênticos (todos têm uma padaria, uma praça e um posto de gasolina). Então, ele desenha apenas um bairro (o "Chefe") e faz uma lista: "O Bairro 2 é igual ao Bairro 1, só que virado para a esquerda. O Bairro 3 é igual ao Bairro 1, mas com casas azuis."

Ele consegue carregar o mapa no bolso, economiza 99% do espaço e, quando precisa navegar, consegue reconstruir a cidade inteira na mente perfeitamente.

Conclusão

Os autores criaram uma técnica que "limpa a mesa" da memória do computador durante o treinamento de IAs. Eles provaram que não precisamos guardar tudo o que a IA vê; basta guardar os "exemplos principais" e dizer aos outros dados como se relacionar com eles. Isso permite treinar IAs maiores, mais rápido e com computadores mais baratos, sem perder inteligência.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →