Thin Keys, Full Values: Reducing KV Cache via Low-Dimensional Attention Selection

O artigo propõe e valida a hipótese de que a seleção de atenção (queries e keys) pode ser realizada em dimensões muito menores do que a transferência de valores, permitindo reduzir o cache KV em 75% com perda mínima de qualidade através de compressão SVD e ajuste fino leve, o que aumenta significativamente a capacidade de usuários simultâneos em modelos de grande escala.

Hengshuai Yao, Guan Wang

Publicado 2026-03-06
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está organizando uma festa enorme com milhares de convidados (os dados do modelo de IA). Para que a conversa flua, cada convidado precisa fazer duas coisas principais:

  1. Decidir com quem falar (Seleção): Olhar ao redor e escolher quem é relevante para a conversa atual.
  2. O que dizer (Transferência de Valor): Pegar as informações, histórias e detalhes daquela pessoa escolhida e trazê-los para a conversa.

O artigo "Chaves Finas, Valores Cheios" (Thin Keys, Full Values) propõe uma mudança inteligente na forma como os modelos de Inteligência Artificial (como o GPT ou LLaMA) fazem isso.

Aqui está a explicação simples, usando analogias do dia a dia:

1. O Problema: A "Burocracia" Desnecessária

Hoje, os modelos de IA tratam a decisão (quem falar) e a informação (o que dizer) da mesma forma. Eles usam um "canal de comunicação" gigante e cheio para ambas as tarefas.

  • A analogia: Imagine que você precisa enviar um bilhete para um amigo em outra sala.
    • Para dizer quem é o amigo (a seleção), você só precisa de um nome curto, como "João".
    • Para dizer o que o amigo precisa saber (a informação), você precisa de um livro inteiro.
    • O erro atual: O modelo atual usa um caminhão de mudanças gigante para levar apenas o nome "João". É um desperdício de espaço e energia.

2. A Solução: "Chaves Finas, Valores Cheios"

Os autores propõem separar esses dois processos:

  • Chaves Finas (Keys): A parte que serve apenas para identificar e selecionar (quem é relevante). Eles propõem que isso pode ser feito com muito menos espaço. É como usar um crachá pequeno ou um código de barras simples para identificar a pessoa.
  • Valores Cheios (Values): A parte que carrega a informação rica (o significado, a história). Isso continua sendo grande e completo, porque não podemos perder detalhes importantes.

Em resumo: Eles dizem: "Não precisamos de um caminhão gigante para levar o nome de alguém. Usemos uma bicicleta pequena para o nome e deixemos o caminhão apenas para a carga pesada de informações."

3. Por que isso funciona? (A Lógica)

O artigo explica que "escolher" é uma tarefa matemática mais simples do que "lembrar".

  • Para distinguir entre 1.000 pessoas diferentes, você não precisa de 1.000 bits de informação. A matemática mostra que você precisa de muito menos (apenas o logaritmo do número de opções). É como usar um código binário: com 10 dígitos (bits), você consegue identificar mais de 1.000 pessoas.
  • Já a informação que essas pessoas carregam é complexa e cheia de nuances, exigindo todo o espaço disponível.

4. Os Benefícios Reais (O "Pulo do Gato")

Por que nos importamos com isso? Porque isso economiza uma quantidade absurda de memória durante o uso da IA.

  • A Memória (KV Cache): Quando você pede para a IA escrever um livro inteiro ou analisar um documento de 100 páginas, ela precisa "lembrar" de tudo o que já escreveu ou leu. Isso é guardado na memória RAM da placa de vídeo (GPU).
  • O Ganho: Ao usar "Chaves Finas", a memória necessária para guardar o histórico da conversa diminui drasticamente.
    • Exemplo Prático: Em um modelo grande (7B parâmetros) lidando com um contexto enorme (128 mil palavras), essa técnica economiza 25 GB de memória por usuário.
    • O Resultado: Com a mesma placa de vídeo, você pode atender 60% mais pessoas ao mesmo tempo. É como transformar um elevador que leva 10 pessoas em um que leva 16, sem gastar mais energia.

5. Como aplicar isso em modelos que já existem?

Você não precisa recriar a IA do zero. Os autores mostram um "truque de mágica" para modelos já treinados:

  1. Eles usam uma técnica matemática (SVD) para "comprimir" as chaves (a parte de seleção) sem perder a essência.
  2. Depois, fazem um "ajuste fino" (fine-tuning) muito rápido e barato apenas na parte de seleção.
  3. Resultado: O modelo fica quase tão inteligente quanto o original, mas usa muito menos memória.

Conclusão

A ideia central é simples: Não trate a "seleção" (quem chamar) com a mesma complexidade que a "informação" (o que dizer).

Ao fazer as "chaves" (a parte de seleção) serem mais finas e leves, e manter os "valores" (a informação) cheios e ricos, conseguimos rodar modelos de IA mais rápidos, mais baratos e que conseguem ler documentos muito maiores sem travar. É uma mudança de design que parece óbvia depois que alguém aponta, mas que traz economias gigantescas para o futuro da inteligência artificial.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →