SideQuest: Model-Driven KV Cache Management for Long-Horizon Agentic Reasoning

O artigo apresenta o SideQuest, uma abordagem inovadora que utiliza o próprio modelo de raciocínio para gerenciar e comprimir a cache KV de forma paralela à tarefa principal, reduzindo significativamente o uso de memória em tarefas de agentes de longo prazo com impacto mínimo na precisão.

Sanjay Kariyappa, G. Edward Suh

Publicado 2026-03-03
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um assistente de pesquisa muito inteligente, capaz de navegar na internet, ler dezenas de sites e escrever relatórios complexos para você. Esse é o papel dos Agentes de IA modernos.

No entanto, existe um grande problema: a memória desse assistente é como uma mesa de trabalho física.

O Problema: A Mesa Enchendo de Papel

Quando o agente pesquisa algo, ele abre várias abas (como se fossem janelas do navegador) e anota tudo o que encontra.

  • Se ele precisa encontrar a data de uma conferência, ele abre uma página de busca.
  • Depois, abre o site da conferência.
  • Depois, abre uma lista de feriados.
  • E assim por diante.

Com o tempo, essa "mesa" fica cheia de papéis. O problema é que a memória do computador (GPU) onde essa mesa está é limitada. Se a mesa encher demais, o computador fica lento, trava ou não consegue abrir novas abas.

Até agora, a solução era usar regras automáticas e burras para limpar a mesa. Por exemplo: "Apague os 5 papéis mais antigos" ou "Mantenha apenas os papéis que têm mais palavras".
O problema disso: O assistente pode precisar de um papel antigo que ele jogou fora porque parecia inútil na hora, mas que se torna crucial 10 passos depois. É como jogar fora o mapa da cidade porque você já passou pela primeira esquina, e depois se perder na décima.

A Solução: SideQuest (O "Gerente de Memória" Inteligente)

Os autores do artigo criaram uma técnica chamada SideQuest. Em vez de usar regras burras, eles ensinaram o próprio assistente a gerenciar sua própria memória de forma inteligente.

Aqui está a analogia principal:

Imagine que o assistente principal está trabalhando na tarefa (o Filho Principal).
Ao mesmo tempo, ele tem um Filho Auxiliar (uma segunda mente) que trabalha em paralelo, olhando para a mesma mesa de trabalho, mas sem atrapalhar o trabalho principal.

  1. O Trabalho Principal: O Filho Principal continua pesquisando, lendo e respondendo ao usuário.
  2. O Trabalho do Auxiliar: A cada certo tempo, o Filho Auxiliar olha para a mesa e pensa: "Ei, olhe para aquele papel da 'Página de Busca' que foi aberta há 10 minutos. Nós já tiramos a informação que precisávamos dela. O site da conferência já foi aberto. A gente não precisa mais daquele papel de busca. Vamos jogá-lo fora!"
  3. A Limpeza: O Auxiliar diz: "Jogue fora o papel X e Y". O sistema remove esses dados da memória.
  4. O Resultado: A mesa fica limpa, o computador fica rápido, mas o assistente não perdeu nenhuma informação importante, porque foi o próprio cérebro inteligente que decidiu o que era lixo e o que era tesouro.

Por que isso é genial?

  • Não polui a mente: O Filho Auxiliar trabalha em um "modo de manutenção". Ele não interfere na conversa com o usuário. É como ter um estagiário que organiza os arquivos enquanto o chefe atende o cliente.
  • Aprende com a experiência: Eles treinaram esse sistema com apenas 215 exemplos (pouco para padrões de IA), mostrando que é fácil ensinar a IA a saber o que esquecer.
  • Economia real: O teste mostrou que o SideQuest consegue reduzir o uso de memória em até 65% sem perder a qualidade da resposta. É como conseguir fazer o mesmo trabalho em uma mesa metade do tamanho, sem bagunça.

Resumo em uma frase

O SideQuest é como ensinar um assistente de IA a ter um "estagiário de organização" que vigia a mesa de trabalho em tempo real, jogando fora apenas o que realmente não serve mais, mantendo o computador rápido e a inteligência afiada, sem precisar de regras fixas que podem cometer erros.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →