ApET: Approximation-Error Guided Token Compression for Efficient VLMs

O artigo apresenta o ApET, um framework de compressão de tokens visuais para Modelos Visuais-Linguísticos que, ao utilizar o erro de aproximação em vez de mecanismos de atenção, elimina tokens redundantes de forma compatível com kernels eficientes como o FlashAttention, alcançando uma redução significativa no orçamento de tokens sem comprometer o desempenho.

Qiankun Ma, Ziyao Zhang, Haofei Wang, Jie Chen, Zhen Song, Hairong Zheng

Publicado 2026-02-24
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um chef de cozinha extremamente talentoso (o Modelo de Linguagem) que precisa criar pratos deliciosos (respostas) baseados em fotos e receitas (imagens e texto).

O problema é que, para analisar uma foto de alta resolução ou um vídeo longo, o chef recebe uma cesta gigante cheia de ingredientes. Mas a maioria desses ingredientes é apenas casca, semente ou água sem sabor (tokens visuais redundantes). O chef gasta horas e horas apenas olhando para essa cesta gigante, tentando separar o que é importante do que é lixo, antes mesmo de começar a cozinhar. Isso deixa a cozinha lenta e cara.

Até agora, a solução era pedir para um ajudante (o mecanismo de "atenção") olhar para a cesta e dizer: "Olhe, o ingrediente que está mais perto da receita escrita é o mais importante!".

  • O problema desse ajudante: Ele é meio preconceituoso. Ele sempre acha que os ingredientes que estão no final da cesta são os mais importantes, não importa o que sejam. Além disso, ele precisa de um processo manual e lento para olhar cada ingrediente, o que impede o uso de uma ferramenta super-rápida (chamada FlashAttention) que poderia acelerar tudo, mas que o ajudante não sabe usar.

A Solução: ApET (O "Detetive da Reconstrução")

Os autores deste paper criaram um novo método chamado ApET. Em vez de confiar num ajudante preconceituoso, eles usam a lógica da reconstrução, como se fosse um jogo de "quebra-cabeça".

Aqui está como funciona, passo a passo:

  1. Escolha dos "Mestres": O ApET pega um pequeno grupo de ingredientes (tokens) da cesta e os escolhe como "Mestres". Digamos que ele escolha 10 ingredientes representativos.
  2. O Teste de Reconstrução: Para cada outro ingrediente na cesta, o ApET tenta reconstruí-lo usando apenas uma mistura dos "Mestres".
    • Analogia: Imagine tentar desenhar um gato usando apenas as cores de um cachorro. Se você conseguir desenhar um gato que parece muito com o original usando só as cores do cachorro, significa que o gato não tinha muita informação única (era muito parecido com o cachorro).
  3. A Medida do Erro (O Segredo): O ApET olha para o resultado da reconstrução e pergunta: "Quão diferente é o desenho original do desenho que eu tentei fazer?".
    • Se a diferença for pequena: O ingrediente era redundante. Podia ser descartado! (Baixo erro = Pouca informação).
    • Se a diferença for grande: O ingrediente tinha algo único e especial que os "Mestres" não conseguiam imitar. Esse é o ingrediente que devemos manter! (Alto erro = Muita informação).

Por que isso é genial?

  • Sem Preconceito de Posição: Diferente do ajudante antigo, o ApET não se importa se o ingrediente está no começo ou no fim da cesta. Ele só se importa se o ingrediente é único e difícil de copiar. Isso evita que informações importantes sejam jogadas fora só porque estavam "no lugar errado".
  • Compatível com a Ferramenta Rápida: Como o ApET não precisa pedir para o ajudante olhar as "notas de atenção" (que são lentas de calcular), ele pode trabalhar perfeitamente junto com a FlashAttention (a ferramenta super-rápida). É como trocar um motor antigo por um turbo sem precisar trocar o carro inteiro.
  • Resultado Surpreendente: Em testes, o ApET conseguiu jogar fora quase 90% dos ingredientes (tokens) e, ainda assim, o chef cozinhou pratos melhores do que antes!
    • Para imagens, ele manteve 95% da qualidade original.
    • Para vídeos, foi ainda melhor, chegando a 100% da qualidade (e até melhor, porque removeu "ruídos" que confundiam o chef).

Resumo em uma frase

O ApET é como um filtro inteligente que diz: "Não olhe para onde o ingrediente está, olhe para o que ele é. Se você não consegue imitá-lo com o que já tem, mantenha-o; se consegue imitá-lo perfeitamente, jogue-o fora". Isso torna os modelos de Inteligência Artificial muito mais rápidos, baratos e precisos, sem perder a qualidade das respostas.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →