When Token Pruning is Worse than Random: Understanding Visual Token Information in VLLMs

Este artigo demonstra que, em camadas profundas de Modelos de Linguagem Visuais Grandes (VLLMs), os tokens visuais perdem progressivamente sua relevância até um "horizonte de informação", tornando a poda aleatória mais eficiente do que métodos existentes e permitindo alcançar resultados de ponta ao eliminar 50% dos tokens visuais sem comprometer significativamente o desempenho.

Yahong Wang, Juncheng Wu, Zhangkai Ni, Longzhen Yang, Yihang Liu, Chengmei Yang, Ying Wen, Lianghua He, Xianfeng Tang, Hui Liu, Yuyin Zhou

Publicado 2026-03-10
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um chef de cozinha muito talentoso (o Modelo de Linguagem Visual) que precisa cozinhar um prato incrível (responder a uma pergunta) usando ingredientes frescos (a imagem).

O problema é que, para preparar a imagem, o computador transforma cada detalhe da foto em milhares de pequenos "pedaços de informação" chamados tokens visuais. É como se o chef recebesse uma sacola gigante cheia de 500 ingredientes diferentes para fazer um sanduíche simples. Isso deixa a cozinha (o computador) sobrecarregada, lenta e cara para operar.

Para resolver isso, os cientistas criaram métodos para descartar ingredientes (chamados de Token Pruning ou "poda de tokens") antes de começar a cozinhar, tentando manter apenas os mais importantes.

O Grande Descobrimento: Quando "Sorte" é Melhor que "Estratégia"

A ideia original era: "Vamos usar inteligência artificial para identificar quais ingredientes são essenciais e jogar fora os inúteis".

Mas os autores deste artigo descobriram algo surpreendente e um pouco engraçado: nas camadas mais profundas do processo de pensamento do computador (quando ele já está quase pronto para responder), tentar ser inteligente sobre o que jogar fora não funciona.

Na verdade, nessa fase avançada, jogar ingredientes fora aleatoriamente (como se fosse um jogo de sorte) funciona tão bem quanto tentar escolher cuidadosamente. Às vezes, até melhor!

A Analogia do "Horizonte da Informação"

Para entender o porquê, os autores criaram um conceito chamado "Horizonte da Informação".

Imagine que você está olhando para uma paisagem através de uma janela:

  1. No início (Camadas rasas): Você vê tudo com clareza. Há árvores, carros, pessoas. Alguns detalhes são vitais (o carro vermelho), outros são menos importantes (a grama). Aqui, faz sentido usar um filtro inteligente para escolher o que manter.
  2. No meio (A transição): Conforme você avança na "janela" (nas camadas do computador), os detalhes começam a se misturar. A informação de cada pedaço da imagem se torna tão uniforme que é difícil dizer qual é o mais importante.
  3. O Horizonte (Camadas profundas): Chega um ponto (o "Horizonte") onde todos os pedaços da imagem se tornam praticamente iguais em importância. Eles perderam seu "brilho" original. Nesse momento, a imagem já foi totalmente compreendida e transformada em texto no cérebro do computador.

A lição: Quando você chega nesse "Horizonte", não importa se você joga fora o ingrediente A ou o ingrediente B. Eles não estão mais ajudando a decidir a resposta. Se você tentar usar um algoritmo complexo para escolher qual jogar fora, está gastando energia à toa. Nesse ponto, um corte aleatório é perfeito.

Por que isso muda tudo?

O papel mostra que:

  • Tarefas diferentes têm horizontes diferentes: Se você está pedindo para o computador ler um texto pequeno numa imagem (como um código de barras ou uma placa de rua), ele precisa olhar mais fundo (o horizonte é mais longe). Se é apenas perguntar "tem um cachorro na foto?", o horizonte chega mais cedo.
  • Modelos mais inteligentes veem mais longe: Modelos mais potentes (como o Qwen-2.5) conseguem extrair informações úteis de camadas mais profundas do que modelos mais simples.

A Solução Simples: A Mistura Perfeita

Em vez de tentar ser super inteligente o tempo todo, os autores propõem uma estratégia híbrida (uma mistura):

  1. No início: Use métodos inteligentes para guardar os ingredientes mais importantes.
  2. No final (após o Horizonte): Pare de tentar escolher. Apenas jogue fora a metade dos ingredientes restantes de forma aleatória.

O resultado?
É como se você estivesse dirigindo um carro de Fórmula 1. Na reta inicial, você usa toda a tecnologia para acelerar. Mas quando chega numa reta infinita e reta, você não precisa mais de todos os sensores; você só precisa manter o pé no acelerador. Ao fazer isso, o computador fica muito mais rápido, consome menos energia, mas continua tão inteligente quanto antes.

Resumo em uma frase

O artigo descobre que, depois que o computador "entende" a imagem, tentar escolher quais detalhes jogar fora é inútil; nesse ponto, jogar fora aleatoriamente é a maneira mais eficiente e rápida de economizar tempo sem perder a qualidade da resposta.