When Token Pruning is Worse than Random: Understanding Visual Token Information in VLLMs

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um chef de cozinha muito talentoso (o Modelo de Linguagem Visual) que precisa cozinhar um prato incrível (responder a uma pergunta) usando ingredientes frescos (a imagem).

O problema é que, para preparar a imagem, o computador transforma cada detalhe da foto em milhares de pequenos "pedaços de informação" chamados tokens visuais. É como se o chef recebesse uma sacola gigante cheia de 500 ingredientes diferentes para fazer um sanduíche simples. Isso deixa a cozinha (o computador) sobrecarregada, lenta e cara para operar.

Para resolver isso, os cientistas criaram métodos para descartar ingredientes (chamados de Token Pruning ou "poda de tokens") antes de começar a cozinhar, tentando manter apenas os mais importantes.

O Grande Descobrimento: Quando "Sorte" é Melhor que "Estratégia"

A ideia original era: "Vamos usar inteligência artificial para identificar quais ingredientes são essenciais e jogar fora os inúteis".

Mas os autores deste artigo descobriram algo surpreendente e um pouco engraçado: nas camadas mais profundas do processo de pensamento do computador (quando ele já está quase pronto para responder), tentar ser inteligente sobre o que jogar fora não funciona.

Na verdade, nessa fase avançada, jogar ingredientes fora aleatoriamente (como se fosse um jogo de sorte) funciona tão bem quanto tentar escolher cuidadosamente. Às vezes, até melhor!

A Analogia do "Horizonte da Informação"

Para entender o porquê, os autores criaram um conceito chamado "Horizonte da Informação".

Imagine que você está olhando para uma paisagem através de uma janela:

No início (Camadas rasas): Você vê tudo com clareza. Há árvores, carros, pessoas. Alguns detalhes são vitais (o carro vermelho), outros são menos importantes (a grama). Aqui, faz sentido usar um filtro inteligente para escolher o que manter.
No meio (A transição): Conforme você avança na "janela" (nas camadas do computador), os detalhes começam a se misturar. A informação de cada pedaço da imagem se torna tão uniforme que é difícil dizer qual é o mais importante.
O Horizonte (Camadas profundas): Chega um ponto (o "Horizonte") onde todos os pedaços da imagem se tornam praticamente iguais em importância. Eles perderam seu "brilho" original. Nesse momento, a imagem já foi totalmente compreendida e transformada em texto no cérebro do computador.

A lição: Quando você chega nesse "Horizonte", não importa se você joga fora o ingrediente A ou o ingrediente B. Eles não estão mais ajudando a decidir a resposta. Se você tentar usar um algoritmo complexo para escolher qual jogar fora, está gastando energia à toa. Nesse ponto, um corte aleatório é perfeito.

Por que isso muda tudo?

O papel mostra que:

Tarefas diferentes têm horizontes diferentes: Se você está pedindo para o computador ler um texto pequeno numa imagem (como um código de barras ou uma placa de rua), ele precisa olhar mais fundo (o horizonte é mais longe). Se é apenas perguntar "tem um cachorro na foto?", o horizonte chega mais cedo.
Modelos mais inteligentes veem mais longe: Modelos mais potentes (como o Qwen-2.5) conseguem extrair informações úteis de camadas mais profundas do que modelos mais simples.

A Solução Simples: A Mistura Perfeita

Em vez de tentar ser super inteligente o tempo todo, os autores propõem uma estratégia híbrida (uma mistura):

No início: Use métodos inteligentes para guardar os ingredientes mais importantes.
No final (após o Horizonte): Pare de tentar escolher. Apenas jogue fora a metade dos ingredientes restantes de forma aleatória.

O resultado?
É como se você estivesse dirigindo um carro de Fórmula 1. Na reta inicial, você usa toda a tecnologia para acelerar. Mas quando chega numa reta infinita e reta, você não precisa mais de todos os sensores; você só precisa manter o pé no acelerador. Ao fazer isso, o computador fica muito mais rápido, consome menos energia, mas continua tão inteligente quanto antes.

Resumo em uma frase

O artigo descobre que, depois que o computador "entende" a imagem, tentar escolher quais detalhes jogar fora é inútil; nesse ponto, jogar fora aleatoriamente é a maneira mais eficiente e rápida de economizar tempo sem perder a qualidade da resposta.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: Quando o Poda de Tokens é Pior que o Aleatório

1. Problema Identificado

Os Modelos de Linguagem Grandes Visuais (VLLMs) enfrentam custos computacionais elevados devido à dependência de centenas de tokens visuais para representar imagens. Estratégias de poda de tokens (token pruning) sem treinamento (training-free) foram desenvolvidas para acelerar a inferência, baseando-se em critérios de importância (pesos de atenção) ou diversidade (similaridade entre tokens).

No entanto, os autores observaram uma limitação crítica: em camadas profundas do decodificador de linguagem dos VLLMs (geralmente além da 20ª camada), os métodos existentes de poda de tokens performam de forma similar ou até pior do que a poda aleatória. Isso levanta a questão fundamental: esses métodos conseguem realmente identificar tokens visuais com informação necessária para gerar a resposta correta nas camadas profundas?

2. Metodologia e Definição de Informação do Token

Para investigar esse fenômeno, os autores propõem uma nova métrica para quantificar a "informação" de um token visual:

Definição de Informação ( $I_i(V_k)$ ): A informação de um token visual $V_k$ na camada $i$ é definida pela mudança na probabilidade de saída do modelo (na etiqueta de verdade) quando esse token é removido.
Método de Cálculo:
1. Mantém-se apenas o token alvo $V_k$ e remove-se todos os outros tokens visuais na camada $i$ , calculando a probabilidade $p_k$ .
2. Remove-se também o token alvo, forçando o modelo a depender apenas dos tokens de texto, calculando a probabilidade $p_{text}$ .
3. A informação é a diferença: $I_i(V_k) = p_k - p_{text}$ .
Validação: Experimentos mostram que remover tokens com baixa informação (baseado nessa métrica) consistentemente melhora ou mantém o desempenho do modelo, validando a eficácia da métrica.

3. Descobertas Principais: O "Horizonte de Informação"

A análise da informação dos tokens visuais através das camadas revelou três achados fundamentais:

Uniformização e Desaparecimento da Informação: À medida que as camadas se aprofundam, a informação dos tokens visuais torna-se progressivamente uniforme e eventualmente desaparece (torna-se zero) em uma camada intermediária. O autor chama esse ponto de "Horizonte de Informação".
- Antes do horizonte: Tokens de alta informação existem e podem ser distinguidos.
- Após o horizonte: Todos os tokens visuais tornam-se redundantes; a seleção de quais remover não afeta o desempenho, explicando por que a poda aleatória funciona tão bem quanto métodos complexos nessas camadas.
Dinâmica do Horizonte: A posição do horizonte não é estática; ela depende de dois fatores:
- Complexidade Visual da Tarefa: Tarefas que exigem detalhes visuais precisos (ex: OCR - Reconhecimento Óptico de Caracteres) têm um horizonte mais profundo (tokens úteis persistem em camadas mais altas) comparado a tarefas de conhecimento geral (ex: QA visual simples).
- Capacidade Visual do Modelo: Modelos mais fortes (ex: Qwen2.5-VL) exploram tokens visuais em camadas mais profundas do que modelos mais fracos (ex: LLaVA-1.5), estendendo seu horizonte de informação.

4. Contribuições e Solução Proposta

Com base na descoberta do horizonte de informação, os autores propõem uma estratégia híbrida simples e eficaz:

Integração de Poda Aleatória: Em vez de tentar identificar tokens importantes em camadas profundas (onde a informação é nula), a estratégia proposta é:
1. Usar métodos de poda existentes (baseados em importância ou diversidade) nas camadas rasas para reter tokens de alta informação.
2. Aplicar poda aleatória nas camadas profundas (após o horizonte de informação) para eliminar tokens redundantes sem custo computacional adicional de cálculo de atenção.
Vantagem sobre VTW (Visual Token Withdrawal): Diferente de métodos anteriores que removem todos os tokens após uma camada fixa, a poda aleatória mantém uma pequena fração de tokens, permitindo flexibilidade para tarefas complexas que podem precisar de informações residuais em camadas muito profundas.

5. Resultados Experimentais

Os experimentos foram realizados em modelos como LLaVA-1.5-7B e Qwen2.5-VL-7B em diversos benchmarks (MME, TextVQA, OCRBench, ScienceQA, etc.):

Desempenho Superior: A combinação de poda aleatória com métodos existentes (ex: DivPrune + Random ou DART + Random) superou consistentemente os métodos originais e a poda puramente aleatória.
- Exemplo 1 (Qwen2.5-VL-7B): DivPrune + Random manteve 96.9% do desempenho original do modelo enquanto removia 50% dos tokens visuais, superando o DivPrune puro (96.7%).
- Exemplo 2 (LLaVA-1.5-7B): DivPrune + Random melhorou a precisão no MMBench em 6.7% comparado ao DivPrune sozinho (61.3% vs 54.6%).
Eficiência Computacional:
- A abordagem reduz significativamente a latência de inferência e o uso de memória (FLOPs e armazenamento de cache).
- No LLaVA-1.5, a combinação DART + Random reduziu a latência CUDA para 0.6x do original, mantendo 91.6% do desempenho, e é compatível com implementações rápidas de atenção como FlashAttention (o que métodos baseados em atenção direta, como FastV, não suportam bem).

6. Significado e Impacto

Este trabalho oferece uma mudança de paradigma na compreensão da poda de tokens em VLLMs:

Teórico: Demonstra que a "redundância" em camadas profundas não é apenas sobre tokens serem similares, mas sobre a informação útil ter desaparecido (chegado a zero).
Prático: A solução de integrar poda aleatória em camadas profundas é uma estratégia de baixo custo computacional que equilibra eficiência e precisão de forma superior, adaptando-se dinamicamente à complexidade da tarefa e à capacidade do modelo.
Reprodutibilidade: O código foi disponibilizado publicamente, facilitando a adoção dessa técnica na comunidade de IA.

Em resumo, o artigo prova que, em camadas profundas de VLLMs, tentar ser "inteligente" na seleção de tokens é inútil; a estratégia mais eficiente é simplesmente descartar aleatoriamente, pois a informação visual já se esgotou.

When Token Pruning is Worse than Random: Understanding Visual Token Information in VLLMs

O Grande Descobrimento: Quando "Sorte" é Melhor que "Estratégia"

A Analogia do "Horizonte da Informação"

Por que isso muda tudo?

A Solução Simples: A Mistura Perfeita

Resumo em uma frase

Resumo Técnico: Quando o Poda de Tokens é Pior que o Aleatório

1. Problema Identificado

2. Metodologia e Definição de Informação do Token

3. Descobertas Principais: O "Horizonte de Informação"

4. Contribuições e Solução Proposta

5. Resultados Experimentais

6. Significado e Impacto

Mais como este

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers