EvoPrune: Early-Stage Visual Token Pruning for Efficient MLLMs

Each language version is independently generated for its own context, not a direct translation.

🚀 O Problema: A "Festa" de Tokens que Travou a Máquina

Imagine que você tem um Cérebro de IA (um Modelo de Linguagem Multimodal, ou MLLM) super inteligente, capaz de ver fotos e vídeos e responder perguntas sobre eles.

O problema é que, quando esse cérebro tenta "ver" uma imagem de alta resolução ou um vídeo longo, ele transforma cada pedacinho da imagem em um Token (uma pequena nota mental).

Uma foto simples: São como 100 notas.
Um vídeo longo ou uma foto 4K: São como 10.000 notas!

O cérebro da IA precisa ler todas essas notas antes de começar a pensar na resposta. Isso é como tentar ler um livro inteiro de 1.000 páginas antes de conseguir responder a uma pergunta simples sobre a capa. O processo fica lento, gasta muita energia e a máquina "trava" (latência alta).

🛠️ A Solução Antiga: Cortar no Final

Os métodos antigos tentavam resolver isso assim:

A máquina lê todas as 10.000 notas (o que já gasta muito tempo e energia).
Só depois de ler tudo, ela joga fora as notas repetidas ou inúteis.
Só então ela começa a responder.

O problema: Você já gastou a energia lendo as notas inúteis. É como contratar um detetive para ler 10.000 páginas de um diário, só para depois dizer: "Ah, as páginas 1 a 9.000 eram só sobre o tempo, vamos ignorar". O trabalho já foi feito em vão.

✂️ A Inovação: O EvoPrune (O "Poda" no Início)

O EvoPrune muda a regra do jogo. Em vez de esperar a máquina ler tudo, ele age durante a leitura, no próprio "olho" da máquina (o codificador visual).

Pense no EvoPrune como um editor de vídeo inteligente que trabalha enquanto você está filmando, e não depois.

Como funciona a mágica?

O EvoPrune usa uma estratégia de 3 filtros para decidir quais notas (tokens) manter e quais jogar fora enquanto a imagem está sendo processada:

Semelhança (O "Gêmeo"): Se duas notas dizem a mesma coisa (ex: "céu azul" e "céu azul"), ele joga uma fora. Não precisamos de duas cópias.
Diversidade (O "Especialista"): Ele garante que não jogue fora notas que trazem informações únicas. Se uma nota diz "gato" e outra diz "cachorro", ele mantém as duas, porque são diferentes e importantes.
Atenção (O "Foco"): Ele olha para onde a máquina está "olhando" com mais intensidade. Se a máquina está focada no rosto de uma pessoa, ele protege essa nota. Se está ignorando o fundo, ele pode podar o fundo.

🌳 A Analogia da Poda da Árvore

Imagine que a imagem é uma árvore gigante cheia de galhos e folhas.

Métodos Antigos: A árvore cresce inteira, você gasta energia regando cada folha, e só no final corta os galhos mortos.
EvoPrune: Você é um jardineiro experiente. Enquanto a árvore está crescendo (processando a imagem), você já vai podando os galhos que estão repetidos ou secos, antes que eles cresçam demais.
- Resultado: A árvore final é pequena, leve e fácil de carregar, mas ainda tem todas as flores e frutos importantes.

🏆 Os Resultados: Mais Rápido, Quase Sem Perder Qualidade

Os testes mostraram que o EvoPrune é incrível:

Velocidade: Em vídeos longos, ele deixou a resposta ser gerada 2 vezes mais rápido (o que é uma diferença enorme para aplicações em tempo real).
Qualidade: A inteligência da máquina caiu menos de 1%. Ou seja, ela ficou muito mais rápida, mas quase não perdeu a "inteligência".

💡 Resumo para Levar para Casa

O EvoPrune é como ter um assistente pessoal que não deixa você gastar tempo lendo coisas inúteis. Ele entra na conversa no início, diz: "Ei, essa parte da imagem é repetida, não precisa ler. E essa parte é importante, vamos guardar."

Isso permite que a Inteligência Artificial veja vídeos longos e fotos gigantes em tempo real, sem travar, tornando-a muito mais útil para o mundo real (como em carros autônomos, câmeras de segurança ou assistentes de vídeo ao vivo).

Each language version is independently generated for its own context, not a direct translation.

1. O Problema: Ineficiência em MLLMs de Alta Resolução

Os Modelos de Linguagem Multimodal (MLLMs) demonstraram desempenho excepcional em tarefas visão-linguagem. No entanto, sua eficiência de inferência é severamente limitada pelo crescimento exponencial do número de tokens visuais em cenários complexos, como imagens de alta resolução e vídeos longos.

Gargalo Computacional: O custo computacional e de memória explode tanto na fase de codificação visual (Visual Encoder) quanto no pré-preenchimento (prefill) do LLM.
Limitação das Abordagens Existentes: Os métodos atuais de poda de tokens (token pruning) operam predominantemente após a codificação visual completa.
- Isso significa que o encoder visual ainda processa todos os tokens redundantes, gerando um custo computacional desnecessário antes mesmo da poda ocorrer.
- Conforme a escala de entrada aumenta (ex: de 1 imagem para 64 quadros de vídeo), a proporção de tempo de inferência gasta no encoder visual aumenta drasticamente (de 64% para 74% do tempo total), tornando as técnicas de pós-codificação ineficazes para ganhos de velocidade significativos em grandes entradas.

2. Metodologia: EvoPrune

O EvoPrune propõe uma mudança de paradigma: realizar a poda de tokens durante a codificação visual (early-stage), integrando a fusão de tokens diretamente dentro das camadas do encoder visual.

Arquitetura e Fluxo:

Poda em Camadas (Layer-wise Pruning): Em vez de podar uma única vez no final, o EvoPrune distribui um orçamento de poda ( $R$ ) ao longo de várias camadas selecionadas do encoder visual.
Estratégia de Fusão Guiada por Pontuação (Score-Guided Token Merging): Em camadas específicas, pares de tokens são fundidos com base em uma matriz de pontuação composta por três critérios complementares:
- Semelhança Semântica (Similarity Attraction): Promove a fusão de tokens visualmente e semanticamente redundantes (baseado na similaridade de cosseno dos embeddings).
- Diversidade de Informação (Diversity Penalty): Penaliza a fusão de tokens que carregam conteúdo distinto, garantindo que a riqueza representacional seja mantida. Utiliza uma estimativa de densidade local para identificar tokens únicos.
- Preservação Baseada em Atenção (Attention Preservation): Identifica e protege tokens críticos para o raciocínio downstream. Tokens com alta importância derivada dos pesos de atenção são marcados como "críticos" e não podem ser fundidos.
Mecanismo de Seleção:
- Os tokens são divididos em dois grupos disjuntos ( $a$ e $b$ ).
- Calcula-se a pontuação de fusão entre pares cruzados.
- Os pares com as maiores pontuações são selecionados para fusão, respeitando os tokens críticos protegidos.
- O processo é iterativo e hierárquico, reduzindo progressivamente o conjunto de tokens enquanto preserva as informações discriminativas.

Alocação de Orçamento:

O artigo explora várias estratégias de alocação de orçamento de poda entre as camadas (ex: Mean, First, Last, Increasing, Decreasing). Os experimentos mostram que a estratégia "Skip" (poda em camadas alternadas) oferece o melhor equilíbrio, evitando a acumulação de erros de poda em estágios iniciais ou finais.

3. Contribuições Principais

Paradigma de Poda Precoce: Introdução de um método que atua na fase de codificação visual, resolvendo o gargalo de custo de codificação negligenciado por trabalhos anteriores.
Estratégia de Múltiplos Fatores: Desenvolvimento de uma abordagem de poda em camadas que integra similaridade, diversidade e sinais de atenção para maximizar a retenção de informação.
Validação Abrangente: Demonstração de que o EvoPrune supera os métodos existentes em eficiência de inferência sem sacrificar o desempenho da tarefa, especialmente em cenários de vídeo e alta resolução.
Plug-and-Play: O método não requer re-treinamento do modelo e pode ser integrado diretamente em arquiteturas MLLM existentes.

4. Resultados Experimentais

Os experimentos foram realizados em benchmarks de imagem (VQAv2, MME, MMBench) e vídeo (MVBench, LongVideoBench, Video-MME), utilizando modelos como LLaVA-1.5-7B e LLaVA-Video-7B.

Desempenho em Vídeo (Video-MME):
- O EvoPrune alcançou um aceleração de 2x na inferência (redução de latência de 50%) com menos de 1% de degradação de desempenho.
- Em cenários agressivos (retenção de apenas 16 tokens por quadro em 64 quadros), o método manteve 95,8% da precisão relativa, enquanto outros métodos sofreram quedas maiores ou tiveram ganhos de velocidade menores.
Eficiência de Pipeline:
- Diferente dos métodos concorrentes que aceleram apenas o LLM, o EvoPrune acelera o Encoder Visual (1,8x), os Módulos Intermediários (5x) e o Backbone do LLM (2x).
- Isso resulta em uma redução consistente do Time-To-First-Token (TTFT) em todo o pipeline.
Comparação com SOTA: O EvoPrune superou consistentemente métodos baseados em atenção (FasterVLM), similaridade (DivPrune, DART) e híbridas (VisPruner, CDPruner) no equilíbrio entre velocidade e precisão.

5. Significado e Impacto

O EvoPrune é significativo porque aborda a raiz do problema de eficiência em MLLMs: o custo da extração de características visuais. Ao mover a poda para a fase de codificação, o método permite:

Implantação em Tempo Real: Viabiliza a análise de vídeo em tempo real e em dispositivos de borda (edge computing), onde a latência é crítica.
Escalabilidade: Permite que modelos processem vídeos longos e imagens de ultra-alta resolução sem o custo computacional proibitivo atual.
Eficiência Energética: A redução drástica no número de operações de ponto flutuante (FLOPs) e no uso de memória contribui para uma computação mais sustentável.

Em resumo, o EvoPrune redefine a otimização de MLLMs ao demonstrar que a poda de tokens deve ser uma parte intrínseca e precoce do processo de codificação visual, e não apenas um passo de pós-processamento.