EvoPrune: Early-Stage Visual Token Pruning for Efficient MLLMs

O artigo apresenta o EvoPrune, um método de poda de tokens visuais em estágios iniciais que otimiza a eficiência de modelos multimodais grandes (MLLMs) ao reduzir o custo computacional durante a codificação visual, alcançando um aumento de duas vezes na velocidade de inferência com degradação mínima de desempenho.

Yuhao Chen, Bin Shan, Xin Ye, Cheng Chen

Publicado 2026-03-05
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

🚀 O Problema: A "Festa" de Tokens que Travou a Máquina

Imagine que você tem um Cérebro de IA (um Modelo de Linguagem Multimodal, ou MLLM) super inteligente, capaz de ver fotos e vídeos e responder perguntas sobre eles.

O problema é que, quando esse cérebro tenta "ver" uma imagem de alta resolução ou um vídeo longo, ele transforma cada pedacinho da imagem em um Token (uma pequena nota mental).

  • Uma foto simples: São como 100 notas.
  • Um vídeo longo ou uma foto 4K: São como 10.000 notas!

O cérebro da IA precisa ler todas essas notas antes de começar a pensar na resposta. Isso é como tentar ler um livro inteiro de 1.000 páginas antes de conseguir responder a uma pergunta simples sobre a capa. O processo fica lento, gasta muita energia e a máquina "trava" (latência alta).

🛠️ A Solução Antiga: Cortar no Final

Os métodos antigos tentavam resolver isso assim:

  1. A máquina lê todas as 10.000 notas (o que já gasta muito tempo e energia).
  2. depois de ler tudo, ela joga fora as notas repetidas ou inúteis.
  3. Só então ela começa a responder.

O problema: Você já gastou a energia lendo as notas inúteis. É como contratar um detetive para ler 10.000 páginas de um diário, só para depois dizer: "Ah, as páginas 1 a 9.000 eram só sobre o tempo, vamos ignorar". O trabalho já foi feito em vão.

✂️ A Inovação: O EvoPrune (O "Poda" no Início)

O EvoPrune muda a regra do jogo. Em vez de esperar a máquina ler tudo, ele age durante a leitura, no próprio "olho" da máquina (o codificador visual).

Pense no EvoPrune como um editor de vídeo inteligente que trabalha enquanto você está filmando, e não depois.

Como funciona a mágica?

O EvoPrune usa uma estratégia de 3 filtros para decidir quais notas (tokens) manter e quais jogar fora enquanto a imagem está sendo processada:

  1. Semelhança (O "Gêmeo"): Se duas notas dizem a mesma coisa (ex: "céu azul" e "céu azul"), ele joga uma fora. Não precisamos de duas cópias.
  2. Diversidade (O "Especialista"): Ele garante que não jogue fora notas que trazem informações únicas. Se uma nota diz "gato" e outra diz "cachorro", ele mantém as duas, porque são diferentes e importantes.
  3. Atenção (O "Foco"): Ele olha para onde a máquina está "olhando" com mais intensidade. Se a máquina está focada no rosto de uma pessoa, ele protege essa nota. Se está ignorando o fundo, ele pode podar o fundo.

🌳 A Analogia da Poda da Árvore

Imagine que a imagem é uma árvore gigante cheia de galhos e folhas.

  • Métodos Antigos: A árvore cresce inteira, você gasta energia regando cada folha, e só no final corta os galhos mortos.
  • EvoPrune: Você é um jardineiro experiente. Enquanto a árvore está crescendo (processando a imagem), você já vai podando os galhos que estão repetidos ou secos, antes que eles cresçam demais.
    • Resultado: A árvore final é pequena, leve e fácil de carregar, mas ainda tem todas as flores e frutos importantes.

🏆 Os Resultados: Mais Rápido, Quase Sem Perder Qualidade

Os testes mostraram que o EvoPrune é incrível:

  • Velocidade: Em vídeos longos, ele deixou a resposta ser gerada 2 vezes mais rápido (o que é uma diferença enorme para aplicações em tempo real).
  • Qualidade: A inteligência da máquina caiu menos de 1%. Ou seja, ela ficou muito mais rápida, mas quase não perdeu a "inteligência".

💡 Resumo para Levar para Casa

O EvoPrune é como ter um assistente pessoal que não deixa você gastar tempo lendo coisas inúteis. Ele entra na conversa no início, diz: "Ei, essa parte da imagem é repetida, não precisa ler. E essa parte é importante, vamos guardar."

Isso permite que a Inteligência Artificial veja vídeos longos e fotos gigantes em tempo real, sem travar, tornando-a muito mais útil para o mundo real (como em carros autônomos, câmeras de segurança ou assistentes de vídeo ao vivo).