EntropyPrune: Matrix Entropy Guided Visual Token Pruning for Multimodal Large Language Models

O artigo apresenta o EntropyPrune, um novo quadro de poda de tokens visuais para Modelos de Linguagem Multimodal Grandes (MLLMs) que utiliza uma perspectiva de entropia matricial para identificar automaticamente a camada ideal de poda e quantificar o valor da informação dos tokens, alcançando uma redução significativa nos FLOPs com perda mínima de desempenho e sem depender de mapas de atenção.

Yahong Wang, Juncheng Wu, Zhangkai Ni, Chengmei Yang, Yihang Liu, Longzhen Yang, Yuyin Zhou, Ying Wen, Lianghua He

Publicado 2026-02-20
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um chef de cozinha extremamente talentoso (o Modelo de Linguagem Multimodal) que recebe uma foto de um prato e precisa descrevê-lo ou responder perguntas sobre ele.

O problema é que, para analisar a foto, o chef recebe não apenas a imagem, mas 576 pedaços minúsculos de informação (chamados "tokens") sobre cada detalhe daquela foto. É como se alguém entregasse ao chef 576 notas de papel, cada uma descrevendo uma única gota de molho ou uma única folha de salsa.

Para processar todas essas 576 notas, o chef gasta muita energia, tempo e paciência. Muitas dessas notas são redundantes (várias descrevem a mesma folha de salsa) ou irrelevantes (descrevem o fundo da mesa que não importa).

Aqui entra o EntropyPrune, a solução proposta neste artigo. Vamos explicar como ele funciona usando uma analogia simples:

1. O Problema: O "Ruído" na Cozinha

Atualmente, os chefs (modelos de IA) tentam ler todas as 576 notas. Isso é lento e caro. Alguns métodos anteriores tentam cortar notas aleatoriamente ou baseados em regras fixas (ex: "sempre corte as notas da metade da lista"). Mas isso é como jogar fora ingredientes sem saber se são importantes ou não. Às vezes, você joga fora a nota que diz "o sal está em falta" e o prato fica sem graça.

2. A Descoberta: O "Colapso de Entropia" (O Momento da Verdade)

Os autores do artigo descobriram algo fascinante sobre como o chef processa essas notas. Eles observaram que, assim que o chef começa a ler as notas, ele passa por uma fase de "confusão" ou "exploração" nas primeiras camadas de processamento.

Mas, de repente, em uma camada específica (chamada de Camada de Colapso de Entropia), algo mágico acontece:

  • As notas que eram cheias de informações variadas e ricas começam a se tornar repetitivas e vazias.
  • É como se o chef, após ler as primeiras 2 páginas do livro de receitas, percebesse que as próximas 500 páginas são apenas cópias da mesma coisa.

O EntropyPrune identifica exatamente esse ponto de virada. Ele diz: "Pare! A partir daqui, a informação nova desapareceu. O resto é apenas ruído."

3. A Solução: O Filtro Inteligente

Em vez de cortar notas aleatoriamente, o EntropyPrune usa uma "balança de informação" chamada Entropia de Matriz.

  • Como funciona: Ele olha para cada nota (token) e pergunta: "Quanta informação única e valiosa esta nota carrega?"
  • A Analogia: Imagine que cada nota é um aluno em uma sala de aula.
    • Alguns alunos estão gritando coisas novas e importantes (Alta Entropia).
    • Outros estão apenas repetindo o que o colega disse ou cochilando (Baixa Entropia).
  • O EntropyPrune mantém os alunos que gritam coisas novas e pede para os que estão repetindo saírem da sala.

Isso é feito sem precisar de regras manuais ou de olhar para onde o chef está "olhando" (mapas de atenção), o que torna o processo mais limpo e eficiente.

4. O Truque de Velocidade: O "Espelho Mágico"

Calcular se uma nota é importante ou não é matematicamente complexo e demorado. Seria como ter que pesar cada grão de areia individualmente.

Os autores usaram um truque matemático genial (chamado de Aceleração Espectral). Eles descobriram que, em vez de pesar cada grão de areia (o que é lento), podem usar um "espelho" matemático para ver o peso total de uma vez só.

  • Resultado: Isso torna o cálculo 64 vezes mais rápido. É como trocar de uma balança de precisão lenta para um scanner de raio-x instantâneo.

5. Os Resultados: Mais Rápido, Mesmo Sabor

O teste mostrou que, ao usar o EntropyPrune:

  • O modelo pode descartar mais de 77% das notas (tokens).
  • O trabalho do computador cai drasticamente (economiza muita energia e tempo).
  • O mais importante: O chef continua respondendo tão bem quanto antes! Na verdade, em alguns casos, ele até responde melhor, porque não está mais distraído com o "ruído" das notas inúteis.

Resumo em uma frase:

O EntropyPrune é como um assistente de cozinha superinteligente que, no momento exato em que a receita fica repetitiva, joga fora 80% dos ingredientes inúteis, permitindo que o chef cozinhe a mesma refeição deliciosa em um quarto do tempo e com metade da energia.

Por que isso importa?
Isso permite que modelos de IA muito poderosos rodem em celulares, laptops e dispositivos mais simples, sem precisar de servidores gigantes e caros, tornando a inteligência artificial mais acessível e ecológica.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →