HiDrop: Hierarchical Vision Token Reduction in MLLMs via Late Injection, Concave Pyramid Pruning, and Early Exit

O HiDrop é um framework inovador para Multimodal Large Language Models (MLLMs) que reduz em cerca de 90% os tokens visuais e acelera o treinamento em 1,72 vezes, alinhando a poda dinâmica de tokens à função hierárquica das camadas do modelo por meio de injeção tardia, poda piramidal côncava e saída antecipada, sem comprometer o desempenho.

Hao Wu, Yingqi Fan, Jinyang Dai, Junlong Tong, Yunpu Ma, Xiaoyu Shen

Publicado 2026-03-02
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um assistente muito inteligente (um Modelo de Linguagem Multimodal) que consegue ver fotos e responder perguntas sobre elas. O problema é que, para "ver" uma foto, esse assistente precisa quebrar a imagem em milhares de pedacinhos chamados tokens.

Pense nesses tokens como uma multidão de pessoas em um estádio gritando informações ao mesmo tempo. Quanto mais pessoas (tokens) houver, mais barulhento e lento fica o processamento. O modelo atual tenta ouvir todos os 576 pedacinhos da imagem em todas as etapas do raciocínio, o que gasta muita energia e tempo, mesmo que 90% dessas pessoas estejam apenas repetindo o que os outros já disseram ou gritando coisas irrelevantes.

O papel HiDrop é como um novo gerente de estádio que aprendeu a gerenciar essa multidão de forma muito mais inteligente. Em vez de deixar todos gritarem o tempo todo, ele usa três estratégias principais para silenciar o barulho desnecessário sem perder a informação importante.

Aqui está como o HiDrop funciona, explicado com analogias do dia a dia:

1. O Problema: A Multidão Desnecessária

Atualmente, os modelos tratam a imagem inteira do início ao fim. É como se você tivesse que ler um livro inteiro, página por página, para entender apenas a última frase de um capítulo.

  • Camadas Rasas (Início): O modelo olha para a imagem logo de cara, mas na verdade, a "mágica" da compreensão ainda não começou. É como se o assistente estivesse apenas olhando para a foto sem processar nada.
  • Camadas Profundas (Fim): No final, o modelo já entendeu a imagem e está apenas escrevendo a resposta em texto. Continuar olhando para a foto aqui é como tentar ler um mapa enquanto você já está dirigindo na estrada certa; você só precisa focar na estrada.

2. A Solução: O Sistema HiDrop

O HiDrop muda as regras do jogo com três movimentos de mestre:

A. Injeção Tardia (Late Injection) – "Não acorde o bebê antes da hora"

A analogia: Imagine que você está preparando um bolo. Você não joga todos os ingredientes na tigela de uma vez só no início. Você espera até o momento certo para adicionar o ingrediente principal (a imagem) para que ele se misture perfeitamente.
Como funciona: O HiDrop percebe que, no início do raciocínio, o modelo só precisa do texto. Então, ele não mostra a imagem nas primeiras camadas. Ele ignora a foto completamente até que o modelo esteja pronto para realmente "conversar" com ela. Isso economiza muita energia no início, pois o modelo não precisa processar pixels inúteis enquanto está apenas pensando no texto.

B. Poda em Pirâmide Côncava (Concave Pyramid Pruning) – "O filtro de café inteligente"

A analogia: Imagine que você tem uma xícara cheia de grãos de café (os tokens da imagem). No começo, você precisa de todos eles. Mas, conforme você passa o café pelo filtro, a maior parte dos grãos inúteis fica retida. O HiDrop faz isso de forma dinâmica: ele remove os tokens "chatos" e repetitivos rapidamente no meio do processo, mas deixa os mais importantes por mais tempo.
Como funciona: No meio do raciocínio, onde a imagem e o texto se misturam, o modelo identifica quais pedacinhos da imagem são realmente importantes (como um rosto ou um objeto chave) e descarta os outros (como o fundo da foto). Ele faz isso de forma suave e adaptável, não cortando tudo de uma vez, mas sim "afinando" a imagem gradualmente.

C. Saída Antecipada (Early Exit) – "Sair da sala quando a festa acaba"

A analogia: Imagine que você foi a uma festa. No início, você precisa ver as pessoas e ouvir a música. Mas, quando a festa acaba e você está apenas esperando o Uber, você não precisa mais ficar olhando para os convidados. Você pode sair.
Como funciona: Assim que o modelo entende a imagem e começa a formular a resposta final (o texto), ele descarta completamente a imagem. Ele não precisa mais olhar para a foto para escrever a última frase. Isso libera o modelo para trabalhar apenas com texto, que é muito mais rápido e barato computacionalmente.

3. O Resultado: Mais Rápido, Mais Leve, Igual de Inteligente

O HiDrop consegue:

  • Eliminar 90% dos "gritos" da imagem: Ele reduz o número de pedacinhos da imagem que o modelo precisa processar em quase 90%.
  • Manter a inteligência: Mesmo com menos dados, o modelo continua respondendo tão bem quanto antes.
  • Treinar 1,7x mais rápido: Como o modelo não precisa processar tanta informação desnecessária, ele aprende muito mais rápido.

Resumo da Ópera

O HiDrop é como um gerente de trânsito inteligente para a visão do computador. Em vez de deixar todos os carros (tokens de imagem) entrarem na cidade e ficarem presos no congestionamento o tempo todo, ele:

  1. Impede que os carros entrem antes da hora certa (Injeção Tardia).
  2. Remove os carros que estão apenas andando em círculos no meio do caminho (Poda Inteligente).
  3. Faz os carros saírem da cidade assim que o destino é alcançado (Saída Antecipada).

O resultado é uma cidade (o modelo) que flui muito mais rápido, gasta menos combustível (energia computacional) e chega ao mesmo destino com a mesma qualidade.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →