HiDrop: Hierarchical Vision Token Reduction in MLLMs via Late Injection, Concave Pyramid Pruning, and Early Exit

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um assistente muito inteligente (um Modelo de Linguagem Multimodal) que consegue ver fotos e responder perguntas sobre elas. O problema é que, para "ver" uma foto, esse assistente precisa quebrar a imagem em milhares de pedacinhos chamados tokens.

Pense nesses tokens como uma multidão de pessoas em um estádio gritando informações ao mesmo tempo. Quanto mais pessoas (tokens) houver, mais barulhento e lento fica o processamento. O modelo atual tenta ouvir todos os 576 pedacinhos da imagem em todas as etapas do raciocínio, o que gasta muita energia e tempo, mesmo que 90% dessas pessoas estejam apenas repetindo o que os outros já disseram ou gritando coisas irrelevantes.

O papel HiDrop é como um novo gerente de estádio que aprendeu a gerenciar essa multidão de forma muito mais inteligente. Em vez de deixar todos gritarem o tempo todo, ele usa três estratégias principais para silenciar o barulho desnecessário sem perder a informação importante.

Aqui está como o HiDrop funciona, explicado com analogias do dia a dia:

1. O Problema: A Multidão Desnecessária

Atualmente, os modelos tratam a imagem inteira do início ao fim. É como se você tivesse que ler um livro inteiro, página por página, para entender apenas a última frase de um capítulo.

Camadas Rasas (Início): O modelo olha para a imagem logo de cara, mas na verdade, a "mágica" da compreensão ainda não começou. É como se o assistente estivesse apenas olhando para a foto sem processar nada.
Camadas Profundas (Fim): No final, o modelo já entendeu a imagem e está apenas escrevendo a resposta em texto. Continuar olhando para a foto aqui é como tentar ler um mapa enquanto você já está dirigindo na estrada certa; você só precisa focar na estrada.

2. A Solução: O Sistema HiDrop

O HiDrop muda as regras do jogo com três movimentos de mestre:

A. Injeção Tardia (Late Injection) – "Não acorde o bebê antes da hora"

A analogia: Imagine que você está preparando um bolo. Você não joga todos os ingredientes na tigela de uma vez só no início. Você espera até o momento certo para adicionar o ingrediente principal (a imagem) para que ele se misture perfeitamente.
Como funciona: O HiDrop percebe que, no início do raciocínio, o modelo só precisa do texto. Então, ele não mostra a imagem nas primeiras camadas. Ele ignora a foto completamente até que o modelo esteja pronto para realmente "conversar" com ela. Isso economiza muita energia no início, pois o modelo não precisa processar pixels inúteis enquanto está apenas pensando no texto.

B. Poda em Pirâmide Côncava (Concave Pyramid Pruning) – "O filtro de café inteligente"

A analogia: Imagine que você tem uma xícara cheia de grãos de café (os tokens da imagem). No começo, você precisa de todos eles. Mas, conforme você passa o café pelo filtro, a maior parte dos grãos inúteis fica retida. O HiDrop faz isso de forma dinâmica: ele remove os tokens "chatos" e repetitivos rapidamente no meio do processo, mas deixa os mais importantes por mais tempo.
Como funciona: No meio do raciocínio, onde a imagem e o texto se misturam, o modelo identifica quais pedacinhos da imagem são realmente importantes (como um rosto ou um objeto chave) e descarta os outros (como o fundo da foto). Ele faz isso de forma suave e adaptável, não cortando tudo de uma vez, mas sim "afinando" a imagem gradualmente.

C. Saída Antecipada (Early Exit) – "Sair da sala quando a festa acaba"

A analogia: Imagine que você foi a uma festa. No início, você precisa ver as pessoas e ouvir a música. Mas, quando a festa acaba e você está apenas esperando o Uber, você não precisa mais ficar olhando para os convidados. Você pode sair.
Como funciona: Assim que o modelo entende a imagem e começa a formular a resposta final (o texto), ele descarta completamente a imagem. Ele não precisa mais olhar para a foto para escrever a última frase. Isso libera o modelo para trabalhar apenas com texto, que é muito mais rápido e barato computacionalmente.

3. O Resultado: Mais Rápido, Mais Leve, Igual de Inteligente

O HiDrop consegue:

Eliminar 90% dos "gritos" da imagem: Ele reduz o número de pedacinhos da imagem que o modelo precisa processar em quase 90%.
Manter a inteligência: Mesmo com menos dados, o modelo continua respondendo tão bem quanto antes.
Treinar 1,7x mais rápido: Como o modelo não precisa processar tanta informação desnecessária, ele aprende muito mais rápido.

Resumo da Ópera

O HiDrop é como um gerente de trânsito inteligente para a visão do computador. Em vez de deixar todos os carros (tokens de imagem) entrarem na cidade e ficarem presos no congestionamento o tempo todo, ele:

Impede que os carros entrem antes da hora certa (Injeção Tardia).
Remove os carros que estão apenas andando em círculos no meio do caminho (Poda Inteligente).
Faz os carros saírem da cidade assim que o destino é alcançado (Saída Antecipada).

O resultado é uma cidade (o modelo) que flui muito mais rápido, gasta menos combustível (energia computacional) e chega ao mesmo destino com a mesma qualidade.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: HiDrop

1. O Problema

Os Modelos de Linguagem Grandes Multimodais (MLLMs) enfrentam um gargalo computacional significativo devido ao processamento de tokens de visão. Como os codificadores visuais geram um número muito maior de tokens em comparação com o texto (devido à alta densidade de informação das imagens), o custo computacional da atenção auto-regressiva escala quadraticamente ( $O(N^2)$ ) em relação ao número de tokens.

Embora o poda progressivo de tokens de visão (progressive vision token pruning) seja uma solução promissora, os métodos atuais apresentam duas falhas fundamentais:

Interpretação Incorreta das Camadas Rasas: Acreditava-se que as camadas iniciais do LLM eram críticas para a integração multimodal e, portanto, deviam ser preservadas.
Agendamentos de Poda Rígidos: Métodos existentes (como FastV, PDrop) utilizam taxas de poda fixas e uniformes (esquemas piramidais rígidos), ignorando a dinâmica não uniforme do fluxo de informação visual ao longo das camadas.

2. Metodologia: A Análise de Dinâmica Hierárquica

Os autores realizaram uma análise profunda da dinâmica interna do MLLM (usando LLaVA-1.5-7B como base) para entender como a informação visual é processada em diferentes camadas:

Camadas Rasas (Propagadores Passivos): As representações dos tokens visuais sofrem pouca transformação e a influência cruzada (texto-para-imagem) é negligenciável. Essas camadas atuam apenas como condutores, não como integradores ativos.
Camadas Intermediárias (Hubs de Fusão Esparsa): É aqui que ocorre a integração ativa. No entanto, a fusão é altamente esparsa; apenas um subconjunto pequeno de tokens visuais chave é necessário para ancorar as representações textuais, tornando a maioria dos outros tokens redundantes.
Camadas Profundas (Raciocínio Dominado por Linguagem): Após a fusão nas camadas intermediárias, a rede transita para um regime dominado pela linguagem. Os tokens visuais tornam-se desnecessários para o raciocínio final.

3. A Solução: Framework HiDrop

Com base nessas descobertas, o HiDrop (Hierarchical Vision Token Dropping) foi proposto para alinhar a poda de tokens com a função hierárquica real das camadas do MLLM. O framework consiste em três inovações principais:

A. Injeção Tardia (Late Injection)

Conceito: Em vez de processar tokens visuais desde a primeira camada, o HiDrop bypassa as camadas rasas (propagadores passivos).
Mecanismo: Os tokens visuais são injetados apenas no início da fase de fusão ativa (identificada como o mínimo local na curva de similaridade entre camadas, ex: camada 9).
Benefício: Elimina o custo computacional desnecessário de processar tokens visuais em camadas onde eles não contribuem para a integração.

B. Poda Piramidal Côncava com Saída Antecipada (Concave Pyramid Pruning & Early Exit)

Poda Piramidal Côncava: Dentro da "janela de processamento de visão" (camadas intermediárias), o método aplica uma taxa de poda não uniforme. A redução é agressiva no início da fusão e desacelera gradualmente, preservando informações essenciais.
Saída Antecipada (Early Exit): Assim que a fusão é concluída e a rede entra no regime de raciocínio linguístico, todos os tokens visuais remanescentes são descartados (ex: após a camada 25).
Seleção de Camadas (ILVAS): O método utiliza uma métrica chamada Similaridade de Atenção Visual Inter-Camada (ILVAS) para identificar as camadas onde a importância dos tokens se estabiliza, definindo os pontos ideais para a poda.
Seleção de Tokens (Differentiable Top-K): Para escolher quais tokens manter, o HiDrop emprega um operador Top-K diferenciável. Isso permite uma seleção suave e adaptável durante o treinamento, superando as limitações de seleção "hard" (não diferenciável) de métodos anteriores.

C. Otimizações de Implementação
Para garantir eficiência prática e evitar sobrecarga oculta:

Codificação Posicional Persistente: Atribui identificadores posicionais fixos aos tokens visuais no momento da entrada, preservando a consistência geométrica mesmo com a injeção tardia e a poda progressiva.
Compatibilidade com FlashAttention: A seleção de tokens é desacoplada do cálculo principal de atenção, permitindo o uso de kernels eficientes como FlashAttention.
Desacoplamento Paralelo: A computação relacionada à visão (codificador e projetor) é executada em paralelo com o pré-preenchimento de texto, reduzindo a latência.

4. Resultados Experimentais

Os experimentos foram realizados no modelo LLaVA-1.5-7B e em outros backbones (MobileLLaMA, Vicuna-13B), comparando com o estado da arte (SOTA) como FastV, PDrop e TwigVLM.

Compressão Extrema: O HiDrop consegue comprimir ~90% dos tokens visuais (reduzindo de 576 para ~64 tokens em média) mantendo o desempenho original.
Desempenho:
- Mantém 98,3% do desempenho do modelo base (LLaVA-1.5-7B) com 88,9% de poda.
- Supera consistentemente todos os métodos concorrentes em 11 benchmarks principais (MMEP, MMB, GQA, VQAv2, etc.).
Eficiência:
- Aceleração no Treinamento: Redução de 1,72x no tempo de treinamento (de 159,3 para 94,4 horas GPU).
- Redução de FLOPs: Redução de 88,9% nos FLOPs de inferência para a parte de visão.
- Latência: Redução significativa na latência de pré-preenchimento (prefill).

5. Contribuições e Significado

Mudança de Paradigma: O trabalho desafia a suposição de que as camadas rasas são essenciais para a integração multimodal, demonstrando que elas são redundantes para tokens visuais já processados.
Eficiência sem Perda de Precisão: Estabelece um novo estado da arte no trade-off eficiência-precisão, permitindo o uso de MLLMs em cenários com recursos limitados sem sacrificar a qualidade.
Insights Arquiteturais: Fornece uma compreensão mais profunda da natureza hierárquica da fusão multimodal, sugerindo que a computação pode ser alocada de forma muito mais seletiva do que o padrão atual.
Reprodutibilidade: O código foi liberado publicamente, facilitando a adoção e o desenvolvimento futuro de arquiteturas multimodais escaláveis.

Em suma, o HiDrop não é apenas uma técnica de compressão, mas uma reestruturação fundamental de como os tokens visuais devem ser injetados e gerenciados dentro de MLLMs, alinhando a computação com a dinâmica real de processamento de informação do modelo.