Variation-aware Vision Token Dropping for Faster Large Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um chef de cozinha extremamente talentoso (o Modelo de Visão e Linguagem) que precisa preparar pratos incríveis (responder perguntas) olhando para fotos ou vídeos.

O problema é que, quando o chef recebe uma foto de alta resolução ou um vídeo longo, ele tenta olhar para cada único pixel como se fosse um ingrediente separado. Se a foto tiver 576 pixels, ele tenta "mastigar" 576 pedaços de informação de uma vez só. Isso deixa a cozinha (o computador) sobrecarregada, a comida demora para sair e o chef fica cansado antes mesmo de começar a cozinhar.

Até agora, outros métodos tentavam ajudar o chef a escolher quais ingredientes olhar, mas eles tinham dois defeitos graves:

Eles eram "preconceituosos": Achavam que os ingredientes no final da lista eram sempre os mais importantes, ignorando o que estava no começo, mesmo que fosse crucial.
Eles usavam uma régua lenta: Para decidir o que jogar fora, eles precisavam fazer cálculos complexos que, ironicamente, deixavam a cozinha ainda mais lenta e ocupada.

A Solução: O "V2Drop" (O Filtro Inteligente)

Os autores deste paper criaram uma nova técnica chamada V2Drop. Pense nela como um assistente de cozinha superobservador que não olha para a posição do ingrediente, mas sim para a agitação dele.

Aqui está a analogia principal:

1. A Ideia do "Movimento" (Variação)

Imagine que você está em uma sala cheia de pessoas (os "tokens" ou pedaços da imagem).

Algumas pessoas estão sentadas quietas, olhando para o nada, não fazendo nada de interessante. Elas são inúteis para a conversa.
Outras pessoas estão gesticulando, apontando para algo, mudando de expressão, discutindo. Elas estão ativas e carregam a informação importante.

O V2Drop não se importa se a pessoa está sentada no canto esquerdo ou direito da sala. Ele apenas pergunta: "Quem está se mexendo?"

Se um pedaço da imagem (um token) permanece quase o mesmo do início ao fim do processamento, o V2Drop diz: "Ah, esse pedaço é chato, não está aprendendo nada novo. Vamos dispensá-lo."
Se um pedaço da imagem muda muito, fica diferente a cada camada de processamento, o V2Drop diz: "Esse aqui está trabalhando duro! Vamos mantê-lo!"

2. Por que isso é melhor?

Sem Preconceito de Posição: Diferente dos métodos antigos que só olhavam para o final da lista, o V2Drop olha para todo o mundo com justiça. Se a informação importante estiver no canto superior esquerdo da foto, ele vai vê-la e mantê-la.
Mais Rápido e Leve: Como ele não precisa fazer aqueles cálculos complexos de "atenção" (que são como fazer uma lista de quem olhou para quem), ele simplesmente mede a "agitação" (variação) e joga fora os quietos. Isso economiza muita energia e tempo.

O Resultado na Prática

O paper mostra que, ao usar esse método:

Para Imagens: O modelo fica 1,3 vezes mais rápido, mantendo 94% da inteligência original. É como se o chef pudesse preparar o prato com menos ingredientes, mas o sabor fosse quase idêntico.
Para Vídeos: A economia é ainda maior! O modelo fica 1,87 vezes mais rápido, mantendo 98,6% da qualidade. Para vídeos longos, onde há milhares de quadros, isso é como tirar o peso de uma mochila gigante e deixar o chef correr livremente.

Resumo em uma frase

O V2Drop é como um filtro inteligente que identifica e remove as partes "preguiçosas" e estáticas de uma imagem ou vídeo, mantendo apenas as partes "ativas" e importantes, permitindo que a inteligência artificial seja muito mais rápida sem perder a capacidade de entender o mundo.

Each language version is independently generated for its own context, not a direct translation.

Título: V2Drop: Eliminação de Tokens Visuais Consciente de Variação para Modelos de Linguagem e Visão (LVLMs) Mais Rápidos

1. O Problema

Os Modelos de Linguagem e Visão (LVLMs) demonstraram capacidades notáveis em tarefas de compreensão multimodal. No entanto, a demanda crescente por imagens de alta resolução e compreensão de vídeos longos resulta em um número massivo de tokens visuais. Isso gera:

Ineficiência Computacional: O aumento quadrático na complexidade computacional e no uso de memória.
Limitações de Métodos Atuais: As técnicas existentes de compressão de tokens (especialmente as que ocorrem dentro do LLM, como FastV, SparseVLM e PDrop) dependem de pesos de atenção para selecionar quais tokens manter. Isso apresenta duas falhas críticas:
1. Viés Posicional: Esses métodos tendem a priorizar tokens nas posições finais da sequência (independentemente do conteúdo), descartando informações importantes no início e mantendo redundâncias no final, o que pode agravar alucinações multimodais.
2. Incompatibilidade com Operadores Eficientes: O cálculo explícito de pesos de atenção é incompatível com mecanismos de atenção otimizados como o FlashAttention, impedindo ganhos reais de velocidade e, em alguns casos, aumentando o uso de memória de pico.

2. Metodologia (V2Drop)

O artigo propõe uma mudança de paradigma: em vez de depender de sinais externos (atenção), o método analisa as propriedades intrínsecas dos tokens visuais.

Insight Central: Os autores observaram que tokens visuais que participam ativamente do raciocínio do modelo exibem variações significativas em suas representações entre camadas consecutivas do LLM. Por outro lado, tokens "preguiçosos" (lazy tokens), que não contribuem para a previsão final, permanecem relativamente estáticos.
Métrica de Variação: O método calcula a variação de cada token visual entre camadas adjacentes do transformador do LLM. A métrica padrão utilizada é a Distância L2 (norma L2 da diferença entre as representações das camadas $l$ $l$ e $l-1$ $l - 1$ ).
- $\text{Var}(f_i^{(l-1)}, f_i^{(l)}) = \|f_i^{(l)} - f_i^{(l-1)}\|_2$
Estratégia de Eliminação Progressiva:
- O V2Drop opera em múltiplas camadas estratégicas do LLM (inicial, média e profunda).
- Em cada camada de poda, os tokens são classificados pela magnitude de sua variação.
- Os tokens com menor variação (os menos informativos) são descartados progressivamente, enquanto os de alta variação são mantidos.
- Isso elimina o viés posicional, pois a importância é determinada pelo comportamento dinâmico do token, não pela sua posição na sequência.
Compatibilidade: Como não requer o cálculo de pesos de atenção, o V2Drop é totalmente compatível com FlashAttention e não introduz sobrecarga de memória significativa.

3. Contribuições Principais

Análise Sistemática de Padrões de Variação: Primeira análise abrangente mostrando que a magnitude da variação de tokens visuais dentro de LVLMs correlaciona-se diretamente com a relevância da tarefa e reflete a importância do token, independentemente da posição.
Método V2Drop: Proposição de uma técnica de compressão plug-and-play (sem necessidade de re-treinamento) que elimina o viés posicional e é compatível com operadores de atenção eficientes.
Análise Teórica: Estabelecimento de uma conexão teórica (via expansão de Taylor de primeira ordem) entre a magnitude da variação do token e sua influência na saída do modelo, validando que tokens com baixa variação têm impacto negligenciável no resultado final.
Desempenho Superior: Demonstração experimental de que o método supera o estado da arte em eficiência e precisão.

4. Resultados Experimentais

Os experimentos foram realizados em diversos modelos (LLaVA-1.5, Qwen2-VL, LLaVA-OneVision) e benchmarks (GQA, MME, MMBench, VideoMME, etc.).

Desempenho em Imagens:
- Ao reter apenas 33,3% dos tokens originais (redução de 66,7%), o V2Drop manteve 97,6% do desempenho original em tarefas de compreensão de imagem.
- Superou métodos concorrentes como PDrop e SparseVLM em todos os benchmarks testados.
Desempenho em Vídeo:
- Em tarefas de vídeo longo, o V2Drop manteve 98,6% do desempenho original com apenas 25% de retenção de tokens.
- Demonstrou robustez superior em vídeos longos (VideoMME), mitigando o problema de viés posicional que afeta outros modelos.
Eficiência e Latência:
- Redução de Latência: Redução de 31,5% na latência de geração do LLM para imagens e 74,2% para vídeos.
- Aceleração: Aceleração de 1,30x em imagens e 1,87x em vídeos.
- Memória: Ao contrário de métodos que usam atenção explícita (que podem aumentar o uso de memória em até 54%), o V2Drop mantém o uso de memória de pico comparável à eliminação aleatória, sendo altamente eficiente.

5. Significado e Impacto

O V2Drop representa um avanço significativo na otimização de LVLMs para implantação prática. Ao eliminar a dependência de pesos de atenção e o viés posicional, o método oferece:

Escalabilidade: Permite que modelos processem imagens de ultra-alta resolução e vídeos longos sem custos computacionais proibitivos.
Eficiência de Hardware: A compatibilidade nativa com FlashAttention e a ausência de sobrecarga de memória tornam a solução ideal para GPUs com recursos limitados.
Generalização: A abordagem baseada em variação intrínseca é agnóstica à arquitetura do modelo e à tarefa, funcionando bem tanto para compreensão estática quanto dinâmica (vídeo).

Em resumo, o V2Drop resolve o dilema entre eficiência e precisão em LVLMs, provando que a análise do comportamento dinâmico dos tokens é uma métrica superior e mais robusta para compressão do que os sinais de atenção tradicionais.

Variation-aware Vision Token Dropping for Faster Large Vision-Language Models

A Solução: O "V2Drop" (O Filtro Inteligente)

1. A Ideia do "Movimento" (Variação)

2. Por que isso é melhor?

O Resultado na Prática

Resumo em uma frase

Título: V2Drop: Eliminação de Tokens Visuais Consciente de Variação para Modelos de Linguagem e Visão (LVLMs) Mais Rápidos

1. O Problema

2. Metodologia (V2Drop)

3. Contribuições Principais

4. Resultados Experimentais

5. Significado e Impacto

Mais como este

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation