Variation-aware Vision Token Dropping for Faster Large Vision-Language Models

O artigo apresenta o V²Drop, um método inovador de eliminação dinâmica de tokens visuais baseado na variação que acelera significativamente a inferência de Grandes Modelos Visuais-Linguísticos mantendo alto desempenho em tarefas de imagem e vídeo.

Junjie Chen, Xuyang Liu, Zichen Wen, Yiyu Wang, Siteng Huang, Honggang Chen

Publicado 2026-02-26
📖 3 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um chef de cozinha extremamente talentoso (o Modelo de Visão e Linguagem) que precisa preparar pratos incríveis (responder perguntas) olhando para fotos ou vídeos.

O problema é que, quando o chef recebe uma foto de alta resolução ou um vídeo longo, ele tenta olhar para cada único pixel como se fosse um ingrediente separado. Se a foto tiver 576 pixels, ele tenta "mastigar" 576 pedaços de informação de uma vez só. Isso deixa a cozinha (o computador) sobrecarregada, a comida demora para sair e o chef fica cansado antes mesmo de começar a cozinhar.

Até agora, outros métodos tentavam ajudar o chef a escolher quais ingredientes olhar, mas eles tinham dois defeitos graves:

  1. Eles eram "preconceituosos": Achavam que os ingredientes no final da lista eram sempre os mais importantes, ignorando o que estava no começo, mesmo que fosse crucial.
  2. Eles usavam uma régua lenta: Para decidir o que jogar fora, eles precisavam fazer cálculos complexos que, ironicamente, deixavam a cozinha ainda mais lenta e ocupada.

A Solução: O "V2Drop" (O Filtro Inteligente)

Os autores deste paper criaram uma nova técnica chamada V2Drop. Pense nela como um assistente de cozinha superobservador que não olha para a posição do ingrediente, mas sim para a agitação dele.

Aqui está a analogia principal:

1. A Ideia do "Movimento" (Variação)

Imagine que você está em uma sala cheia de pessoas (os "tokens" ou pedaços da imagem).

  • Algumas pessoas estão sentadas quietas, olhando para o nada, não fazendo nada de interessante. Elas são inúteis para a conversa.
  • Outras pessoas estão gesticulando, apontando para algo, mudando de expressão, discutindo. Elas estão ativas e carregam a informação importante.

O V2Drop não se importa se a pessoa está sentada no canto esquerdo ou direito da sala. Ele apenas pergunta: "Quem está se mexendo?"

  • Se um pedaço da imagem (um token) permanece quase o mesmo do início ao fim do processamento, o V2Drop diz: "Ah, esse pedaço é chato, não está aprendendo nada novo. Vamos dispensá-lo."
  • Se um pedaço da imagem muda muito, fica diferente a cada camada de processamento, o V2Drop diz: "Esse aqui está trabalhando duro! Vamos mantê-lo!"

2. Por que isso é melhor?

  • Sem Preconceito de Posição: Diferente dos métodos antigos que só olhavam para o final da lista, o V2Drop olha para todo o mundo com justiça. Se a informação importante estiver no canto superior esquerdo da foto, ele vai vê-la e mantê-la.
  • Mais Rápido e Leve: Como ele não precisa fazer aqueles cálculos complexos de "atenção" (que são como fazer uma lista de quem olhou para quem), ele simplesmente mede a "agitação" (variação) e joga fora os quietos. Isso economiza muita energia e tempo.

O Resultado na Prática

O paper mostra que, ao usar esse método:

  • Para Imagens: O modelo fica 1,3 vezes mais rápido, mantendo 94% da inteligência original. É como se o chef pudesse preparar o prato com menos ingredientes, mas o sabor fosse quase idêntico.
  • Para Vídeos: A economia é ainda maior! O modelo fica 1,87 vezes mais rápido, mantendo 98,6% da qualidade. Para vídeos longos, onde há milhares de quadros, isso é como tirar o peso de uma mochila gigante e deixar o chef correr livremente.

Resumo em uma frase

O V2Drop é como um filtro inteligente que identifica e remove as partes "preguiçosas" e estáticas de uma imagem ou vídeo, mantendo apenas as partes "ativas" e importantes, permitindo que a inteligência artificial seja muito mais rápida sem perder a capacidade de entender o mundo.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →