iLLaVA: An Image is Worth Fewer Than 1/3 Input Tokens in Large Multimodal Models

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um assistente superinteligente (um modelo de IA) capaz de ver fotos, vídeos e entender o que você diz. O problema é que, para funcionar, esse assistente precisa "ler" a imagem inteira, pixel por pixel, transformando cada pedacinho em uma palavra (um "token").

Para uma foto simples, isso gera milhares de palavras. Para um vídeo, são dezenas de milhares. É como tentar ler um livro inteiro de uma só vez, página por página, apenas para responder a uma pergunta simples. Isso deixa o computador lento, gasta muita energia e exige máquinas gigantescas.

A maioria das soluções atuais tenta apenas "pular páginas" no final do processo, quando o assistente já está lendo. Mas os autores deste paper, chamado iLLaVA, descobriram algo importante: o problema começa antes.

Aqui está a explicação simples do que eles fizeram, usando analogias do dia a dia:

1. O Problema: O "Filtro de Café" Entupido

Pense no processo de entender uma imagem como fazer um café.

O Encoder (O Moedor): É a primeira etapa, onde a imagem bruta é moída em grãos (tokens).
O LLM (A Cafeteira): É a parte que "fala" e responde, usando os grãos moídos.

Até agora, as pessoas tentavam acelerar o processo apenas jogando fora alguns grãos dentro da cafeteira (no LLM). Mas os autores perceberam que o moedor (o Encoder) está gastando a maior parte da energia e tempo moendo coisas que nem são importantes (como o céu azul de uma foto de um pássaro, ou o fundo de uma sala).

A Descoberta: O Encoder gera muitos "grãos inúteis". Se você não parar o moedor de moer o desnecessário, você nunca vai ter um café rápido, não importa o quão eficiente seja a cafeteira.

2. A Solução iLLaVA: O "Detetive de Informação"

O iLLaVA faz duas coisas inteligentes para resolver isso:

A. Ataque em Duas Frentes (Otimização Dupla)

Em vez de apenas limpar a mesa na cozinha (no LLM), o iLLaVA limpa a mesa antes de entrar na cozinha (no Encoder) e dentro dela também.

No Encoder: Ele olha para a imagem e diz: "Ei, essa parte do céu não é importante. Vamos ignorar e não gastar energia moendo isso."
No LLM: Ele continua limpando o que sobrou, garantindo que apenas o essencial chegue à resposta final.

Isso é como ter um assistente que, antes de te entregar um relatório de 100 páginas, já rasga as páginas em branco e deixa apenas os 10 parágrafos importantes.

B. A "Mágica da Reciclagem" (Token Merging)

Aqui está o truque mais genial. Se você simplesmente jogar fora os grãos "inúteis", pode perder uma informação importante escondida ali.

O que outros fazem: Jogam fora os grãos ruins. (Risco: Perder um detalhe importante).
O que o iLLaVA faz: Ele pega os grãos que seriam jogados fora e os fundiu (merge) em um grão "super-resumido".

A Analogia do Resumo de Livro:
Imagine que você tem 100 páginas de texto chato. Em vez de rasgar 90 páginas, o iLLaVA lê essas 90 páginas e escreve um resumo de 1 parágrafo delas.

Ele mantém as 10 páginas principais (os tokens importantes).
Ele pega as 90 páginas restantes e as transforma em 5 parágrafos de resumo (os tokens reciclados).
No final, ele entrega 15 páginas (10 originais + 5 resumos) em vez de 100.

Assim, ele não perde a informação, mas reduz drasticamente o tamanho do que precisa ser processado.

3. Os Resultados: O Gigante Rápido

O resultado dessa abordagem é impressionante:

Velocidade: O sistema fica até 2 vezes mais rápido e o tempo de "pensamento inicial" (prefilling) cai 4 vezes.
Qualidade: Mesmo com menos dados, a IA não fica "burra". Na verdade, um modelo grande (como o InternVL 26B) usando iLLaVA fica mais rápido e mais inteligente do que um modelo pequeno (8B) sem essa tecnologia.
Versatilidade: Funciona bem tanto para fotos estáticas quanto para vídeos longos.

Resumo Final

O iLLaVA é como um gerente de escritório muito eficiente. Ele não deixa que a equipe (a IA) leia documentos inteiros e inúteis. Ele:

Para o processo de moagem (Encoder) de criar lixo.
Recicla o lixo útil em resumos curtos (Token Merging).
Entrega apenas o essencial para a equipe responder.

O resultado? Uma IA que vê o mundo com menos "tokens" (palavras), mas com mais clareza e velocidade, permitindo que computadores comuns rodem modelos gigantes que antes exigiam supercomputadores.

Each language version is independently generated for its own context, not a direct translation.

Título: iLLaVA: Uma Imagem Vale Menos de 1/3 dos Tokens de Entrada em Modelos Multimodais Grandes

1. O Problema

Os Modelos Visuais-Linguísticos Grandes (LVLMs) têm alcançado resultados notáveis, mas enfrentam desafios críticos de complexidade computacional e demanda de recursos.

Redundância Visual: As entradas visuais (imagens e vídeos) contêm redundância significativa, mas os métodos atuais de aceleração focam quase exclusivamente na redução de tokens dentro ou antes do Modelo de Linguagem Grande (LLM).
O Gargalo Ignorado: Esses métodos negligenciam o codificador de imagem (Image Encoder), que consome uma parte substancial do tempo de inferência (até 45% em tarefas de vídeo) e é o principal gerador de tokens para o LLM.
Limitação Atual: Reduzir tokens apenas no LLM não otimiza o custo total, pois o codificador de imagem continua gerando milhares de tokens redundantes que sobrecarregam o sistema. Além disso, a remoção agressiva de tokens frequentemente leva à degradação do desempenho do modelo.

2. Metodologia: iLLaVA

O iLLaVA propõe uma otimização conjunta do codificador de imagem e do LLM para uma aceleração abrangente, introduzindo duas inovações principais:

A. Redução de Tokens em Duas Etapas (Two-Stage Token Reduction)

Diferente de abordagens anteriores que atuam apenas no LLM, o iLLaVA realiza a redução de tokens em dois estágios:

No Codificador de Imagem: Insere módulos de fusão de tokens após os blocos de atenção de várias camadas do codificador (ex: ViT). Isso reduz a quantidade de tokens visuais antes mesmo de entrarem no projetor ou no LLM.
No LLM: Realiza operações de fusão de tokens em blocos específicos do LLM.

Benefício: Ao reduzir os tokens no início (codificador), o modelo não apenas acelera o próprio codificador, mas reduz drasticamente a carga computacional subsequente no LLM, que possui complexidade quadrática $O(n^2)$ em relação ao número de tokens.

B. Estratégia de Fusão de Tokens com Reciclagem (Token Merging with Recycling)

Para mitigar a perda de desempenho causada pela redução de tokens, o iLLaVA não descarta tokens simplesmente; ele "recicla" informações úteis:

Seleção de Tokens Informativos: Utiliza as pontuações de atenção (attention scores) para identificar e preservar os tokens mais importantes ( $P^i_v$ ) que contêm a informação visual crítica.
Reciclagem de Tokens: Os tokens menos importantes, que seriam descartados, não são eliminados. Em vez disso, eles são agrupados em "tokens reciclados" ( $P^c_v$ ) baseados na similaridade de atenção.
Fusão Ponderada: As informações desses tokens descartados são condensadas e fundidas nos tokens reciclados através de uma soma ponderada. Isso permite que o modelo mantenha informações contextuais e complementares que de outra forma seriam perdidas.

3. Principais Contribuições

Otimização End-to-End: É a primeira abordagem a otimizar conjuntamente o codificador de imagem e o LLM, abordando o gargalo computacional completo do LVLM.
Estratégia de Reciclagem: Propõe um mecanismo inovador para recuperar informações de tokens descartados, permitindo taxas de redução extremas sem perda significativa de precisão.
Eficiência Superior: Demonstra que é possível acelerar modelos grandes (ex: InternVL-2.5 26B) para superar modelos menores (ex: InternVL-2.5 8B) tanto em precisão quanto em eficiência.
Análise Visual: Fornece visualizações detalhadas de como os tokens são selecionados e fundidos em diferentes camadas, oferecendo insights sobre a distribuição de atenção em LVLMs.

4. Resultados Experimentais

Os experimentos foram realizados em mais de 10 benchmarks de compreensão de imagem e vídeo (incluindo MMMU, MMBench, VideoMME, etc.), utilizando modelos base como Qwen2.5-VL, InternVL-2.5 e LLaVA-OneVision.

Desempenho com Redução Extrema:
- Com 66,7% de redução de tokens: Mantém 99,2% do desempenho do modelo original.
- Com 88,9% de redução de tokens: Mantém 95,2% do desempenho, superando métodos state-of-the-art (SOTA) como SparseVLM, FasterVLM e VisionZip.
- Em vídeo, com 95% de redução, supera o método SOTA (VisionZip) em 1,7%.
Ganhos de Eficiência:
- Throughput (Vazão): Aumento de até 2x (2,12x em alguns casos).
- Tempo de Preenchimento (Prefilling): Redução de 4x (4,46x em alguns casos).
- Uso de Memória: Redução de 1,59x.
Comparação de Modelos:
- Um modelo grande (InternVL-2.5 26B) equipado com iLLaVA supera um modelo menor (8B) em precisão (+4,2% no MMMU) e mantém um throughput comparável ou superior.
- O iLLaVA é compatível com diferentes arquiteturas (Qwen, InternVL, MiniCPM) e funciona sem necessidade de re-treinamento (training-free).

5. Significado e Impacto

O trabalho iLLaVA redefine os limites de eficiência em modelos multimodais ao demonstrar que a redundância visual pode ser explorada de forma muito mais agressiva do que o estado da arte atual permite.

Viabilidade de Implantação: Ao reduzir drasticamente o consumo de memória e o tempo de inferência, o iLLaVA torna viável a execução de modelos LVLMs de grande porte em infraestruturas com recursos limitados.
Paradigma de Aceleração: Muda o foco de apenas "poda no LLM" para uma "aceleração holística" que inclui o codificador de imagem, reconhecendo que a eficiência do LLM é diretamente dependente da eficiência do pré-processamento visual.
Qualidade vs. Eficiência: Prova que é possível obter ganhos massivos de velocidade sem sacrificar a inteligência do modelo, permitindo que modelos maiores rodem mais rápido e com melhor qualidade do que modelos menores.

Em resumo, o iLLaVA estabelece um novo padrão para a eficiência em LVLMs, permitindo que uma imagem seja representada por menos de 1/3 dos tokens de entrada originais sem comprometer a capacidade de raciocínio do modelo.