iLLaVA: An Image is Worth Fewer Than 1/3 Input Tokens in Large Multimodal Models

O artigo apresenta o iLLaVA, uma abordagem que acelera modelos multimodais de grande escala otimizando conjuntamente o codificador de imagem e o LLM através de uma estratégia inovadora de fusão de tokens que recicla informações descartadas, resultando em ganhos significativos de eficiência e desempenho tanto em tarefas de imagem quanto de vídeo.

Lianyu Hu, Liqing Gao, Fanhua Shang, Liang Wan, Wei Feng

Publicado 2026-03-10
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um assistente superinteligente (um modelo de IA) capaz de ver fotos, vídeos e entender o que você diz. O problema é que, para funcionar, esse assistente precisa "ler" a imagem inteira, pixel por pixel, transformando cada pedacinho em uma palavra (um "token").

Para uma foto simples, isso gera milhares de palavras. Para um vídeo, são dezenas de milhares. É como tentar ler um livro inteiro de uma só vez, página por página, apenas para responder a uma pergunta simples. Isso deixa o computador lento, gasta muita energia e exige máquinas gigantescas.

A maioria das soluções atuais tenta apenas "pular páginas" no final do processo, quando o assistente já está lendo. Mas os autores deste paper, chamado iLLaVA, descobriram algo importante: o problema começa antes.

Aqui está a explicação simples do que eles fizeram, usando analogias do dia a dia:

1. O Problema: O "Filtro de Café" Entupido

Pense no processo de entender uma imagem como fazer um café.

  • O Encoder (O Moedor): É a primeira etapa, onde a imagem bruta é moída em grãos (tokens).
  • O LLM (A Cafeteira): É a parte que "fala" e responde, usando os grãos moídos.

Até agora, as pessoas tentavam acelerar o processo apenas jogando fora alguns grãos dentro da cafeteira (no LLM). Mas os autores perceberam que o moedor (o Encoder) está gastando a maior parte da energia e tempo moendo coisas que nem são importantes (como o céu azul de uma foto de um pássaro, ou o fundo de uma sala).

A Descoberta: O Encoder gera muitos "grãos inúteis". Se você não parar o moedor de moer o desnecessário, você nunca vai ter um café rápido, não importa o quão eficiente seja a cafeteira.

2. A Solução iLLaVA: O "Detetive de Informação"

O iLLaVA faz duas coisas inteligentes para resolver isso:

A. Ataque em Duas Frentes (Otimização Dupla)

Em vez de apenas limpar a mesa na cozinha (no LLM), o iLLaVA limpa a mesa antes de entrar na cozinha (no Encoder) e dentro dela também.

  • No Encoder: Ele olha para a imagem e diz: "Ei, essa parte do céu não é importante. Vamos ignorar e não gastar energia moendo isso."
  • No LLM: Ele continua limpando o que sobrou, garantindo que apenas o essencial chegue à resposta final.

Isso é como ter um assistente que, antes de te entregar um relatório de 100 páginas, já rasga as páginas em branco e deixa apenas os 10 parágrafos importantes.

B. A "Mágica da Reciclagem" (Token Merging)

Aqui está o truque mais genial. Se você simplesmente jogar fora os grãos "inúteis", pode perder uma informação importante escondida ali.

  • O que outros fazem: Jogam fora os grãos ruins. (Risco: Perder um detalhe importante).
  • O que o iLLaVA faz: Ele pega os grãos que seriam jogados fora e os fundiu (merge) em um grão "super-resumido".

A Analogia do Resumo de Livro:
Imagine que você tem 100 páginas de texto chato. Em vez de rasgar 90 páginas, o iLLaVA lê essas 90 páginas e escreve um resumo de 1 parágrafo delas.

  • Ele mantém as 10 páginas principais (os tokens importantes).
  • Ele pega as 90 páginas restantes e as transforma em 5 parágrafos de resumo (os tokens reciclados).
  • No final, ele entrega 15 páginas (10 originais + 5 resumos) em vez de 100.

Assim, ele não perde a informação, mas reduz drasticamente o tamanho do que precisa ser processado.

3. Os Resultados: O Gigante Rápido

O resultado dessa abordagem é impressionante:

  • Velocidade: O sistema fica até 2 vezes mais rápido e o tempo de "pensamento inicial" (prefilling) cai 4 vezes.
  • Qualidade: Mesmo com menos dados, a IA não fica "burra". Na verdade, um modelo grande (como o InternVL 26B) usando iLLaVA fica mais rápido e mais inteligente do que um modelo pequeno (8B) sem essa tecnologia.
  • Versatilidade: Funciona bem tanto para fotos estáticas quanto para vídeos longos.

Resumo Final

O iLLaVA é como um gerente de escritório muito eficiente. Ele não deixa que a equipe (a IA) leia documentos inteiros e inúteis. Ele:

  1. Para o processo de moagem (Encoder) de criar lixo.
  2. Recicla o lixo útil em resumos curtos (Token Merging).
  3. Entrega apenas o essencial para a equipe responder.

O resultado? Uma IA que vê o mundo com menos "tokens" (palavras), mas com mais clareza e velocidade, permitindo que computadores comuns rodem modelos gigantes que antes exigiam supercomputadores.