What Do Visual Tokens Really Encode? Uncovering Sparsity and Redundancy in Multimodal Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um tradutor superinteligente (o Modelo de Linguagem Grande, ou LLM) que só fala a língua das palavras. Agora, você quer que ele "veja" uma foto. Para isso, você usa uma câmera especial (o codificador de visão) que tira a foto e a transforma em uma lista de pequenos pedaços de informação, chamados tokens visuais.

O grande segredo que este artigo revela é: a maioria desses pedaços de informação é inútil ou repetitiva. É como se você mandasse 100 cartas para o tradutor, mas 60 delas fossem apenas "olá, olá, olá" (repetição) e 40 delas fossem bilhetes em branco ou endereços errados. Apenas cerca de 60% das cartas realmente contêm a história da foto.

Aqui está a explicação simples do que os pesquisadores descobriram, usando analogias do dia a dia:

1. A Grande Divisão: Os Três Tipos de "Cartas"

Quando a foto entra no cérebro do modelo, os pesquisadores descobriram que os tokens se dividem em três grupos, como se fossem tripulantes em um navio:

Os "Vagabundos" (Dead Tokens): São como passageiros que subiram no barco, mas não fazem nada. Eles não olham para a paisagem, não falam com ninguém e não ajudam a navegar. Eles ocupam espaço, mas são sem sentido. Se você tirá-los do barco, a viagem fica até mais rápida e o barco anda melhor!
Os "Âncoras" (Sink Tokens): Imagine uma âncora que o barco usa para se estabilizar. Ela não vai para lugar nenhum, não carrega carga e não ajuda a ver o horizonte. Ela serve apenas para o barco não balançar demais (ajudar na estrutura matemática do modelo). Se você tirar a âncora, o barco continua navegando porque o capitão (o modelo) aprendeu a se equilibrar de outras formas.
Os "Vigias" (Alive Tokens): Estes são os únicos que realmente veem a foto. Eles carregam as informações importantes: "tem um gato", "é vermelho", "está escrito 'Parar'". São os únicos que valem a pena.

A descoberta chocante: Cerca de 40% dos "passageiros" (tokens) que entram no modelo são inúteis (vagabundos ou âncoras). O modelo está gastando energia processando lixo!

2. O Modelo Já Sabe Tudo Antes de "Pensar"

Os pesquisadores testaram se o modelo precisava de muito trabalho interno para entender a foto. Eles fizeram um teste: pegaram uma foto de um objeto e forçaram o modelo a olhar apenas para um pedacinho minúsculo que continha todas as informações.

O resultado? O modelo já entendia tudo ali, naquele pedacinho, antes mesmo de começar a "pensar" profundamente.

Analogia: É como se você entregasse um bilhete para alguém ler. A pessoa já consegue ler a palavra "GATO" e saber que é um animal, de que cor é e quantos existem, antes de começar a escrever um poema sobre ele. O modelo não precisa de uma "fábrica de processamento" complexa para entender a imagem básica; a câmera já entregou a resposta pronta.

3. O Problema de "Pensar Demais"

O artigo mostra que, para a maioria das tarefas, o modelo tenta "pensar" na imagem usando suas camadas iniciais (o começo do cérebro), mas isso é um erro.

A Metáfora: Imagine que você tem um mapa muito claro. Se você começar a desenhar linhas tortas sobre ele com uma caneta borrada (as camadas iniciais do modelo), você só vai estragar a visão.
A Solução: Os pesquisadores descobriram que é melhor pular as primeiras etapas de processamento da imagem e jogar a informação direto no meio do cérebro do modelo (nas camadas médias). É como pular a fila de segurança e ir direto para a sala de reuniões onde as decisões são tomadas. Isso torna o modelo mais rápido e evita que ele se confunda com detalhes desnecessários.

4. O Viés de Cor (O "Efeito Fundo")

O modelo tem um defeito engraçado: ele confunde a cor do objeto com a cor do fundo.

Exemplo: Se você mostra um número "9" escrito em preto em um fundo verde, o modelo pode dizer que o "9" é verde. Ele está olhando para o "mar" ao redor e esquecendo do "barco". Isso acontece porque ele está prestando atenção no contexto geral em vez de focar no objeto específico.

Resumo da Ópera (Conclusão)

Este trabalho é como um manual de manutenção para os robôs que "veem". Eles nos dizem:

Limpe a bagagem: Jogue fora 40% das informações visuais que são apenas repetição ou estrutura vazia.
Não force o trabalho: Não deixe o robô "pensar" demais na imagem no início; a informação já chega pronta.
Mude o ponto de entrada: Jogue a informação visual direto no meio do cérebro do robô, em vez de começar do zero.

Fazendo isso, podemos criar modelos de Inteligência Artificial que são mais rápidos, mais baratos de rodar e que entendem melhor o que estão vendo, sem se perderem em detalhes inúteis.

What Do Visual Tokens Really Encode? Uncovering Sparsity and Redundancy in Multimodal Large Language Models

1. A Grande Divisão: Os Três Tipos de "Cartas"

2. O Modelo Já Sabe Tudo Antes de "Pensar"

3. O Problema de "Pensar Demais"

4. O Viés de Cor (O "Efeito Fundo")

Resumo da Ópera (Conclusão)

1. Problema e Motivação

2. Metodologia

3. Descobertas Principais e Resultados

A. Tripartição dos Tokens Visuais (Esparsidade Semântica)

B. Capacidade de Informação Pré-Linguística

C. Redundância no Processamento Interno do LLM

D. Alinhamento com Camadas Intermediárias

4. Contribuições Principais

5. Significado e Impacto

What Do Visual Tokens Really Encode? Uncovering Sparsity and Redundancy in Multimodal Large Language Models

1. A Grande Divisão: Os Três Tipos de "Cartas"

2. O Modelo Já Sabe Tudo Antes de "Pensar"

3. O Problema de "Pensar Demais"

4. O Viés de Cor (O "Efeito Fundo")

Resumo da Ópera (Conclusão)

1. Problema e Motivação

2. Metodologia

3. Descobertas Principais e Resultados

A. Tripartição dos Tokens Visuais (Esparsidade Semântica)

B. Capacidade de Informação Pré-Linguística

C. Redundância no Processamento Interno do LLM

D. Alinhamento com Camadas Intermediárias

4. Contribuições Principais

5. Significado e Impacto

Mais como este

Bitboard version of Tetris AI

Multiverse: Language-Conditioned Multi-Game Level Blending via Shared Representation

Concerning Uncertainty -- A Systematic Survey of Uncertainty-Aware XAI

Neuro-Symbolic Learning for Predictive Process Monitoring via Two-Stage Logic Tensor Networks with Rule Pruning

Compliance-Aware Predictive Process Monitoring: A Neuro-Symbolic Approach