LatentLens: Revealing Highly Interpretable Visual Tokens in LLMs

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um gênio da linguagem (um modelo de linguagem grande, ou LLM) que só sabe falar e escrever. Ele conhece milhões de palavras, histórias e fatos, mas nunca viu uma foto, um desenho ou um vídeo. Ele é cego.

Agora, imagine que queremos ensinar esse gênio a "ver". A maneira mais comum de fazer isso é colocar um "tradutor" simples (uma pequena camada de conexão) entre uma câmera (o codificador de visão) e o cérebro do gênio. A ideia é: a câmera vê a imagem, transforma em números e o tradutor joga esses números na linguagem do gênio.

O grande mistério que os autores deste paper (LATENTLENS) queriam resolver era: O que exatamente o gênio está "pensando" quando ele recebe esses números da imagem? Será que ele entende o que vê, ou é apenas um truque matemático?

O Problema: As Lentes Erradas

Antes deste trabalho, os cientistas usavam duas "lentes" (métodos) para tentar ler a mente do gênio:

A Lente do Dicionário (EmbeddingLens): Eles olhavam para a lista de palavras que o gênio conhece e tentavam achar qual palavra se parecia mais com o número da imagem.
A Lente de Adivinhação (LogitLens): Eles perguntavam: "Se o gênio tivesse que completar a frase agora, qual seria a próxima palavra?"

O resultado? Essas lentes mostravam coisas confusas. Às vezes, a imagem de um "cachorro" gerava palavras como "o", "e", ou pedaços de palavras sem sentido. Os cientistas concluíram: "Ah, os modelos de visão não são interpretáveis. O gênio não entende o que vê, ele apenas processa números."

A Solução: A Lente do Contexto (LATENTLENS)

Os autores criaram uma nova lente chamada LATENTLENS. A grande sacada deles foi mudar a pergunta.

Em vez de perguntar: "Qual palavra solta se parece com isso?", eles perguntaram: "Em qual frase completa ou história o significado dessa imagem se encaixa melhor?"

A Analogia do Detetive:
Imagine que você encontrou uma pegada na lama (o token visual).

O método antigo (LogitLens): Tenta adivinhar qual é o nome do animal só olhando para a pegada isolada. Resultado: "Talvez seja um 'pé' ou 'lama'".
O método LATENTLENS: Olha para a pegada e pergunta: "Em qual livro de histórias essa pegada apareceu?" Ele procura em uma biblioteca gigante de frases e encontra: "O cachorro correu pela grama e deixou pegadas na lama".

Ao comparar a imagem não com uma palavra solta, mas com frases inteiras e contextualizadas (como "uma torre cinza com relógios dourados"), o LATENTLENS consegue revelar o que a imagem significa com muito mais clareza.

O Que Eles Descobriram?

O Gênio Entende Tudo (e muito bem!):
Ao usar a nova lente, eles descobriram que o gênio entende perfeitamente o que vê. Em 72% dos casos, as representações da imagem podiam ser descritas por frases humanas claras. Isso significa que os métodos antigos estavam subestimando a inteligência do modelo. A imagem não é um código estranho; é como se fosse uma palavra muito rica em significado.
O Salto para o Meio (Mid-Layer Leap):
Eles notaram algo curioso. Quando a imagem entra no cérebro do gênio (camada inicial), ela já parece com o que o cérebro pensa no meio do processo de raciocínio, e não no começo.
- Analogia: É como se você mostrasse uma foto de um "pôr do sol" para o gênio, e ele já começasse a pensar como se estivesse no meio de uma poesia sobre o fim do dia, em vez de pensar apenas na cor "laranja". A imagem já chega "pré-processada" e semântica.
Frases são Melhores que Palavras:
O LATENTLENS mostrou que, para entender imagens, precisamos de contexto. Uma imagem de um "relógio" pode ser descrita como "um relógio antigo", "um relógio de torre" ou "relógio quebrado". O modelo consegue capturar esses detalhes se tivermos frases para comparar, e não apenas a palavra "relógio".

Por que isso importa?

Confiança: Agora sabemos que quando esses modelos geram descrições de imagens, eles realmente "entendem" o que estão olhando, e não estão apenas chutando palavras.
Melhorias: Se sabemos como o modelo "pensa" sobre imagens, podemos consertar erros (alucinações) mais facilmente.
Ciência: Isso prova que a linguagem e a visão são muito mais parecidas do que pensávamos. O cérebro do modelo cria uma ponte natural entre o que vemos e o que lemos.

Resumo em uma frase:
Os autores criaram uma nova "lente" que usa frases completas em vez de palavras soltas para ler a mente de modelos de IA, descobrindo que eles entendem imagens muito melhor do que imaginávamos, transformando pixels em histórias compreensíveis.

Each language version is independently generated for its own context, not a direct translation.

Título: LATENTLENS: Revelando Tokens Visuais Altamente Interpretáveis em LLMs

1. O Problema

A transformação de Modelos de Linguagem de Grande Escala (LLMs) em Modelos de Linguagem e Visão (VLMs) é frequentemente realizada mapeando tokens visuais de um codificador de visão para o espaço de incorporação (embedding) de um LLM congelado, muitas vezes através de uma transformação simples (como um MLP superficial).

Apesar do sucesso empírico dessa abordagem, uma questão fundamental permanece: como os tokens visuais são processados e interpretados dentro das camadas internas do LLM?

Métodos existentes de interpretabilidade, como LogitLens e EmbeddingLens, tentam mapear representações latentes para o vocabulário do modelo (subpalavras ou tokens de saída).
O consenso anterior sugeria que os tokens visuais eram frequentemente não interpretáveis ou correspondiam a subpalavras sem sentido quando analisados por essas lentes tradicionais.
A hipótese central do trabalho é que esses métodos subestimam a interpretabilidade porque comparam representações visuais a embeddings estáticos (entrada/saída) em vez de representações textuais contextualizadas.

2. Metodologia: LATENTLENS

O LATENTLENS é uma nova abordagem training-free (sem treinamento adicional) para mapear representações latentes de tokens visuais para descrições em linguagem natural.

Principais Insights e Funcionamento:

Corpus de Referências Contextualizadas: Em vez de usar apenas a matriz de embeddings de entrada ou saída do LLM, o método codifica um grande corpus de textos (2,99 milhões de legendas do Visual Genome) usando o próprio LLM.
Armazenamento de Representações: Para cada token em cada frase do corpus, o método armazena suas representações contextuais em múltiplas camadas do LLM.
Busca por Vizinhos Mais Próximos (Nearest Neighbors):
- Para um token visual em uma camada específica $\ell'$ , o método calcula a similaridade de cosseno com todas as representações contextuais de texto armazenadas.
- Os top-k vizinhos mais próximos são recuperados.
- Diferente do LogitLens (que retorna tokens individuais), o LATENTLENS retorna frases completas ou contextos onde esses tokens aparecem.
Avaliação Automática: Um "juiz" (LLM, especificamente GPT-5) avalia se a frase recuperada descreve semanticamente a região da imagem correspondente ao token visual, classificando-a como concreta, abstrata ou global.

Diferença Chave: Enquanto o LogitLens projeta o estado latente para o espaço de vocabulário (unembedding), o LATENTLENS compara o estado latente diretamente com representações de texto que já passaram pelo processamento contextual do LLM.

3. Contribuições Principais

Nova Lente de Interpretabilidade: Introdução do LATENTLENS, que supera significativamente os métodos existentes (LogitLens e EmbeddingLens) ao revelar que a maioria dos tokens visuais é altamente interpretável.
Descoberta do "Salto de Camada Média" (Mid-Layer Leap):
- Os autores descobriram que tokens visuais nas camadas iniciais (input) alinham-se mais fortemente com representações textuais de camadas intermediárias (ex: camadas 8-16) do LLM, e não com a camada de entrada ou saída.
- Isso sugere que o mapeamento visual para linguagem visa representações semânticas (já processadas) em vez de representações lexicais (brutas).
Generalização: O método funciona consistentemente em 10 configurações diferentes de VLMs (incluindo combinações de OLMo, LLaMA3, Qwen2 com CLIP, DINOv2 e SigLIP) e em modelos off-the-shelf (como Qwen2-VL).
Evidência de Alinhamento Estrutural: O trabalho fornece evidências fortes de que os espaços de representação de visão e linguagem estão estruturalmente alinhados, permitindo que LLMs congelados processem dados visuais com adaptações mínimas.

4. Resultados Experimentais

Os experimentos foram realizados em 10 configurações de modelos (9 setups controlados + 1 modelo off-the-shelf).

Taxa de Interpretabilidade:
- LATENTLENS: Revelou que 72% dos tokens visuais são interpretáveis em média (acima de 60-85% na maioria das camadas e modelos).
- LogitLens: Apenas 23% dos tokens foram classificados como interpretáveis.
- EmbeddingLens: Apenas 30% dos tokens foram classificados como interpretáveis.
Desempenho por Camada:
- O LogitLens mostra baixa interpretabilidade nas camadas iniciais e melhora apenas nas camadas finais.
- O LATENTLENS mantém alta interpretabilidade desde a camada de entrada até a final.
Análise de "Mid-Layer Leap":
- Tokens visuais na camada 0 (input) tendem a ter seus vizinhos mais próximos em camadas textuais intermediárias (ex: camada 8 ou 16).
- Isso indica que o projetor (connector) mapeia a visão diretamente para um estado de "compreensão semântica" do LLM, pulando a necessidade de processamento lexical inicial.
Qualidade das Descrições:
- O LATENTLENS fornece descrições ricas em nível de frase (ex: "torre cinza com vários relógios"), enquanto o LogitLens frequentemente retorna subpalavras, pontuação ou tokens não renderizáveis (ex: "c", "pg", "钟").
- Em textos renderizados em imagens, o LATENTLENS identifica as palavras exatas, enquanto o LogitLens tende a prever o "próximo token" plausível em vez de identificar o conteúdo intrínseco.

5. Significado e Implicações

Revisão de Suposições: O trabalho desafia a crença de que tokens visuais em VLMs são "caixas pretas" ou não interpretáveis. Eles são, na verdade, altamente alinhados com representações linguísticas semânticas.
Mecanismo de Adaptação: Explica por que é tão fácil adaptar LLMs congelados a novas modalidades: o espaço de representação visual já converge para o espaço semântico intermediário do LLM, exigindo apenas uma projeção linear simples.
Aplicações Futuras:
- Redução de Alucinações: Melhor compreensão do que os tokens visuais codificam pode ajudar a mitigar alucinações em VLMs.
- Análise de Representações Latentes: O método pode ser estendido para analisar prompts suaves (soft prompts), raciocínio latente ou outros tokens não linguísticos.
- Ferramenta de Análise: O LATENTLENS oferece uma nova ferramenta para pesquisadores analisarem a dinâmica interna de modelos multimodais sem necessidade de treinamento adicional.

Em resumo, o LATENTLENS demonstra que, ao usar a lente correta (representações textuais contextualizadas em vez de embeddings estáticos), os tokens visuais em LLMs revelam-se ricos em significado e semanticamente alinhados com a linguagem humana, muito mais do que métodos anteriores sugeriam.

LatentLens: Revealing Highly Interpretable Visual Tokens in LLMs

O Problema: As Lentes Erradas

A Solução: A Lente do Contexto (LATENTLENS)

O Que Eles Descobriram?

Por que isso importa?

Título: LATENTLENS: Revelando Tokens Visuais Altamente Interpretáveis em LLMs

1. O Problema

2. Metodologia: LATENTLENS

3. Contribuições Principais

4. Resultados Experimentais

5. Significado e Implicações

Mais como este

DualDynamics: Synergizing Implicit and Explicit Methods for Robust Irregular Time Series Analysis

Robot Collapse: Supply Chain Backdoor Attacks Against VLM-based Robotic Manipulation

ExGes: Expressive Human Motion Retrieval and Modulation for Audio-Driven Gesture Synthesis

SafePLUG: Empowering Multimodal LLMs with Pixel-Level Insight and Temporal Grounding for Traffic Accident Understanding

Advanced Assistance for Traffic Crash Analysis: An AI-Driven Multi-Agent Approach to Pre-Crash Reconstruction