LatentLens: Revealing Highly Interpretable Visual Tokens in LLMs

O artigo apresenta o LatentLens, um método interpretável que mapeia representações latentes de tokens visuais em descrições naturais ao compará-las com um corpus textual, demonstrando que a maioria desses tokens é altamente interpretável em todas as camadas de Modelos de Linguagem Multimodais e superando as limitações de técnicas existentes como o LogitLens.

Benno Krojer, Shravan Nayak, Oscar Mañas, Vaibhav Adlakha, Desmond Elliott, Siva Reddy, Marius Mosbach

Publicado 2026-02-26
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um gênio da linguagem (um modelo de linguagem grande, ou LLM) que só sabe falar e escrever. Ele conhece milhões de palavras, histórias e fatos, mas nunca viu uma foto, um desenho ou um vídeo. Ele é cego.

Agora, imagine que queremos ensinar esse gênio a "ver". A maneira mais comum de fazer isso é colocar um "tradutor" simples (uma pequena camada de conexão) entre uma câmera (o codificador de visão) e o cérebro do gênio. A ideia é: a câmera vê a imagem, transforma em números e o tradutor joga esses números na linguagem do gênio.

O grande mistério que os autores deste paper (LATENTLENS) queriam resolver era: O que exatamente o gênio está "pensando" quando ele recebe esses números da imagem? Será que ele entende o que vê, ou é apenas um truque matemático?

O Problema: As Lentes Erradas

Antes deste trabalho, os cientistas usavam duas "lentes" (métodos) para tentar ler a mente do gênio:

  1. A Lente do Dicionário (EmbeddingLens): Eles olhavam para a lista de palavras que o gênio conhece e tentavam achar qual palavra se parecia mais com o número da imagem.
  2. A Lente de Adivinhação (LogitLens): Eles perguntavam: "Se o gênio tivesse que completar a frase agora, qual seria a próxima palavra?"

O resultado? Essas lentes mostravam coisas confusas. Às vezes, a imagem de um "cachorro" gerava palavras como "o", "e", ou pedaços de palavras sem sentido. Os cientistas concluíram: "Ah, os modelos de visão não são interpretáveis. O gênio não entende o que vê, ele apenas processa números."

A Solução: A Lente do Contexto (LATENTLENS)

Os autores criaram uma nova lente chamada LATENTLENS. A grande sacada deles foi mudar a pergunta.

Em vez de perguntar: "Qual palavra solta se parece com isso?", eles perguntaram: "Em qual frase completa ou história o significado dessa imagem se encaixa melhor?"

A Analogia do Detetive:
Imagine que você encontrou uma pegada na lama (o token visual).

  • O método antigo (LogitLens): Tenta adivinhar qual é o nome do animal só olhando para a pegada isolada. Resultado: "Talvez seja um 'pé' ou 'lama'".
  • O método LATENTLENS: Olha para a pegada e pergunta: "Em qual livro de histórias essa pegada apareceu?" Ele procura em uma biblioteca gigante de frases e encontra: "O cachorro correu pela grama e deixou pegadas na lama".

Ao comparar a imagem não com uma palavra solta, mas com frases inteiras e contextualizadas (como "uma torre cinza com relógios dourados"), o LATENTLENS consegue revelar o que a imagem significa com muito mais clareza.

O Que Eles Descobriram?

  1. O Gênio Entende Tudo (e muito bem!):
    Ao usar a nova lente, eles descobriram que o gênio entende perfeitamente o que vê. Em 72% dos casos, as representações da imagem podiam ser descritas por frases humanas claras. Isso significa que os métodos antigos estavam subestimando a inteligência do modelo. A imagem não é um código estranho; é como se fosse uma palavra muito rica em significado.

  2. O Salto para o Meio (Mid-Layer Leap):
    Eles notaram algo curioso. Quando a imagem entra no cérebro do gênio (camada inicial), ela já parece com o que o cérebro pensa no meio do processo de raciocínio, e não no começo.

    • Analogia: É como se você mostrasse uma foto de um "pôr do sol" para o gênio, e ele já começasse a pensar como se estivesse no meio de uma poesia sobre o fim do dia, em vez de pensar apenas na cor "laranja". A imagem já chega "pré-processada" e semântica.
  3. Frases são Melhores que Palavras:
    O LATENTLENS mostrou que, para entender imagens, precisamos de contexto. Uma imagem de um "relógio" pode ser descrita como "um relógio antigo", "um relógio de torre" ou "relógio quebrado". O modelo consegue capturar esses detalhes se tivermos frases para comparar, e não apenas a palavra "relógio".

Por que isso importa?

  • Confiança: Agora sabemos que quando esses modelos geram descrições de imagens, eles realmente "entendem" o que estão olhando, e não estão apenas chutando palavras.
  • Melhorias: Se sabemos como o modelo "pensa" sobre imagens, podemos consertar erros (alucinações) mais facilmente.
  • Ciência: Isso prova que a linguagem e a visão são muito mais parecidas do que pensávamos. O cérebro do modelo cria uma ponte natural entre o que vemos e o que lemos.

Resumo em uma frase:
Os autores criaram uma nova "lente" que usa frases completas em vez de palavras soltas para ler a mente de modelos de IA, descobrindo que eles entendem imagens muito melhor do que imaginávamos, transformando pixels em histórias compreensíveis.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →