Layer by layer, module by module: Choose both for optimal OOD probing of ViT

Este estudo demonstra que, para otimizar a detecção de distribuição fora do domínio (OOD) em Vision Transformers, a melhor estratégia é combinar a sondagem de camadas intermediárias com a seleção específica de módulos, utilizando as ativações da rede feedforward sob grandes deslocamentos de distribuição e a saída normalizada da atenção multi-cabeça quando o deslocamento é fraco.

Ambroise Odonnat, Vasilii Feofanov, Laetitia Chapel, Romain Tavenard, Ievgen Redko

Publicado 2026-03-06
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um chef de cozinha extremamente talentoso (o modelo de Inteligência Artificial chamado "Vision Transformer") que foi treinado por anos em uma escola de culinária de luxo, aprendendo a cozinhar pratos complexos com ingredientes frescos e perfeitos.

Agora, imagine que você contrata esse chef para trabalhar em um restaurante novo. O problema? O restaurante novo tem ingredientes diferentes, talvez um pouco estragados ou de uma qualidade inferior (isso é o que os cientistas chamam de "mudança de distribuição" ou distribution shift).

Este artigo é como um manual de instruções para descobrir onde exatamente dentro da mente desse chef você deve olhar para pedir a melhor receita, dependendo da qualidade dos ingredientes que você tem.

Aqui está a explicação simplificada, passo a passo:

1. O Mistério: O Fim não é o Melhor Lugar

Antigamente, todos achavam que a melhor parte da "mente" do chef era o último passo antes de servir o prato (a última camada da rede neural). Era como se você dissesse: "O que o chef pensou no final é o que importa".

Mas os pesquisadores descobriram algo curioso: quando os ingredientes do restaurante novo são muito diferentes dos da escola de culinária, o "pensamento final" do chef fica confuso e ele comete erros. No entanto, se você olhar para o que ele pensou no meio do processo (nas camadas intermediárias), a comida fica muito melhor!

A Analogia:
Pense em uma linha de montagem de carros.

  • Camada Final: É onde o carro está pronto, pintado e com o motor instalado. Se a fábrica mudou o tipo de metal que chega, o carro final pode ficar torto.
  • Camadas Intermediárias: São as etapas onde as peças são cortadas e soldadas. Mesmo com o metal ruim, essas etapas ainda conseguem fazer um bom trabalho de corte. Elas são mais resistentes a erros.

2. A Descoberta Principal: O "Choque" é o Vilão

Os autores provaram que a razão pela qual a camada final falha é o choque entre o que o modelo aprendeu na escola (treinamento) e o que ele vê no novo trabalho (dados reais).

  • Se o trabalho é fácil (ingredientes iguais): A camada final é a melhor. O chef sabe exatamente o que fazer.
  • Se o trabalho é difícil (ingredientes estranhos): A camada final se perde. As camadas do meio são mais robustas e não se confundem tanto com a mudança.

3. O Segredo Escondido: Não Olhe Apenas para o "Prato Pronto"

A parte mais genial do artigo é que eles não olharam apenas para o "prato final" de cada etapa. Eles olharam para cada pequena ação que o chef faz dentro de uma etapa.

Dentro de cada bloco de processamento do modelo, existem duas máquinas principais:

  1. A Máquina de Atenção (MHA): Onde o chef decide quais ingredientes são importantes (como olhar para a foto do prato e escolher o que usar).
  2. A Máquina de Processamento (Feedforward - FFN): Onde o chef realmente mistura e transforma os ingredientes.

O que eles descobriram?

  • O Pior Lugar para Olhar: Olhar para a saída da "Máquina de Processamento" depois que ela espremeu tudo (chamada de FC2). É como olhar para o prato depois que o chef tentou esmagar tudo num liquidificador. Perde-se a informação.
  • O Melhor Lugar (quando os ingredientes são ruins): Olhar para a saída da mistura, logo antes de ser espremida (chamada de Act ou ativação). É como pegar a tigela de mistura enquanto o chef ainda está mexendo. A informação está mais pura e clara.
  • O Melhor Lugar (quando os ingredientes são bons): Olhar para a saída da "Máquina de Atenção" ou logo antes da mistura (chamada de LN2).

4. A Lição Prática (O "Pulo do Gato")

Se você estiver usando essa Inteligência Artificial em um mundo real, onde os dados podem ser bagunçados ou diferentes do esperado:

  1. Não confie cegamente na última camada. Ela pode estar "alucinando" por causa da mudança de dados.
  2. Não olhe para o final do processo de mistura. (Evite a saída FC2).
  3. Olhe para o meio da mistura. (A ativação dentro da rede de processamento). É ali que a IA ainda tem a "visão clara" das coisas, mesmo com ingredientes ruins.
  4. Se não tiver certeza: Olhe logo antes da mistura começar (a normalização LN2). É um lugar seguro que funciona bem na maioria das vezes.

Resumo em uma frase

Este artigo nos ensina que, quando a Inteligência Artificial enfrenta situações estranhas ou diferentes do treinamento, não devemos perguntar o que ela decidiu no final, mas sim o que ela estava pensando no meio do processo, especificamente logo após ela ter "misturado" as informações, mas antes de tentar "espremer" tudo em uma resposta final.

É como dizer: "Não pergunte ao chef qual é o prato final se a cozinha está bagunçada; pergunte o que ele está pensando enquanto ainda está cortando os legumes!"