Vision Transformers Need More Than Registers

Este artigo identifica que os artefatos nos Vision Transformers (ViTs) decorrem de um comportamento de agregação preguiçosa, onde o modelo utiliza patches de fundo semanticamente irrelevantes como atalhos, e propõe uma solução que integra seletivamente as características dos patches ao token CLS para mitigar esse problema e melhorar o desempenho em diversos benchmarks e paradigmas de supervisão.

Cheng Shi, Yizhou Yu, Sibei Yang

Publicado 2026-02-27
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está ensinando um aluno muito inteligente, mas preguiçoso, a reconhecer um gato em uma foto.

O aluno é o Vision Transformer (ViT), uma tecnologia de Inteligência Artificial que hoje é o "padrão ouro" para ver imagens. O problema é que, apesar de ser brilhante em dizer "Isso é um gato!", ele tem um defeito grave: ele não sabe onde o gato está.

O Problema: O Aluno "Preguiçoso" (Lazy Aggregation)

Aqui está a analogia principal:

Imagine que você mostra uma foto de um gato no sofá para o aluno.

  • O que deveria acontecer: O aluno olha para o gato, foca nos bigodes, nas orelhas e no rabo, e diz: "O gato está aqui!".
  • O que acontece de verdade (o defeito): O aluno olha para a foto inteira, vê que há muito "sofá" e "parede" (o fundo), e pensa: "Ah, a maioria da foto é sofá. Vou apenas olhar para o sofá e dizer que é um gato. É mais fácil!".

Esse é o comportamento de "agregação preguiçosa" que o artigo descreve.

  • Como a IA é treinada apenas com a resposta final (a imagem tem um gato? Sim/Não), ela descobre um "atalho".
  • Em vez de focar no objeto principal (o gato), ela foca no fundo (o sofá, a parede, o chão) porque o fundo ocupa a maior parte da imagem.
  • Ela aprende que, se olhar para o fundo, consegue a resposta certa com menos esforço.

A consequência: A IA é ótima em classificar a imagem inteira, mas péssima em tarefas detalhadas, como desenhar o contorno do gato ou encontrar objetos em uma cena complexa. É como um aluno que tira 10 na prova de múltipla escolha, mas não consegue explicar por que a resposta está certa.

A Solução: O "LaSt-ViT" (O Professor que Força o Foco)

Os autores do artigo criaram uma nova técnica chamada LaSt-ViT (que significa "Strike Lazy ViT" ou "Atacar a Preguiça do ViT").

Pense no LaSt-ViT como um professor rigoroso que diz ao aluno:

"Não olhe para o sofá! Olhe especificamente para o gato. Se você olhar para o fundo, não vou te dar pontos."

Como eles fazem isso?

  1. Análise de Frequência: Eles olham para as "peças" da imagem (os pedaços da foto que a IA processa). O fundo geralmente é bagunçado e muda muito. O objeto principal (o gato) tende a ser mais consistente e estável.
  2. Seleção Inteligente: O sistema identifica quais pedaços da imagem são "estáveis" (provavelmente o objeto) e ignora os "instáveis" (provavelmente o fundo).
  3. Reagrupamento: Em vez de deixar a IA juntar tudo de qualquer jeito, eles forçam a IA a escolher apenas os pedaços mais importantes e estáveis para formar a resposta final.

O Resultado: O Aluno Acorda

Depois de aplicar o LaSt-ViT, a mágica acontece:

  • Fim dos "Fantasmas": A IA para de olhar para o fundo. Se você pedir para ela desenhar o contorno do gato, ela agora consegue fazer isso perfeitamente.
  • Versatilidade: Funciona não importa como a IA foi treinada (se foi ensinada por humanos com rótulos, por texto, ou sozinha apenas olhando fotos).
  • Melhor em Tudo: Em testes reais, a IA melhorou drasticamente em 12 tarefas diferentes, desde encontrar objetos em fotos até segmentar imagens médicas.

Por que isso é importante?

Antes, os cientistas achavam que o problema era falta de "registros" (uma peça extra de memória na IA). Eles tentaram adicionar mais memória, mas não resolvia o problema de raiz.

Este artigo diz: "Não é falta de memória, é falta de foco!"

A IA não precisa de mais memória; ela precisa ser ensinada a não ser preguiçosa. Ao forçá-la a olhar para o objeto e não para o fundo, tornamos a IA muito mais inteligente, precisa e útil para o mundo real, onde precisamos saber exatamente onde as coisas estão, não apenas o que são.

Resumo em uma frase:
O LaSt-ViT é como um corretor que pega um aluno de IA preguiçoso, que olhava para o fundo da foto para adivinhar a resposta, e o força a olhar diretamente para o objeto, tornando-o um especialista em ver detalhes.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →