SPoT: Subpixel Placement of Tokens in Vision Transformers

O artigo propõe o SPoT, uma estratégia inovadora de tokenização que posiciona tokens continuamente dentro das imagens, superando as limitações das grades discretas e permitindo que os Vision Transformers explorem regimes de esparsidade para obter ganhos significativos de desempenho e eficiência.

Martine Hjelkrem-Tan, Marius Aasan, Gabriel Y. Arteaga, Adín Ramírez Rivera

Publicado 2026-03-09
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando descrever uma pintura complexa para um amigo, mas você só pode usar "post-its" quadrados para marcar as partes importantes da imagem.

O Problema (A Grade Rígida):
Os modelos de Inteligência Artificial chamados "Vision Transformers" (ViT) funcionam assim: eles cortam a imagem em uma grade fixa de quadrados (como um tabuleiro de xadrez). Eles olham para cada quadrado e decidem se é importante ou não.

  • O defeito: E se a coisa mais importante da imagem (como o olho de um gato) estiver exatamente na linha entre dois quadrados? O modelo é forçado a escolher um dos dois quadrados inteiros. Ele pode pegar metade do olho e metade do fundo, ou perder o olho completamente. É como tentar comer uma sopa com um garfo: é possível, mas é ineficiente e frustrante. Você perde o "suco" (a informação) que fica entre os dentes do garfo.

A Solução (SPoT):
Os autores deste paper propõem uma ideia chamada SPoT (Subpixel Placement of Tokens).
Em vez de usar o "garfo" (a grade fixa), o SPoT permite que o modelo coloque seus "post-its" em qualquer lugar da imagem, com precisão de subpixel.

  • A analogia: Imagine que, em vez de ter que colocar o post-it no centro de um quadrado do tabuleiro, você pode colá-lo exatamente no centro do olho do gato, mesmo que isso signifique que o post-it fique "flutuando" entre as linhas do tabuleiro. O modelo pode escolher os pontos exatos onde a informação é mais rica.

Como eles descobriram isso? (O Oráculo):
Para provar que essa ideia funciona, eles criaram uma ferramenta chamada "SPoT-ON". Pense nisso como um GPS de alta precisão ou um "Oráculo" (uma bola de cristal).

  1. Eles deixaram o computador tentar encontrar, para cada imagem, a posição perfeita de 25 pontos (em vez dos 196 padrões) que dariam a melhor resposta possível.
  2. O resultado surpreendente: Eles descobriram que, com apenas 12,5% dos pontos originais (25 em vez de 196), mas colocados nos lugares certos, o modelo conseguia acertar a classificação da imagem com uma precisão incrível (quase 91% no teste deles).
  3. Isso mostra que o problema não é que o modelo precisa de mais dados, mas sim que os dados atuais estão sendo coletados de forma desajeitada.

O que eles aprenderam sobre "onde" colocar os pontos?
Eles testaram diferentes estratégias para escolher onde colocar esses pontos:

  • Aleatório: Funciona, mas não é ótimo.
  • Focado no centro: Funciona bem, porque muitas fotos têm o objeto no meio.
  • Focado no que é "chamativo" (Saliency): Funciona muito bem. Se o modelo coloca os pontos onde os olhos humanos olhariam primeiro (o rosto, o objeto principal), ele acerta mais.
  • A descoberta: Em situações com poucos pontos (espaço limitado), focar no objeto principal é o segredo. Mas se você tiver muitos pontos, é melhor espalhar a grade uniformemente para cobrir tudo.

Por que isso é importante?

  1. Velocidade e Economia: Se você precisa de menos pontos para ter a mesma precisão, o computador processa a imagem muito mais rápido e gasta menos energia. É como dirigir um carro com menos combustível, mas na mesma velocidade.
  2. Flexibilidade: O modelo deixa de ser "rígido" e passa a ser "líquido", adaptando-se à forma do objeto, não à forma do quadrado.
  3. Transferência: O que eles aprenderam com um modelo (onde colocar os pontos para um cachorro) funcionou bem em outro modelo diferente. Isso significa que a "geografia" da informação na imagem é real e não apenas um truque de um modelo específico.

Resumo em uma frase:
O SPoT quebra as grades rígidas da Inteligência Artificial, permitindo que ela olhe para a imagem com uma "lupa" móvel e precisa, escolhendo exatamente onde olhar para entender o mundo com menos esforço e mais inteligência.