Scaling Laws in Patchification: An Image Is Worth 50,176 Tokens And More

Este trabalho demonstra que a redução contínua do tamanho dos patches em modelos de visão, chegando até a tokenização de pixels (1x1), melhora consistentemente o desempenho em diversas tarefas e arquiteturas, permitindo escalar sequências visuais para até 50.176 tokens e alcançar alta precisão no ImageNet-1k.

Feng Wang, Yaodong Yu, Guoyizhe Wei, Wei Shao, Yuyin Zhou, Alan Yuille, Cihang Xie

Publicado 2026-02-23
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar um computador a "ver" e entender o mundo, como se ele fosse um aluno muito inteligente, mas que precisa de ajuda para processar informações.

Por anos, a regra de ouro para ensinar esses computadores a ver imagens foi: "Não olhe para cada detalhe, apenas dê uma olhada rápida e resumida."

O Problema: O "Resumo" Imperfeito

Até agora, os modelos de visão computacional (como o famoso Vision Transformer) funcionavam assim:

  1. Eles pegavam uma foto (digamos, um gato).
  2. Cortavam a foto em quadrados grandes (como um mosaico de 16x16 peças).
  3. Transformavam cada quadrado em uma única "palavra" (token) para o computador ler.

A analogia: Imagine que você tem um livro de 500 páginas sobre a vida de um gato. Para economizar tempo, você decide resumir cada capítulo inteiro em apenas uma frase. O computador lê essas frases curtas.

  • O problema: Ao fazer esse resumo, você perde detalhes cruciais! O bigode do gato, a textura da pele, a expressão nos olhos... tudo isso se perde na "compressão". É como tentar entender a emoção de um filme assistindo apenas a um resumo de uma página.

A Descoberta: "Uma Imagem Vale por 50.000 Palavras"

Os pesquisadores deste artigo decidiram testar uma ideia ousada: "E se parássemos de resumir? E se mostrássemos ao computador cada pixel individualmente?"

Eles reduziram o tamanho desses "quadrados" (patches) gradualmente:

  • De quadrados grandes (16x16)
  • Para quadrados médios (8x8)
  • Até chegar ao mínimo possível: 1 pixel por 1 palavra.

O resultado foi surpreendente:
Quanto mais eles diminuíam o tamanho do quadrado (ou seja, quanto mais detalhes mostravam), melhor o computador ficava.

  • Não importa se era para identificar um gato, encontrar um carro ou separar partes de uma imagem; a performance sempre melhorou.
  • Eles conseguiram criar uma sequência de 50.176 "palavras" para uma única imagem (antes, eram apenas 196).
  • O computador atingiu um nível de precisão recorde (84,6% no teste padrão), provando que ver cada detalhe é melhor do que ver apenas o resumo.

A Grande Surpresa: O "Tradutor" Não é Mais Preciso

Havia outra descoberta interessante. Em tarefas complexas (como desenhar os limites de cada objeto na imagem), os cientistas costumavam usar um "tradutor" extra (chamado decoder head) no final do processo para ajudar a organizar os detalhes.

A analogia: Pense no computador como um pintor. Antes, achávamos que o pintor precisava de um assistente (o decoder) para terminar o quadro, porque a visão dele era muito "embaçada" (devido aos quadrados grandes).

  • A descoberta: Quando o computador começou a ver cada pixel individualmente (sem compressão), ele ficou tão bom que não precisava mais do assistente. O pintor conseguia fazer tudo sozinho com perfeição. Isso simplifica muito a arquitetura dos modelos futuros.

Por que isso importa? (A Mudança de Paradigma)

Antigamente, fazíamos esses "resumos" (compressão) porque os computadores eram lentos e a memória era cara. Era como se tivéssemos que ler um livro em voz muito rápida porque não tínhamos tempo.

Hoje, com computadores mais potentes e novas tecnologias eficientes, não precisamos mais fazer esse resumo.

  • A lição: Em vez de tentar encaixar uma imagem gigante em poucas palavras, devemos deixar a imagem falar com todas as suas 50.000 palavras.
  • O futuro: Isso abre caminho para modelos de visão que aprendem diretamente dos pixels, sem perder nenhuma informação no caminho, tornando as máquinas ainda mais inteligentes e precisas.

Em resumo: O papel diz que, para ver o mundo com clareza, não devemos olhar apenas através de janelas pequenas e distantes. Devemos nos aproximar e olhar cada detalhe, porque cada pixel importa.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →