Scaling Laws in Patchification: An Image Is Worth 50,176 Tokens And More

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar um computador a "ver" e entender o mundo, como se ele fosse um aluno muito inteligente, mas que precisa de ajuda para processar informações.

Por anos, a regra de ouro para ensinar esses computadores a ver imagens foi: "Não olhe para cada detalhe, apenas dê uma olhada rápida e resumida."

O Problema: O "Resumo" Imperfeito

Até agora, os modelos de visão computacional (como o famoso Vision Transformer) funcionavam assim:

Eles pegavam uma foto (digamos, um gato).
Cortavam a foto em quadrados grandes (como um mosaico de 16x16 peças).
Transformavam cada quadrado em uma única "palavra" (token) para o computador ler.

A analogia: Imagine que você tem um livro de 500 páginas sobre a vida de um gato. Para economizar tempo, você decide resumir cada capítulo inteiro em apenas uma frase. O computador lê essas frases curtas.

O problema: Ao fazer esse resumo, você perde detalhes cruciais! O bigode do gato, a textura da pele, a expressão nos olhos... tudo isso se perde na "compressão". É como tentar entender a emoção de um filme assistindo apenas a um resumo de uma página.

A Descoberta: "Uma Imagem Vale por 50.000 Palavras"

Os pesquisadores deste artigo decidiram testar uma ideia ousada: "E se parássemos de resumir? E se mostrássemos ao computador cada pixel individualmente?"

Eles reduziram o tamanho desses "quadrados" (patches) gradualmente:

De quadrados grandes (16x16)
Para quadrados médios (8x8)
Até chegar ao mínimo possível: 1 pixel por 1 palavra.

O resultado foi surpreendente:
Quanto mais eles diminuíam o tamanho do quadrado (ou seja, quanto mais detalhes mostravam), melhor o computador ficava.

Não importa se era para identificar um gato, encontrar um carro ou separar partes de uma imagem; a performance sempre melhorou.
Eles conseguiram criar uma sequência de 50.176 "palavras" para uma única imagem (antes, eram apenas 196).
O computador atingiu um nível de precisão recorde (84,6% no teste padrão), provando que ver cada detalhe é melhor do que ver apenas o resumo.

A Grande Surpresa: O "Tradutor" Não é Mais Preciso

Havia outra descoberta interessante. Em tarefas complexas (como desenhar os limites de cada objeto na imagem), os cientistas costumavam usar um "tradutor" extra (chamado decoder head) no final do processo para ajudar a organizar os detalhes.

A analogia: Pense no computador como um pintor. Antes, achávamos que o pintor precisava de um assistente (o decoder) para terminar o quadro, porque a visão dele era muito "embaçada" (devido aos quadrados grandes).

A descoberta: Quando o computador começou a ver cada pixel individualmente (sem compressão), ele ficou tão bom que não precisava mais do assistente. O pintor conseguia fazer tudo sozinho com perfeição. Isso simplifica muito a arquitetura dos modelos futuros.

Por que isso importa? (A Mudança de Paradigma)

Antigamente, fazíamos esses "resumos" (compressão) porque os computadores eram lentos e a memória era cara. Era como se tivéssemos que ler um livro em voz muito rápida porque não tínhamos tempo.

Hoje, com computadores mais potentes e novas tecnologias eficientes, não precisamos mais fazer esse resumo.

A lição: Em vez de tentar encaixar uma imagem gigante em poucas palavras, devemos deixar a imagem falar com todas as suas 50.000 palavras.
O futuro: Isso abre caminho para modelos de visão que aprendem diretamente dos pixels, sem perder nenhuma informação no caminho, tornando as máquinas ainda mais inteligentes e precisas.

Em resumo: O papel diz que, para ver o mundo com clareza, não devemos olhar apenas através de janelas pequenas e distantes. Devemos nos aproximar e olhar cada detalhe, porque cada pixel importa.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: Leis de Escala na Patchificação

1. O Problema

Desde a introdução do Vision Transformer (ViT), a patchificação (divisão da imagem em blocos ou "patches", tipicamente 16x16 pixels) tornou-se o padrão de facto para tokenização em arquiteturas visuais. O objetivo principal dessa abordagem é comprimir o tamanho espacial da imagem, reduzindo a sequência de tokens e, consequentemente, o custo computacional (especialmente a complexidade quadrática da atenção em Transformers).

No entanto, os autores argumentam que essa compressão causa uma perda irreversível de informação visual.

Analogia: Uma imagem de 224x224 pixels contém muito mais informação do que um texto de 196 palavras, mas sob um ViT com patch 16x16, ambas ocupam um espaço de representação similar (196 tokens).
Limitação: A necessidade de manter custos computacionais gerenciáveis forçou arquiteturas a adotarem uma compressão agressiva, sacrificando detalhes finos que poderiam ser cruciais para a compreensão visual.
Questão Central: Existe um limite de desempenho imposto pela compressão? É possível escalar modelos visuais reduzindo a taxa de compressão (tamanho do patch) em vez de apenas aumentar o número de parâmetros ou o tamanho do modelo?

2. Metodologia

Os autores realizaram experimentos extensivos de "escalonamento de patch" (patch scaling), variando sistematicamente o tamanho do patch de 16x16 até 1x1 (tokenização de pixel).

Arquiteturas Utilizadas:
- ViT (DeiT): Usado para sequências mais curtas (até 4.096 tokens).
- Adventurer: Uma arquitetura baseada em Mamba (Modelos de Espaço de Estado) com complexidade linear. Esta foi crucial para permitir a experimentação com sequências extremamente longas (até 50.176 tokens) em recursos computacionais viáveis (ex: 256 GPUs A100).
Tarefas Avaliadas:
- Classificação de Imagens (ImageNet-1k).
- Segmentação Semântica (ADE20k).
- Detecção de Objetos e Segmentação de Instâncias (COCO).
Abordagem Experimental:
- Redução gradual do tamanho do patch ( $p = 16, 8, 4, 2, 1$ ).
- Comparação entre o ganho de desempenho por redução de patch vs. aumento de parâmetros.
- Investigação da necessidade de cabeças de decodificador (decoder heads) em tarefas densas à medida que a compressão diminui.
- Análise de ablação para distinguir se o ganho vem da maior informação (menor compressão) ou apenas do aumento do comprimento da sequência.

3. Contribuições Principais e Descobertas

A. Uma Nova Lei de Escala Visual
O estudo identifica uma Lei de Escala na Patchificação: à medida que o tamanho do patch diminui, a perda de teste (test loss) diminui suavemente e consistentemente, e a acurácia aumenta.

O desempenho melhora continuamente até atingir o limite físico de patch 1x1 (cada pixel é um token).
Isso contradiz a noção de que patches maiores são necessários para eficiência; em vez disso, sugere que a informação perdida na compressão é crítica.

B. Tokenização de Pixel e Sequências Ultra-longas

Os autores conseguiram escalar a sequência visual para 50.176 tokens (uma imagem de 224x224 com patch 1x1) sem particionamento.
Resultado: No ImageNet-1k, um modelo Base (100M parâmetros) alcançou 84.6% de acurácia, superando significativamente o estado da arte com patches maiores (82.6% com patch 16x16).

C. Redundância de Decodificadores em Tarefas Densas

Em tarefas de predição densa (como segmentação semântica), a necessidade de cabeças de decodificador complexas (ex: UperNet) diminui drasticamente à medida que o tamanho do patch se reduz.
Com patches pequenos (ex: 2x2 ou 1x1), o encoder sozinho produz características suficientemente granulares, permitindo modelos sem decodificador (decoder-free) com desempenho competitivo. Isso simplifica a arquitetura e sugere o caminho para fundações visuais puramente baseadas em encoder.

D. Escalonamento de Patch vs. Escalonamento de Parâmetros

Reduzir o tamanho do patch oferece um trade-off computação-precisão superior ao aumento de parâmetros.
Enquanto aumentar parâmetros encontra um platô de desempenho (e pode levar a instabilidade de treinamento), reduzir o patch continua a mostrar ganhos consistentes.
Aumentar o tamanho da entrada (resolução) tem limites devido à resolução original da imagem, enquanto reduzir o patch extrai mais informação da mesma entrada.

4. Resultados Chave

Tarefa	Métrica	Patch 16x16 (Baseline)	Patch 1x1 (Pixel)	Observação
Classificação (ImageNet)	Acurácia Top-1	~82.6% (DeiT/Adv-B)	84.6%	Ganho de ~2% com modelo Base.
Segmentação (ADE20k)	mIoU	~45.7% (Adv-B + UperNet)	46.8%	Modelo encoder-only (sem decodificador) atinge resultados competitivos com patches pequenos.
Detecção (COCO)	AP (Box)	~48.4% (Adv-B)	50.3%	Melhoria consistente em todas as métricas.
Sequência	Comprimento	196 tokens	50.176 tokens	Primeira vez que arquiteturas modernas processam imagens inteiras como sequências de pixels sem compressão.

Nota: Os resultados mostram que o ganho de desempenho vem principalmente da informação descomprimida, e não apenas do aumento do comprimento da sequência (confirmado por experimentos de ablação onde a sequência foi estendida por interpolação sem ganho significativo).

5. Significado e Impacto

Este trabalho propõe uma mudança de paradigma na visão computacional:

Fim da Compressão Necessária: A patchificação não é uma necessidade intrínseca para modelos visuais eficazes, mas sim um compromisso histórico com limitações de hardware. Com o avanço de hardware (GPUs modernas) e arquiteturas de complexidade linear (como Mamba), a tokenização de pixel torna-se viável.
Novo Eixo de Escala: Introduz o tamanho do patch como uma nova dimensão de escalabilidade, complementar ao tamanho do modelo e ao volume de dados.
Arquiteturas Simplificadas: A descoberta de que decodificadores tornam-se menos críticos com patches pequenos abre caminho para Modelos de Fundação Visuais Não-Compressivos (baseados apenas em encoder), capazes de aprender diretamente de cada pixel.
Fundação Teórica: O estudo fornece a base teórica para futuras pesquisas focadas em "aprender a partir de pixels" (learning from pixels), sugerindo que a informação visual de baixo nível, anteriormente descartada como ruído ou irrelevante, é fundamental para a compreensão visual de alto nível.

Em suma, o artigo demonstra que "uma imagem vale 50.176 tokens", e explorar essa densidade de informação através da redução da compressão espacial é o caminho para modelos visuais mais precisos e eficientes em termos de representação.

Scaling Laws in Patchification: An Image Is Worth 50,176 Tokens And More

O Problema: O "Resumo" Imperfeito

A Descoberta: "Uma Imagem Vale por 50.000 Palavras"

A Grande Surpresa: O "Tradutor" Não é Mais Preciso

Por que isso importa? (A Mudança de Paradigma)

Resumo Técnico: Leis de Escala na Patchificação

1. O Problema

2. Metodologia

3. Contribuições Principais e Descobertas

4. Resultados Chave

5. Significado e Impacto

Mais como este

Evaluating Generalization and Robustness in Russian Anti-Spoofing: The RuASD Initiative

KAIJU: An Executive Kernel for Intent-Gated Execution of LLM Agents

What Are Adversaries Doing? Automating Tactics, Techniques, and Procedures Extraction: A Systematic Review

Cardinality is Not Enough: Super Host Detection via Segmented Cardinality Estimation

A Dynamic Toolkit for Transmission Characteristics of Precision Reducers with Explicit Contact Geometry