Effect of Patch Size on Fine-Tuning Vision Transformers in Two-Dimensional and Three-Dimensional Medical Image Classification

Este estudo demonstra que, ao ajustar finamente Vision Transformers em 12 conjuntos de dados de imagens médicas 2D e 3D, o uso de tamanhos de patch menores (1, 2 e 4) resulta em ganhos significativos de precisão em comparação com patches maiores, embora com maior custo computacional, e que a fusão das previsões desses modelos via ensemble oferece melhorias adicionais de desempenho.

Massoud Dehghan, Ramona Woitek, Amirreza Mahbod

Publicado 2026-02-24
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar um computador a reconhecer doenças olhando para imagens médicas, como raio-X ou ressonâncias magnéticas. Para fazer isso, usamos uma inteligência artificial chamada Vision Transformer (ou ViT).

Pense no ViT como um detetive muito inteligente, mas que tem uma visão um pouco estranha: ele não consegue ver a imagem inteira de uma vez só. Em vez disso, ele precisa "cortar" a imagem em pedaços menores, como se fosse um quebra-cabeça, e analisar cada pedacinho individualmente antes de tirar uma conclusão.

O grande segredo deste estudo é: qual o tamanho ideal desses pedaços?

A Analogia do Quebra-Cabeça e da Lupa

A maioria dos pesquisadores, até agora, usava pedaços grandes (como peças de quebra-cabeça de 14x14 ou 16x16). É como tentar montar um quebra-cabeça complexo usando apenas peças gigantes. Você vê o "todo", mas perde os detalhes finos.

Os autores deste estudo perguntaram: "E se usarmos pedaços muito menores? E se usarmos peças minúsculas?"

Eles testaram cortar as imagens em pedaços cada vez menores, desde o tamanho original da imagem inteira até pedaços minúsculos (tamanho 1, 2 ou 4).

O Que Eles Descobriram?

A descoberta principal é surpreendente e simples: quanto menores os pedaços, melhor o detetive funciona.

  1. O Poder dos Detalhes: Quando o computador analisa pedaços muito pequenos, ele consegue ver texturas, bordas e pequenas irregularidades que seriam perdidas em pedaços grandes. É como trocar uma visão de longe por uma lupa poderosa.

    • Exemplo: Em um raio-X de pulmão, um pedaço grande pode apenas mostrar "área branca". Um pedaço pequeno consegue mostrar a textura fina que indica pneumonia.
  2. Resultados Incríveis:

    • Em imagens 2D (como fotos de pele ou raio-X), usar pedaços pequenos melhorou a precisão em até 12%.
    • Em imagens 3D (como volumes de ressonância magnética), a melhoria foi ainda maior, chegando a 23%.
    • Isso é como se o detetive, que antes errava 1 em cada 10 casos, passasse a errar apenas 1 em cada 100.
  3. O "Super-Exército" (Ensemble):

    • Os pesquisadores tiveram uma ideia genial: e se, em vez de escolher apenas um tamanho de pedaço, usássemos três modelos diferentes ao mesmo tempo? Um que usa pedaços minúsculos, outro um pouco maiores e outro médio.
    • Eles juntaram as opiniões desses três modelos (como um conselho de especialistas). O resultado? A precisão subiu ainda mais, especialmente nas imagens 2D.

O Preço a Pagar: A Computação

Tudo na vida tem um custo, e aqui o custo é a energia e o tempo do computador.

  • A Analogia da Multidão: Imagine que você tem uma sala com 100 pessoas (peças grandes). É fácil para o detetive conversar com todos. Agora, imagine que você corta cada pessoa em 100 pedaços menores. De repente, você tem 10.000 "pequenas pessoas" para conversar.
  • O computador precisa fazer muito mais cálculos para analisar esses milhões de pequenos pedaços.
    • Para imagens 2D, o custo aumenta um pouco.
    • Para imagens 3D (que já são complexas), o custo dispara. Reduzir o tamanho do pedaço pela metade pode tornar o cálculo 64 vezes mais pesado.

O Grande Desafio: O Computador Único

O que torna este estudo especial é que eles fizeram tudo isso usando apenas um computador comum (uma placa de vídeo de um PC gamer de ponta), e não um supercomputador gigante com milhares de máquinas.

Eles conseguiram isso escolhendo imagens pequenas (como se fossem miniaturas) para testar. Isso prova que você não precisa de uma fábrica de energia para descobrir essas coisas; um laboratório pequeno pode fazer ciência de ponta.

Resumo para Levar para Casa

  • O Problema: A inteligência artificial médica estava "olhando" as imagens de forma muito grosseira, perdendo detalhes importantes.
  • A Solução: Cortar as imagens em pedaços muito menores (como usar uma lupa).
  • O Resultado: Diagnósticos muito mais precisos, especialmente em 3D.
  • O Contra: O computador trabalha muito mais e gasta mais energia.
  • A Lição: Para ter a melhor precisão na medicina, vale a pena usar pedaços menores e, se possível, juntar a opinião de vários modelos diferentes.

Em suma, os autores mostraram que, na medicina, detalhes importam, e a inteligência artificial precisa olhar mais de perto para salvar vidas com mais eficácia.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →