Autores originais: Lukas Roming, Felix Lehnerer, Jonas V. Funk, Andreas Michel, Georg Maier, Thomas Längle, Jürgen Beyerer

Publicado 2026-05-15✓ Author reviewed ⓘ

📖 5 min de leitura🧠 Leitura aprofundada

CC BY 4.0

Autores originais: Lukas Roming, Felix Lehnerer, Jonas V. Funk, Andreas Michel, Georg Maier, Thomas Längle, Jürgen Beyerer

Artigo original sob licença CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Esta é uma explicação gerada por IA do artigo abaixo. Não foi escrita pelos autores. Para precisão técnica, consulte o artigo original. Ler aviso legal completo

Imagine que você é o chefe de controle de qualidade em uma fábrica massiva. Sua função é identificar pequenos defeitos em produtos que descem uma esteira rolante. Geralmente, você tem uma equipe de especialistas que estudaram milhares de produtos perfeitos. Eles sabem exatamente como deve ser um "bom" plugue de parede, um pedaço de tecido ou um pote de geleia. Se veem algo que não corresponde àquela memória perfeita, eles o sinalizam como um defeito.

No entanto, há uma pegadinha: a iluminação da fábrica está sempre mudando. Às vezes é brilhante, às vezes fraca, às vezes as sombras são estranhas. Isso confunde os especialistas porque o mesmo produto perfeito parece diferente sob luzes distintas. Eles podem começar a gritar "Defeito!" quando na verdade é apenas uma sombra, ou, pior, podem perder uma rachadura real porque a luz a está escondendo.

Este artigo apresenta um novo sistema superinteligente chamado SuperADD, projetado para resolver exatamente esse problema. Aqui está como ele funciona, dividido em conceitos simples:

1. O Superpoder "Sem Treinamento"

A maioria dos sistemas de IA é como alunos que precisam sentar em uma sala de aula por meses para aprender como um defeito se parece para cada produto específico. Se você introduzir um novo produto ou mudar a iluminação, terá que enviá-los de volta à escola para reaprender tudo.

SuperADD é diferente. É como um detetive que não precisa estudar o produto específico com antecedência. Ele usa um "cérebro" pré-treinado (chamado DINOv3) que já viu milhões de imagens da internet. Ele sabe como texturas e formas "normais" geralmente se parecem. Como não precisa ser re-treinado para cada nova linha de fábrica, pode ser implantado instantaneamente. É uma solução "plug-and-play".

2. A Estratégia do "Banco de Memória"

Em vez de tentar memorizar cada imagem perfeita, o sistema constrói um Banco de Memória.

Imagine que você tira uma foto de um plugue de parede perfeito.
O sistema divide essa foto em milhares de pequenas peças de quebra-cabeça (patches).
Ele salva a "essência" dessas peças em uma biblioteca gigante (o Banco de Memória).
Quando um novo produto desce a linha, o sistema o divide nas mesmas peças de quebra-cabeça e pergunta: "Tenho uma correspondência perfeita para esta peça na minha biblioteca?"
Se uma peça não corresponder a nada na biblioteca, é sinalizada como estranha (uma anomalia).

3. O Truque do "Quebra-Cabeça Sobreposto"

A versão original deste sistema tinha um problema: ela olhava para o produto em blocos grandes e não sobrepostos. Se um defeito acontecesse de ficar exatamente na linha entre dois blocos, o sistema poderia perdê-lo ou ficar confuso, como tentar ler uma palavra que foi cortada ao meio pela lombada de um livro.

SuperADD corrige isso usando patches sobrepostos. Imagine olhar para o produto através de uma janela que desliza ao redor, mas a janela é tão grande que se sobrepõe à visão anterior. Isso garante que, não importa onde esteja o defeito, ele seja visto claramente de múltiplos ângulos, tornando o sistema muito mais confiável.

4. O "Simulador de Iluminação"

Para se preparar para as luzes variáveis da fábrica, o sistema não olha apenas para as fotos de treinamento como elas estão. Ele artificialmente escurece e clareia as imagens durante sua fase de configuração. É como praticar para uma prova estudando em um quarto escuro, depois em um quarto brilhante e, em seguida, em um quarto com luzes piscando. Isso treina o sistema para ignorar as mudanças de iluminação e focar apenas na forma e textura reais do produto.

5. O "Fechamento Morfológico" (A Cola)

Às vezes, o sistema detecta um defeito, mas o resultado parece uma linha pontilhada e quebrada em vez de um risco sólido. É como ver um risco em um carro, mas apenas a parte do meio está destacada.

Para corrigir isso, o SuperADD usa uma etapa chamada Fechamento Morfológico. Pense nisso como uma cola mágica. Ela olha para os destaques quebrados e pontilhados e conecta gentilmente os pontos para formar uma forma sólida e suave. Também preenche quaisquer pequenos buracos dentro da área do defeito, garantindo que o relatório final mostre uma imagem completa e limpa do problema.

Os Resultados

O sistema foi testado em uma competição difícil (a Trilha Industrial VAND 4.0) usando um conjunto de dados chamado MVTec AD 2, que inclui itens complicados como latas de metal brilhantes, potes transparentes e pilhas de arroz.

O Desafio: Os dados de teste tinham condições de iluminação diferentes das dos dados de treinamento, e o sistema teve que funcionar em todos os diferentes tipos de objetos usando as mesmas configurações (sem ajuste personalizado para cada objeto).
O Resultado: O SuperADD venceu. Ele alcançou as pontuações mais altas entre todos os concorrentes.
- Identificou corretamente defeitos em Tecido cerca de 88% das vezes.
- Identificou corretamente defeitos em Arroz cerca de 74% das vezes.
- Mais importante, superou os melhores métodos anteriores, provando que você não precisa de uma IA complexa e treinada sob medida para cada produto individual para obter ótimos resultados.

Resumo

SuperADD é uma maneira inteligente, flexível e rápida de identificar defeitos em fábricas sem precisar re-treinar a IA para cada novo produto ou mudança de iluminação. Ele usa um cérebro pré-treinado, examina produtos em peças sobrepostas para evitar perder detalhes, pratica com mudanças de iluminação falsas para permanecer resistente e usa "cola" para garantir que o mapa final de defeitos esteja limpo e completo. É uma solução "tamanho único" que realmente se encaixa muito bem.

Resumo Técnico: SuperADD – Segmentação de Anomalias Agnóstica a Classes sem Treinamento

1. Declaração do Problema

O artigo aborda a Detecção de Anomalias Visuais (AD) na inspeção industrial, visando especificamente o desafio das mudanças de distribuição causadas por condições de aquisição variáveis (por exemplo, alterações de iluminação) entre o treinamento e a implantação. O trabalho está situado na Track Industrial VAND 4.0, que utiliza o conjunto de dados MVTec AD 2.

As principais restrições e desafios incluem:

Configuração Não Supervisionada: Os modelos são treinados exclusivamente em imagens normais (sem defeitos).
Robustez: Os modelos devem manter o desempenho apesar de mudanças significativas de aparência (iluminação, variabilidade de textura) entre os conjuntos de treinamento e teste.
Requisito Agnóstico a Classes: Ao contrário de iterações anteriores (VAND 3.0), onde arquiteturas ou hiperparâmetros específicos por classe eram comuns, o desafio exige uma única arquitetura e configuração compartilhada de hiperparâmetros em todas as classes de objetos para garantir a implantabilidade prática e esforço mínimo de adaptação.
Avaliação: O desempenho é medido pelo escore F1 em nível de pixel e AU-ROC em divisões privadas de teste (TESTpriv e TESTpriv,mix), onde a verdade fundamental é ocultada para evitar o sobreajuste.

2. Metodologia

O método proposto, SuperADD, é um pipeline sem treinamento construído sobre a estrutura SuperAD, que por sua vez é inspirada no PatchCore. Ela aproveita um backbone de Vision Transformer pré-treinado congelado para extrair características e realiza a detecção de outliers por vizinhança mais próxima sem atualizar os pesos do modelo.

2.1. Arquitetura e Extração de Características

Backbone: Os autores substituem o backbone DINOv2 usado no SuperAD pelo DINOv3 (ViT-H+/16), aproveitando suas representações visuais pré-treinadas superiores.
Embeddings Multinível: Vetores de características são extraídos de quatro camadas intermediárias (7, 15, 23 e 31) do transformador.
Construção do Banco de Memória: Um banco de memória de protótipos "normais" é construído a partir dos dados de treinamento.

2.2. Modificações Técnicas Chave

O artigo introduz várias adaptações específicas para aprimorar a robustez e a generalização:

Processamento por Patches Sobrepostos:
- Em vez de processar a imagem inteira ou tiles não sobrepostos, as imagens de entrada são divididas em patches sobrepostos ( $P=640$ , sobreposição $O=128$ ).
- Propósito: Isso reduz a sensibilidade a artefatos de posição de grade e previne falsas anomalias em regiões vazias ou nas bordas da imagem. Elimina a necessidade de preenchimento com zeros (zero-padding), o que pode criar embeddings de referência irrealistas.
- Inferência: Previsões redundantes em regiões sobrepostas são descartadas, e os embeddings restantes são remontados em um mapa coerente.
Estratégia de Subamostragem Refinada:
- Problema: O SuperAD original subamostrava 16 imagens, o que falhava em remover vetores de características quase duplicados dentro de uma imagem ou através de regiões similares.
- Solução: Os autores realizam a subamostragem diretamente nos vetores de características usando uma abordagem baseada em k-vizinhos mais próximos (k-NN).
- Mecanismo: Para cada vetor candidato, o número de vizinhos dentro de um limiar de distância global é calculado. Vetores com baixas pontuações (situados em regiões pouco povoadas do espaço de características) são mantidos. Isso garante um banco de memória compacto e diversificado que cobre melhor a distribuição dos dados, reduzindo ao mesmo tempo o uso de memória.
Aumento Baseado em Intensidade:
- Durante o processamento dos dados de treinamento, os valores dos pixels são escalados por um fator aleatório amostrado uniformemente de $[0.8, 1.2]$ .
- Propósito: Simular tempos de integração variados e condições de iluminação, melhorando assim a robustez a mudanças de iluminação entre os dados de treinamento e teste.
Limiarização e Pós-Processamento:
- Limiarização: Em vez de limiares específicos por classe derivados dos dados de teste, um único limiar é definido como uma versão escalada (fator de ganho 1.3–1.5) do percentil 95 dos valores do mapa de anomalias dos dados de treinamento.
- Fechamento Morfológico: Um passo iterativo de fechamento morfológico (16 iterações com elementos estruturantes lineares de raio 26 pixels em várias orientações) é aplicado para conectar defeitos lineares fragmentados (por exemplo, riscos) e fechar pequenas lacunas.
- Preenchimento de Regiões: Uma etapa final preenche buracos na máscara binária para garantir consistência espacial, particularmente onde as anomalias cruzam os limites dos patches.

3. Contribuições Principais

Os autores reivindicam as seguintes contribuições:

Framework Agnóstico a Classes: Um pipeline unificado usando uma única arquitetura e hiperparâmetros para todas as classes de objetos, aderindo às restrições do VAND 4.0.
Subamostragem Aprimorada: Um método de subamostragem no espaço de características que melhora a cobertura da distribuição de dados e a eficiência computacional em comparação com a seleção em nível de imagem.
Pré-processamento por Patches: A introdução de patches sobrepostos para mitigar artefatos dependentes de posição e melhorar a generalização.
Pós-processamento Robusto: A aplicação de fechamento morfológico iterativo e multi-orientado para gerar mapas de anomalias espacialmente consistentes.
Robustez à Iluminação: O uso de escalonamento de intensidade para simular mudanças de iluminação durante o treinamento.
Atualização do Backbone: A integração bem-sucedida do DINOv3 como extrator de características.

4. Resultados

O método foi avaliado no conjunto de dados MVTec AD 2 em três divisões: TESTpub, TESTpriv e TESTpriv,mix.

Métricas de Desempenho:
- TESTpub: Alcançou um escore F1 médio de 62,61% e AU-ROC0.05 de 83,93%.
- TESTpriv: Alcançou um escore F1 médio de 57,42%.
- TESTpriv,mix: Alcançou um escore F1 médio de 54,35%.
Comparação:
- O SuperADD superou o estado da arte anterior (ISVL do VAND 3.0), que obteve 53,81% no TESTpriv e 51,43% no TESTpriv,mix.
- Também superou outros métodos de destaque do ano anterior (RoBiS, ASEG) e baselines padrão como PatchCore e EfficientAD.
Desempenho Específico por Classe:
- Alto desempenho foi observado em Tecido (88,47% F1 no TESTpriv) e Arroz (73,83% F1).
- O desempenho foi menor em Lata (0,00% F1 no TESTpub, 11,59% no TESTpriv), atribuído a defeitos finos quase invisíveis ao olho humano.
- Wallplugs mostrou uma queda significativa no desempenho no TESTpriv em comparação com o TESTpub, provavelmente devido a defeitos mais sutis e uma menor tolerância a falsos positivos na verdade fundamental.

5. Significado e Reivindicações

O artigo posiciona o SuperADD como uma solução praticamente implantável para detecção de anomalias industriais. Seu significado reside em:

Eficiência sem Treinamento: Ao evitar o re-treinamento do modelo, o método permite a integração rápida de novas classes de produtos ou mudanças de design, um requisito crítico em ambientes industriais dinâmicos.
Generalização: A abordagem demonstra que uma única configuração agnóstica a classes pode lidar efetivamente com diversos tipos de objetos (produtos a granel, texturizados, reflexivos, transparentes) e condições de iluminação variáveis sem ajuste por classe.
Robustez a Mudanças de Distribuição: A combinação de DINOv3, aumento de intensidade e processamento por patches mitiga com sucesso a degradação de desempenho tipicamente causada por mudanças nas condições de aquisição.

Os autores reconhecem limitações, como a dificuldade em detectar partes faltantes (por exemplo, peças quebradas) ou riscos muito finos em superfícies reflexivas, mas enfatizam que o método localiza com sucesso pequenos defeitos em categorias como arroz e nozes e defeitos em grande escala com alta coerência. Sugere-se trabalho futuro para explorar bancos de memória duplos incorporando anomalias sintéticas via modelos de difusão, embora isso permaneça fora do escopo da reivindicação atual de não exigir treinamento.

SuperADD: Training-free Class-agnostic Anomaly Segmentation -- CVPR 2026 VAND 4.0 Workshop Challenge Industrial Track