Autori originali: Lukas Roming, Felix Lehnerer, Jonas V. Funk, Andreas Michel, Georg Maier, Thomas Längle, Jürgen Beyerer

Pubblicato 2026-05-15✓ Author reviewed ⓘ

📖 5 min di lettura🧠 Approfondimento

CC BY 4.0

Autori originali: Lukas Roming, Felix Lehnerer, Jonas V. Funk, Andreas Michel, Georg Maier, Thomas Längle, Jürgen Beyerer

Articolo originale sotto licenza CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Questa è una spiegazione generata dall'IA dell'articolo qui sotto. Non è stata scritta dagli autori. Per precisione tecnica, consulta l'articolo originale. Leggi il disclaimer completo

Immagina di essere il responsabile del controllo qualità in una fabbrica enorme. Il tuo compito è individuare minuscoli difetti sui prodotti che scorrono lungo un nastro trasportatore. Di solito, hai a disposizione un team di esperti che hanno studiato migliaia di prodotti perfetti. Sanno esattamente come dovrebbe apparire una presa a muro, un pezzo di tessuto o un barattolo di marmellata "perfetti". Se vedono qualcosa che non corrisponde a quella memoria perfetta, lo segnalano come difetto.

Tuttavia, c'è un problema: l'illuminazione della fabbrica cambia continuamente. A volte è luminosa, a volte fioca, a volte le ombre sono strane. Questo confonde gli esperti perché lo stesso prodotto perfetto appare diverso sotto luci diverse. Potrebbero iniziare a gridare "Difetto!" quando in realtà è solo un'ombra, o peggio, potrebbero perdere una vera crepa perché la luce la nasconde.

Questo documento presenta un nuovo sistema super-intelligente chiamato SuperADD, progettato per risolvere esattamente questo problema. Ecco come funziona, scomposto in concetti semplici:

1. Il superpotere "Senza Addestramento"

La maggior parte dei sistemi di intelligenza artificiale sono come studenti che devono sedersi in una classe per mesi per imparare come appare un difetto per ogni singolo prodotto. Se introduci un nuovo prodotto o cambi l'illuminazione, devi rimandarli a scuola per reimparare tutto.

SuperADD è diverso. È come un detective che non ha bisogno di studiare il prodotto specifico in anticipo. Utilizza un "cervello" pre-addestrato (chiamato DINOv3) che ha già visto milioni di immagini provenienti da internet. Sa come appaiono generalmente le texture e le forme "normali". Poiché non ha bisogno di essere riaddestrato per ogni nuova linea di produzione, può essere implementato istantaneamente. È una soluzione "plug-and-play".

2. La strategia della "Banca di Memoria"

Invece di cercare di memorizzare ogni singola immagine perfetta, il sistema costruisce una Banca di Memoria.

Immagina di scattare una foto di una presa a muro perfetta.
Il sistema scompone quella foto in migliaia di piccoli pezzi di puzzle (patch).
Salva l'"essenza" di quei pezzi in una gigantesca libreria (la Banca di Memoria).
Quando un nuovo prodotto arriva lungo la linea, il sistema lo scompone negli stessi pezzi di puzzle e chiede: "Ho una corrispondenza perfetta per questo pezzo nella mia libreria?"
Se un pezzo non corrisponde a nulla nella libreria, viene segnalato come strano (un'anomalia).

3. Il trucco del "Puzzle Sovrapposto"

La versione originale di questo sistema aveva un problema: osservava il prodotto in grandi blocchi non sovrapposti. Se un difetto si trovava esattamente sulla linea di confine tra due blocchi, il sistema poteva perderlo o confondersi, come cercare di leggere una parola tagliata a metà dalla rilegatura di un libro.

SuperADD risolve questo problema utilizzando patch sovrapposte. Immagina di osservare il prodotto attraverso una finestra che scorre, ma la finestra è così grande da sovrapporsi alla vista precedente. Questo garantisce che, indipendentemente da dove si trovi un difetto, venga visto chiaramente da più angolazioni, rendendo il sistema molto più affidabile.

4. Il "Simulatore di Illuminazione"

Per prepararsi ai cambi di illuminazione della fabbrica, il sistema non guarda semplicemente le foto di addestramento così come sono. Artificialmente oscura e illumina le immagini durante la fase di configurazione. È come prepararsi per un esame studiando in una stanza buia, poi in una stanza luminosa e infine in una stanza con luci intermittenti. Questo addestra il sistema a ignorare i cambiamenti di illuminazione e a concentrarsi solo sulla forma e sulla texture effettive del prodotto.

5. La "Chiusura Morfologica" (La Colla)

A volte il sistema individua un difetto, ma il risultato appare come una linea tratteggiata e interrotta invece di un graffio solido. È come vedere un graffio su un'auto ma solo la parte centrale è evidenziata.

Per risolvere questo problema, SuperADD utilizza un passaggio chiamato Chiusura Morfologica. Pensa a questo come a una colla magica. Osserva le evidenze tratteggiate e interrotte e unisce delicatamente i puntini per formare una forma solida e liscia. Riempie anche eventuali piccoli buchi all'interno dell'area del difetto, assicurando che il rapporto finale mostri un'immagine completa e pulita del problema.

I Risultati

Il sistema è stato testato in una competizione impegnativa (la VAND 4.0 Industrial Track) utilizzando un dataset chiamato MVTec AD 2, che include oggetti difficili come lattine di metallo lucido, barattoli trasparenti e mucchi di riso.

La Sfida: I dati di test presentavano condizioni di illuminazione diverse rispetto ai dati di addestramento, e il sistema doveva funzionare su tutti i diversi tipi di oggetti utilizzando le stesse impostazioni (nessuna regolazione personalizzata per ogni oggetto).
L'Esito: SuperADD ha vinto. Ha ottenuto i punteggi più alti tra tutti i concorrenti.
- Ha identificato correttamente i difetti nel Tessuto circa l'88% delle volte.
- Ha identificato correttamente i difetti nel Riso circa il 74% delle volte.
- Soprattutto, ha battuto i metodi precedenti migliori, dimostrando che non serve un'intelligenza artificiale complessa e personalizzata per ogni singolo prodotto per ottenere grandi risultati.

Riepilogo

SuperADD è un modo intelligente, flessibile e veloce per individuare i difetti di fabbrica senza dover riaddestrare l'IA per ogni nuovo prodotto o cambiamento di illuminazione. Utilizza un cervello pre-addestrato, osserva i prodotti in pezzi sovrapposti per evitare di perdere dettagli, si allena con cambiamenti fittizi di illuminazione per rimanere robusto e usa "colla" per assicurarsi che la mappa finale dei difetti sia pulita e completa. È una soluzione "taglia unica" che in realtà si adatta molto bene.

Riepilogo Tecnico: SuperADD – Segmentazione di Anomalie Agnostica alla Classe Senza Addestramento

1. Enunciato del Problema

Il documento affronta la Rilevazione di Anomalie Visive (AD) nell'ispezione industriale, mirando specificamente alla sfida degli spostamenti di distribuzione causati da condizioni di acquisizione variabili (ad esempio, cambiamenti nell'illuminazione) tra addestramento e distribuzione. Il lavoro si colloca all'interno della Track Industriale VAND 4.0, che utilizza il dataset MVTec AD 2.

I vincoli e le sfide chiave includono:

Impostazione Non Supervisionata: I modelli sono addestrati esclusivamente su immagini normali (senza difetti).
Robustezza: I modelli devono mantenere le prestazioni nonostante significativi spostamenti nell'aspetto (illuminazione, variabilità della texture) tra i set di addestramento e di test.
Requisito Agnostico alla Classe: A differenza delle iterazioni precedenti (VAND 3.0), dove erano comuni architetture o iperparametri specifici per classe, la sfida impone una singola architettura e una configurazione condivisa di iperparametri per tutte le classi di oggetti, per garantire la praticità del dispiegamento e uno sforzo di adattamento minimo.
Valutazione: Le prestazioni sono misurate dal punteggio F1 a livello di pixel e dall'AU-ROC su split di test privati (TESTpriv e TESTpriv,mix), dove la verità fondamentale è nascosta per prevenire l'overfitting.

2. Metodologia

Il metodo proposto, SuperADD, è una pipeline senza addestramento costruita sul framework SuperAD, che a sua volta è ispirato a PatchCore. Sfrutta un backbone Vision Transformer pre-addestrato e congelato per estrarre caratteristiche ed esegue il rilevamento di outlier basato sui vicini più prossimi senza aggiornare i pesi del modello.

2.1. Architettura ed Estrazione delle Caratteristiche

Backbone: Gli autori sostituiscono il backbone DINOv2 utilizzato in SuperAD con DINOv3 (ViT-H+/16), sfruttando le sue rappresentazioni visive pre-addestrate superiori.
Embedding Multi-Livello: I vettori di caratteristiche sono estratti da quattro livelli intermedi (7, 15, 23 e 31) del transformer.
Costruzione della Banca di Memoria: Una banca di memoria di prototipi "normali" è costruita dai dati di addestramento.

2.2. Modifiche Tecniche Chiave

Il documento introduce diverse adattazioni specifiche per migliorare la robustezza e la generalizzazione:

Elaborazione a Patch Sovrapposte:
- Invece di elaborare l'intera immagine o mattonelle non sovrapposte, le immagini di input sono divise in patch sovrapposte ( $P=640$ , sovrapposizione $O=128$ ).
- Scopo: Questo riduce la sensibilità agli artefatti legati alla posizione della griglia e previene falsi allarmi in regioni vuote o ai bordi dell'immagine. Elimina la necessità di zero-padding, che può creare embedding di riferimento irrealistici.
- Inferenza: Le previsioni ridondanti nelle regioni sovrapposte vengono scartate e i rimanenti embedding vengono riassemblati in una mappa coerente.
Strategia di Sottocampionamento Raffinata:
- Problema: Il SuperAD originale sottocampionava 16 immagini, il che non riusciva a rimuovere vettori di caratteristiche quasi duplicati all'interno di un'immagine o attraverso regioni simili.
- Soluzione: Gli autori eseguono il sottocampionamento direttamente sui vettori di caratteristiche utilizzando un approccio basato sui k-vicini più prossimi (k-NN).
- Meccanismo: Per ogni vettore candidato, viene calcolato il numero di vicini entro una soglia di distanza globale. I vettori con punteggi bassi (situati in regioni scarsamente popolate dello spazio delle caratteristiche) vengono mantenuti. Questo garantisce una banca di memoria compatta e diversificata che copre meglio la distribuzione dei dati riducendo al contempo l'utilizzo di memoria.
Augmentation Basata sull'Intensità:
- Durante l'elaborazione dei dati di addestramento, i valori dei pixel sono scalati da un fattore casuale campionato uniformemente da $[0.8, 1.2]$ .
- Scopo: Simulare tempi di integrazione variabili e condizioni di illuminazione, migliorando così la robustezza agli spostamenti di illuminazione tra i dati di addestramento e di test.
Soglia e Post-Processing:
- Soglia: Invece di soglie specifiche per classe derivate dai dati di test, viene definita una singola soglia come versione scalata (fattore di guadagno 1.3–1.5) del 95° percentile dei valori della mappa di anomalie dai dati di addestramento.
- Chiusura Morfologica: Viene applicato un passo iterativo di chiusura morfologica (16 iterazioni con elementi strutturanti lineari di raggio 26 pixel a varie orientazioni) per collegare difetti lineari frammentati (ad esempio, graffi) e chiudere piccoli spazi vuoti.
- Riempimento delle Regioni: Un passo finale riempie i buchi nella maschera binaria per garantire la coerenza spaziale, in particolare dove le anomalie attraversano i confini delle patch.

3. Contributi Chiave

Gli autori rivendicano i seguenti contributi:

Framework Agnostico alla Classe: Una pipeline unificata che utilizza una singola architettura e iperparametri per tutte le classi di oggetti, aderendo ai vincoli VAND 4.0.
Miglioramento del Sottocampionamento: Un metodo di sottocampionamento nello spazio delle caratteristiche che migliora la copertura della distribuzione dei dati e l'efficienza computazionale rispetto alla selezione a livello di immagine.
Preprocessing a Patch: L'introduzione di patch sovrapposte per mitigare gli artefatti dipendenti dalla posizione e migliorare la generalizzazione.
Post-Processing Robusto: L'applicazione di una chiusura morfologica iterativa e multi-orientata per generare mappe di anomalie spazialmente coerenti.
Robustezza all'Illuminazione: L'uso della scalatura dell'intensità per simulare spostamenti di illuminazione durante l'addestramento.
Aggiornamento del Backbone: L'integrazione riuscita di DINOv3 come estrattore di caratteristiche.

4. Risultati

Il metodo è stato valutato sul dataset MVTec AD 2 su tre split: TESTpub, TESTpriv e TESTpriv,mix.

Metriche di Prestazione:
- TESTpub: Ha raggiunto un punteggio F1 medio del 62,61% e un AU-ROC0.05 dell'83,93%.
- TESTpriv: Ha raggiunto un punteggio F1 medio del 57,42%.
- TESTpriv,mix: Ha raggiunto un punteggio F1 medio del 54,35%.
Confronto:
- SuperADD ha superato il precedente stato dell'arte (ISVL da VAND 3.0), che ha ottenuto il 53,81% su TESTpriv e il 51,43% su TESTpriv,mix.
- Ha inoltre superato altri metodi principali dell'anno precedente (RoBiS, ASEG) e baseline standard come PatchCore ed EfficientAD.
Prestazioni Specifiche per Classe:
- Sono state osservate prestazioni elevate su Fabric (88,47% F1 su TESTpriv) e Rice (73,83% F1).
- Le prestazioni sono state più basse su Can (0,00% F1 su TESTpub, 11,59% su TESTpriv), attribuite a difetti fini appena visibili all'occhio umano.
- Wallplugs hanno mostrato un calo significativo delle prestazioni su TESTpriv rispetto a TESTpub, probabilmente a causa di difetti più sottili e di una minore tolleranza per i falsi positivi nella verità fondamentale.

5. Significato e Rivendicazioni

Il documento posiziona SuperADD come una soluzione praticamente dispiegabile per la rilevazione di anomalie industriali. Il suo significato risiede in:

Efficienza Senza Addestramento: Evitando il riaddestramento del modello, il metodo consente un'integrazione rapida di nuove classi di prodotti o cambiamenti di design, un requisito critico in ambienti industriali dinamici.
Generalizzazione: L'approccio dimostra che una singola configurazione agnostica alla classe può gestire efficacemente diversi tipi di oggetti (beni sfusi, texture, riflettenti, trasparenti) e condizioni di illuminazione variabili senza sintonizzazione per classe.
Robustezza agli Spostamenti di Distribuzione: La combinazione di DINOv3, augmentation dell'intensità ed elaborazione a patch mitiga con successo il degrado delle prestazioni tipicamente causato dagli spostamenti delle condizioni di acquisizione.

Gli autori riconoscono limitazioni, come la difficoltà nel rilevare parti mancanti (ad esempio, pezzi rotti) o graffi molto sottili su superfici riflettenti, ma sottolineano che il metodo localizza con successo piccoli difetti in categorie come riso e noci e difetti su larga scala con alta coerenza. Si suggerisce un lavoro futuro per esplorare banche di memoria duali che incorporano anomalie sintetiche tramite modelli di diffusione, sebbene ciò rimanga al di fuori della portata dell'attuale rivendicazione senza addestramento.

SuperADD: Training-free Class-agnostic Anomaly Segmentation -- CVPR 2026 VAND 4.0 Workshop Challenge Industrial Track