ExDD: Explicit Dual Distribution Learning for Surface Defect Detection via Diffusion Synthesis

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je werkt in een fabriek waar prachtige koperen platen worden geproduceerd. Je taak is om te controleren of er krassen, vlekken of andere foutjes op zitten. Dit is lastig, want de meeste platen zijn perfect, en foutjes zijn zeldzaam.

In de oude manier van werken (de "oude garde" van kunstmatige intelligentie), leerde de computer alleen maar hoe een perfecte plaat eruitzag. De computer dacht dan: "Als het er niet precies zo uitziet als een perfecte plaat, dan is het een fout."

Het probleem hiermee is dat de computer soms in de war raakt. Als een plaat net iets anders glanst door het licht, of als er een rare schaduw valt, denkt de computer: "Oh, dat is een fout!" terwijl het gewoon een perfecte plaat is. De computer weet niet hoe een fout er echt uitziet, hij weet alleen hoe een perfecte plaat eruitziet.

ExDD (de nieuwe methode uit dit artikel) lost dit op met een slimme truc. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Twee geheugenboeken in plaats van één

Stel je voor dat de computer twee boeken heeft in zijn hoofd:

Boek A (De Normaal-Boek): Dit bevat duizenden foto's van perfecte platen.
Boek B (De Fouten-Boek): Dit is het nieuwe deel. In plaats van alleen te weten hoe een perfecte plaat eruitziet, leert de computer ook hoe een fout eruitziet.

In het verleden hadden computers alleen Boek A. ExDD heeft beide. Als de computer een plaat ziet, kijkt hij niet alleen: "Zit dit in Boek A?", maar ook: "Zit dit in Boek B?".

2. De "Magische Tekst" (Diffusie)

Er is een groot probleem: in de fabriek zijn er maar heel weinig foto's van echte fouten om in Boek B te plakken. Hoe leer je de computer dan hoe een kras eruitziet als je maar twee voorbeelden hebt?

De auteurs gebruiken een AI-kunstenaar (een zogenaamd "Diffusion Model").

De mensen geven de AI een opdracht in gewone taal, bijvoorbeeld: "Maak een foto van een koperen plaat met een diepe kras."
De AI "droomt" dan een nieuwe, perfecte foto van zo'n kras. Omdat de AI slim is, ziet deze kunstmatige kras eruit alsof hij echt is, met de juiste textuur en belichting.
De computer plakt deze kunstmatige krassen in Boek B. Nu heeft de computer een heel groot boek met voorbeelden van hoe fouten eruitzien, zonder dat de fabriek duizenden echte defecten nodig heeft.

3. De "Weegschaal" (Ratio Scoring)

Nu moet de computer beslissen: Is dit een fout of niet?
De oude methode keek alleen naar de afstand tot de perfecte plaat. ExDD gebruikt een slimme weegschaal:

Stap 1: Hoeveel lijkt dit op de perfecte plaat? (Hoe verder weg, hoe slechter).
Stap 2: Hoeveel lijkt dit op de fouten in Boek B? (Hoe dichterbij, hoe beter).

De computer doet een berekening: "Deze plek lijkt heel erg op een kras (Boek B) en heel weinig op een perfecte plaat (Boek A)."
Dit zorgt ervoor dat de computer veel zekerder is. Hij maakt minder fouten door schaduwen of rare lichtreflecties, omdat hij weet hoe een echte kras eruitziet.

Waarom is dit zo goed?

In de tests hebben ze dit getest op echte fabrieksdata.

De oude methoden (zoals PatchCore) waren goed, maar misten soms kleine details of dachten dat er fouten waren waar er geen waren.
De nieuwe ExDD-methode was superieur. Hij vond bijna alle fouten (97,7% nauwkeurigheid) en wist precies waar ze zaten.

De belangrijkste les:
Het beste resultaat kregen ze toen ze precies 100 kunstmatige fouten toevoegden.

Te weinig? Dan weet de computer niet genoeg over fouten.
Te veel? Dan raakt de computer in de war met te veel verschillende soorten kunstmatige fouten.
Precies 100? Dan is het een perfecte balans.

Samenvattend:
ExDD is als het geven van een detective een tweeledige training: hij leert niet alleen hoe een onschuldig verdachte eruitziet, maar hij krijgt ook een map met foto's van echte criminelen (die door een AI zijn gegenereerd). Hierdoor kan hij veel sneller en nauwkeuriger de echte schuldige vinden, zonder dat hij elke verdachte direct in de gevangenis gooit.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Industriële defectdetectie-systemen stuiten vaak op kritieke beperkingen binnen het paradigma van one-class anomaly detection (detectie van afwijkingen op basis van één klasse). Traditionele methoden trainen uitsluitend op "normale" (niet-defecte) data en veronderstellen dat alle afwijkingen uniform verdeeld zijn in de feature-ruimte. Dit is echter een gebrekkige aanname voor industriële defecten (zoals krassen of vlekken), die vaak specifieke, gestructureerde patronen vertonen die een eigen, onderscheidende verdeling vormen.

Daarnaast kampt de industrie met een schaarste aan gelabelde defectdata. Omdat defecten zeldzaam zijn in productieomgevingen, is er onvoldoende data om geavanceerde gecontroleerde (supervised) modellen te trainen. Bestaande synthetische generatiemethoden (zoals GANs) produceren vaak onrealistische artefacten of "out-of-distribution" data, wat de prestaties van de detectie verslechtert.

Methodologie: Het ExDD Framework

De auteurs stellen ExDD (Explicit Dual Distribution) voor, een unificerend framework dat twee kerninnovaties combineert: expliciete modellering van twee verdelingen (normaal en defect) en het gebruik van diffusiemodellen voor synthetische data-augmentatie.

1. Dual Memory Bank Architectuur

In tegenstelling tot traditionele methoden die slechts één geheugenbank voor normale features gebruiken, maakt ExDD gebruik van twee parallelle geheugenbanken:

Negative Memory Bank ( $M_N$ ): Bevat patch-features van normale (niet-defecte) afbeeldingen.
Positive Memory Bank ( $M_P$ ): Bevat patch-features van defecten.
- Belangrijk: Voor synthetische data kan de lokalisatie van defecte patches automatisch worden bepaald door het verschil tussen de originele en de gegenereerde afbeelding, wat de noodzaak van handmatige pixel-annotatie voor synthetische data elimineert.

De features worden geëxtraheerd met een vooraf getrainde encoder (bijv. ResNet) en onderworpen aan dimensionality reduction (Johnson-Lindenstrauss lemma) en greedy coreset subsampling om de geheugenbanken efficiënt te houden.

2. Diffusion-based Anomaly Generation

Om het tekort aan defectdata op te lossen, wordt een Latent Diffusion Model (LDM) ingezet, specifiek gebaseerd op Stable Diffusion XL.

Context-geconditioneerde synthese: Het model gebruikt tekstprompts (bijv. "copper metal scratches" of "white marks on the wall") die afgeleid zijn van domeinkennis.
Inpainting: Het model genereert defecten binnen de context van een normale afbeelding, waarbij de geometrische eigenschappen en de industriële context behouden blijven. Dit zorgt ervoor dat de gegenereerde defecten binnen de echte verdeling van industriële anomalieën vallen (in-distribution), in plaats van willekeurige ruis.

3. Neighborhood-Aware Ratio Scoring

De detectiemethode is uniek omdat deze niet alleen kijkt naar de afstand tot het "normale" geheugen, maar ook naar de gelijkenis met het "defecte" geheugen.

Afstandsberekening: Er wordt een afstand ( $s_N$ ) berekend tot de dichtstbijzijnde normale patch en een afstand ( $s_P$ ) tot de dichtstbijzijnde defecte patch.
Neighborhood-weighting: Een wegingsfactor wordt toegepast die rekening houdt met de lokale dichtheid in de feature-ruimte. Dit helpt bij het onderdrukken van valse positieven veroorzaakt door normale variaties.
Ratio Score: De uiteindelijke anomalie-score is een ratio:
$s_{ratio} = \frac{s_N}{s_P + \epsilon}$
Een hoge score ontstaat wanneer een patch ver weg is van normale patronen (hoge $s_N$ ) én dicht bij bekende defectpatronen ligt (lage $s_P$ ). Dit creëert een robuustere beslissingsgrens dan alleen afstand tot normaal.

Belangrijkste Bijdragen

Dual Distribution Learning: Formalisering van defectdetectie als een scheidingstprobleem van twee feature-verdelingen, waarbij expliciete geheugenbanken worden gebruikt voor zowel normale als defecte patronen.
Diffusion-Augmented Training: Integratie van tekst-geconditioneerde diffusiemodellen om synthetische defecten te genereren die geometrisch en statistisch consistent zijn met echte industriële defecten.
Ratio Scoring Mechanisme: Een nieuwe scoringsmethode die afstand tot normaliteit en gelijkenis aan defecten combineert, wat leidt tot scherpere detectiegrenzen en betere lokalisatie.

Resultaten

Het framework werd getest op de KSDD2-dataset (een industriële benchmark voor oppervlaktedefecten).

Prestaties: ExDD behaalde state-of-the-art resultaten:
- Image-level AUROC (I-AUROC): 94,2%
- Pixel-level AUROC (P-AUROC): 97,7%
Vergelijking: ExDD presteerde significant beter dan bestaande methoden zoals PatchCore, DRAEM en DSR, vooral op het gebied van pixel-precisie (lokalisatie). Waar DRAEM slechts 42,4% P-AUROC haalde, behaalde ExDD 97,7%.
Augmentatie-analyse: Experimenten toonden aan dat de toevoeging van synthetische data de prestaties verbetert. De optimale prestatie werd bereikt met 100 synthetische samples. Meer dan 150 samples leverde geen extra winst op en leidde zelfs tot een lichte daling, wat wijst op een verzadigingspunt in de diversiteit van de gegenereerde defecten.

Significantie

ExDD markeert een verschuiving in het veld van industriële kwaliteitscontrole. Door de veronderstelling van "uniforme outliers" te verwerpen en in plaats daarvan te werken met expliciete modellering van defectverdelingen, lost het framework een fundamenteel probleem op in one-class learning. De integratie van diffusiemodellen voor het genereren van realistische, context-bewuste synthetische data biedt een praktische oplossing voor het tekort aan gelabelde defectdata. Dit maakt het systeem uiterst geschikt voor real-world toepassingen waar nauwkeurige randdetectie en het minimaliseren van valse alarmen cruciaal zijn.

ExDD: Explicit Dual Distribution Learning for Surface Defect Detection via Diffusion Synthesis

1. Twee geheugenboeken in plaats van één

2. De "Magische Tekst" (Diffusie)

3. De "Weegschaal" (Ratio Scoring)

Waarom is dit zo goed?

Probleemstelling

Methodologie: Het ExDD Framework

1. Dual Memory Bank Architectuur

2. Diffusion-based Anomaly Generation

3. Neighborhood-Aware Ratio Scoring

Belangrijkste Bijdragen

Resultaten

Significantie

Meer zoals dit

When both Grounding and not Grounding are Bad -- A Partially Grounded Encoding of Planning into SAT (Extended Version)

Teaching an Agent to Sketch One Part at a Time

Learning to Disprove: Formal Counterexample Generation with Large Language Models

ItinBench: Benchmarking Planning Across Multiple Cognitive Dimensions with Large Language Models

PA2D-MORL: Pareto Ascent Directional Decomposition based Multi-Objective Reinforcement Learning