The MVTec AD 2 Dataset: Advanced Scenarios for Unsupervised Anomaly Detection

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een super-scherpe camera hebt die elk product op een fabrieksband moet controleren. Zijn er krassen? Is er een vlekje? Is er iets kapot? Dit heet "anomalie-detectie".

Voorheen hadden onderzoekers een paar bekende sets met foto's (zoals de MVTec AD dataset) om hun computers te trainen. Maar er is een probleem: die sets zijn te makkelijk geworden. Het is alsof je een chess-speler traint met alleen maar beginnerspartijtjes. De beste computers halen nu bijna 100% en scoren bijna identiek. Je kunt niet meer zien wie echt slim is en wie alleen maar een beetje beter is. Het is een "stagnatie".

Daarom hebben de makers van dit nieuwe papier, MVTec Software, een nieuw, veel moeilijker spel bedacht: MVTec AD 2.

Hier is wat ze hebben gedaan, vertaald in alledaags taal:

1. De "Supermarkt van Problemen"

De oude datasets waren als een schone, nette supermarkt waar alles perfect op zijn plek stond. MVTec AD 2 is als een volle, rommelige markt op een regenachtige dag.

Doorzichtige en glimmende dingen: Ze hebben foto's gemaakt van flessen en blikjes. Licht reflecteert hierop, waardoor het voor een computer heel lastig is om te zien of er een kras zit of dat het gewoon een lichtflits is.
Dingen die op elkaar liggen: Denk aan een bak met walnoten of doppen. Ze liggen niet netjes in een rij, maar liggen over elkaar heen, soms deels buiten beeld. Een computer moet nu kunnen zeggen: "Die kras zit op die specifieke noot, niet op de andere."
Zeer kleine foutjes: Soms is het defect zo klein als een stofje op een enorm tapijt. De oude computers zagen dit niet eens, of ze dachten dat het een fout was omdat ze te veel "ruis" zagen.
Slecht licht: In de echte fabriek verandert het licht. Soms is het donkerder, soms schijnt er een extra lampje. De oude datasets hadden alleen perfect licht. Dit nieuwe dataset heeft foto's gemaakt met vier verschillende lichtsoorten, zodat de computer moet leren werken in elke weersomstandigheid.

2. De "Onbekende Vijand"

Het belangrijkste idee is onbewaakt leren.
Stel je voor dat je een agent traint om verdachte pakketjes te vinden.

Oude methode: Je laat de agent alle verdachte pakketjes zien tijdens de training. Dan weet hij precies wat hij moet zoeken.
Nieuwe methode (MVTec AD 2): Je laat de agent alleen de normale, schone pakketjes zien. Hij moet zelf bedenken hoe "normaal" eruit ziet. Als hij dan later een pakketje ziet met een klein krasje, moet hij dat zelf herkennen als "raar".
De valstrik: De makers hebben de "antwoorden" (de exacte locaties van de fouten) op de testfoto's verborgen. Je kunt je computer niet zomaar even testen op je eigen laptop. Je moet je resultaten uploaden naar een geheime server (een soort "online examenhal"). De server kijkt dan pas of je het goed hebt gedaan. Dit voorkomt dat mensen "cheaten" door hun computer te trainen op de testvragen.

3. De Resultaten: "Nog niet klaar"

Toen ze de slimste computers van vandaag (de "state-of-the-art" modellen) op deze nieuwe test zetten, gebeurde er iets verrassends:

Op de oude, makkelijke tests scoorden ze 90%+.
Op deze nieuwe, moeilijke tests (MVTec AD 2) scoorden ze minder dan 60%.
Bij de strengste maatstaf (waar je geen enkele fout mag maken, zelfs niet op een heel klein stukje) zakten ze zelfs naar onder de 30%.

Dit betekent: Onze huidige technologie is nog niet klaar voor de echte wereld. Er is nog heel veel ruimte voor verbetering.

4. Waarom is dit belangrijk?

In de echte wereld (zoals bij het maken van medicijnen, auto-onderdelen of chips) mag er geen enkele fout doorheen sluipen.

Als je een computer gebruikt die 90% goed doet, betekent dat dat 1 op de 10 producten met een gebrek de fabriek verlaat. Dat is gevaarlijk of duur.
Met MVTec AD 2 willen de onderzoekers de wetenschappers dwingen om slimmere, robuustere systemen te bouwen die ook werken als het licht verandert of als de producten rommelig liggen.

Samenvattend in één zin:

De onderzoekers hebben een nieuwe, extreem moeilijke "examenhal" gebouwd voor computers die defecten moeten vinden, omdat de oude examens te makkelijk waren en de computers daar al te goed in waren geworden; nu moeten ze echt bewijzen dat ze kunnen werken in de chaotische, onvoorspelbare echte wereld.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "The MVTec AD 2 Dataset: Advanced Scenarios for Unsupervised Anomaly Detection" in het Nederlands.

Probleemstelling

In de afgelopen jaren is de prestatie van modellen voor onbegeleide anomaliedetectie op bestaande benchmarks (zoals MVTec AD en VisA) gaan verzadigen. State-of-the-art modellen scoren vaak binnen een marginaal verschil van minder dan één procentpunt, wat het moeilijk maakt om echt innovatieve benaderingen te onderscheiden van incrementele verbeteringen. Bovendien ontbreken in huidige datasets essentiële real-world scenario's die cruciaal zijn voor industriële inspectie, zoals:

Transparante en overlappende objecten.
Specifieke verlichtingstechnieken (donker-veld en achtergrondverlichting).
Objecten met een hoge variabiliteit in de normale toestand.
Extreem kleine defecten in grote afbeeldingen.
Veranderingen in lichtomstandigheden (distribution shifts) die voorkomen bij het inzetten van modellen op verschillende machines of door veroudering van verlichting.

De huidige evaluatiemethoden zijn vaak niet consistent, en het gebruik van testdata voor hyperparameter-tuning (wat strikt verboden zou moeten zijn in onbegeleide settings) ondermijnt de betrouwbaarheid van vergelijkingen.

Methodologie: Het MVTec AD 2 Dataset

De auteurs introduceren MVTec AD 2, een nieuwe dataset en benchmark bestaande uit acht uitdagende scenario's met in totaal meer dan 8.000 hoog-resolutie afbeeldingen (2,6 tot 5 megapixels).

Belangrijkste kenmerken van het dataset-ontwerp:

Geavanceerde Scenario's: De dataset bevat objecten zoals blikken, stof, fruitgelei, rijst, plaatstaal, flacons, wandklemmen en walnoten. Deze zijn gekozen vanwege specifieke moeilijkheden:
- Bulkgoederen: Overlappende objecten met willekeurige posities en hoeveelheden (bijv. walnoten, rijst).
- Transparantie en Reflectie: Objecten zoals flacons en fruitgelei die licht breken of reflecteren.
- Randdefecten: Defecten die zich direct aan de rand van de afbeelding bevinden (in tegenstelling tot eerdere datasets waar defecten vaak centraal lagen).
Verlichtingsvariatie (Distribution Shifts): Voor elk object zijn afbeeldingen gemaakt onder minimaal vier verschillende lichtomstandigheden. Dit omvat reguliere verlichting, maar ook onder- en overbelichting, en het gebruik van extra lichtbronnen (spotlights) om reflecties of ongelijke verlichting te simuleren.
- Trainingsdata: Alleen onder reguliere verlichting.
- Testdata: Bevat zowel dezelfde lichtomstandigheden als onbekende (nieuwe) lichtomstandigheden om de robuustheid te testen.
Ground Truth: Er zijn pixel-precieze segmentatielabels gemaakt. De annotatie is verfijnd door menselijke annotatoren en geautomatiseerde checks om fouten te minimaliseren.
Evaluatie Server: Om "data leakage" en overfitting op de testset te voorkomen, is de ground truth van de private testsets ( $TEST_{priv}$ en $TEST_{priv,mix}$ ) niet publiek. Evaluatie gebeurt uitsluitend via een centrale server.

Evaluatie en Metrieken

De auteurs evalueren zeven state-of-the-art methoden (o.a. PatchCore, Reverse Distillation, EfficientAD, MSFlow) op de nieuwe dataset.

Onafhankelijke drempel-metriek (Threshold-Independent): De primaire metriek is AU-PRO (Area Under the Per-Region Overlap). In tegenstelling tot AU-ROC, behandelt AU-PRO elk defectgebied gelijk, ongeacht de grootte.
- Nieuwe Standaard: De auteurs stellen een strengere integratiegrens voor: AU-PRO@0.05 (in plaats van de gebruikelijke 0.30). Dit is noodzakelijk omdat industriële toepassingen geen valse positieven mogen tolereren, vooral bij kleine defecten in grote afbeeldingen. Een FPR van 30% zou bij een 5MP-afbeelding een foutief geanalyseerd oppervlak opleveren dat 25.000 keer groter is dan het defect zelf.
Afhankelijke drempel-metriek (Threshold-Dependent): De F1-score wordt berekend op pixel- en beeldniveau om de praktische bruikbaarheid te beoordelen (beslissing: goed/afkeuren).
Efficiëntie: Inference-tijd en geheugengebruik worden gemeten op een NVIDIA RTX 2080Ti.

Resultaten

De resultaten tonen aan dat MVTec AD 2 een aanzienlijke uitdaging vormt voor bestaande methoden:

Prestatieverval: Waar modellen op MVTec AD vaak >90% AU-PRO scoren, daalt dit op MVTec AD 2 tot onder de 60% (bij AU-PRO@0.30) en zelfs onder de 31% bij de strengere AU-PRO@0.05.
Beste Model: EfficientAD presteert het beste in de reguliere setting (30,8% AU-PRO@0.05), gevolgd door PatchCore en RD++.
Robuustheid: Er zijn grote verschillen in robuustheid tegenover lichtveranderingen. Bijvoorbeeld, MSFlow daalt met 12,4 procentpunten bij veranderde lichtomstandigheden, terwijl RD slechts 1,4 procentpunt daalt.
Resolutie-afhankelijkheid: Het vergroten van de invoerresolutie (tot de helft van de originele grootte) kan de prestaties verdubbelen, maar leidt tot een exponentiële toename in rekentijd en geheugengebruik, wat in industriële toepassingen vaak onhaalbaar is.

Belangrijkste Bijdragen

Nieuwe Benchmark: MVTec AD 2 introduceert acht nieuwe, industriële relevante scenario's die ontbreken in eerdere datasets, met een focus op transparantie, overlappende objecten en kleine defecten.
Robuustheidstest: Voor het eerst wordt een dataset aangeboden die systematisch de robuustheid van modellen test onder realistische veranderingen in lichtomstandigheden (distribution shifts).
Striktere Evaluatie: De invoering van AU-PRO@0.05 en een centrale evaluatieserver garandeert een eerlijke, reproduceerbare en strikte vergelijking zonder data-lekage.
Realiteitstest: De dataset benadrukt het compromis tussen prestaties en rekenefficiëntie, wat cruciaal is voor de daadwerkelijke implementatie in productieomgevingen.

Significantie

Dit paper markeert een verschuiving in het veld van anomaliedetectie. Het toont aan dat de "eenvoudige" benchmarks verzadigd zijn en dat de volgende stap in onderzoek moet gaan over het oplossen van complexe, real-world problemen zoals variabele verlichting en kleine defecten in bulk. Door de strikte evaluatie en de openbare server, dwingt MVTec AD 2 de gemeenschap om zich te richten op methoden die niet alleen hoog scoren in ideale omstandigheden, maar ook robuust, schaalbaar en betrouwbaar zijn in de praktijk. Het stelt een nieuwe standaard voor wat een "opgelost" probleem in industriële visuele inspectie betekent.

The MVTec AD 2 Dataset: Advanced Scenarios for Unsupervised Anomaly Detection

1. De "Supermarkt van Problemen"

2. De "Onbekende Vijand"

3. De Resultaten: "Nog niet klaar"

4. Waarom is dit belangrijk?

Samenvattend in één zin:

Probleemstelling

Methodologie: Het MVTec AD 2 Dataset

Evaluatie en Metrieken

Resultaten

Belangrijkste Bijdragen

Significantie

Meer zoals dit

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers