VisualAD: Language-Free Zero-Shot Anomaly Detection via Vision Transformer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een superdure, geavanceerde inspecteur bent die moet controleren of producten (zoals een handdoek of een medische scan) perfect zijn. Normaal gesproken leer je deze inspecteur door hem duizenden foto's van perfecte producten én duizenden foto's van defecte producten te laten zien. Maar wat als je een nieuwe productlijn krijgt waar je nog nooit een foto van hebt gezien? En wat als je geen enkele foto van een defect hebt?

Dat is het probleem dat VisualAD oplost. Het is een slimme manier om fouten te vinden in dingen die je nog nooit hebt gezien, zonder dat je ooit een foto van een fout hebt gezien.

Hier is hoe het werkt, vertaald naar een simpel verhaal:

1. Het oude probleem: De vertaler die niet nodig is

Vroeger gebruikten slimme computersystemen (zoals CLIP) een vertaler. Ze zagen een foto, vertaalden die naar een tekst (bijvoorbeeld: "dit is een perfecte handdoek" of "dit is een beschadigde handdoek") en vergeleken de tekst met de foto.

Het nadeel: Dit is als een spelletje "Stille Tussenkomst" waarbij je eerst een foto moet omschrijven in woorden, en dan pas kunt oordelen. Het is traag, onstabiel en vereist veel rekenkracht.

2. De nieuwe oplossing: VisualAD (De "Zichtbare" Inspecteur)

De onderzoekers van VisualAD zeiden: "Waarom vertalen we naar tekst? Waarom kijken we niet gewoon rechtstreeks met onze ogen?"

Ze bouwden een systeem dat alleen maar visueel is. Geen woorden, geen vertalingen. Alleen maar kijken.

Hoe werkt het? (De Analogie van de Twee Hoofden)

Stel je een Vision Transformer (een heel slimme computer die naar afbeeldingen kijkt) voor als een gigantisch raam dat is opgedeeld in duizend kleine raampjes (stukjes van de foto).

De Twee Magische Stickers:
In plaats van tekst te gebruiken, plakken ze twee speciale, leerbare "stickers" (tokens) op het raam:
- Sticker A (De Normale): "Hoe ziet een perfecte handdoek eruit?"
- Sticker B (De Fout): "Hoe ziet een beschadigde handdoek eruit?"
  Deze stickers zijn leeg aan het begin, maar ze leren snel wat "perfect" en wat "fout" betekent door alleen naar de foto's te kijken.
Het Gesprek (Self-Attention):
Deze twee stickers praten met al die kleine raampjes. Ze vragen: "Hey raampje, jij lijkt op een fout, of op een perfect stuk?"
Naarmate ze meer lagen doorlopen, worden de stickers steeds slimmer. Ze leren de "gevoelens" van perfectie en fouten.
De Speciale Brillen (SCA & SAF):
Soms is het lastig om te zien waar precies de fout zit. Daarom gebruiken ze twee hulpmiddelen:
- De Ruimtelijke Bril (SCA): Deze helpt de stickers om te weten waar ze moeten kijken. Het is alsof je met een vergrootglas door de foto loopt om kleine details (zoals een krasje) te vinden, in plaats van alleen naar het hele plaatje te staren.
- De Herkalibratie (SAF): Soms zijn de stukjes van de foto wat "verward". Deze functie zorgt ervoor dat de stukjes weer scherp en duidelijk worden voordat de stickers hun oordeel vellen.

3. Het Resultaat: Een Koud Start-Genie

Het mooiste aan VisualAD is dat het koud start kan.

Je traint het systeem op een industriële fabriek (bijvoorbeeld om defecte blikjes te vinden).
Vervolgens stuur je het naar een ziekenhuis om medische scans te controleren op tumoren.
Het systeem heeft nooit een medische scan gezien tijdens het trainen, maar omdat het heeft geleerd wat "afwijkend" eruit ziet in het algemeen (via de visuele stickers), kan het de fouten in de medische scans ook vinden!

Waarom is dit zo cool?

Geen Woorden nodig: Het doet het allemaal met beelden, wat veel sneller en stabieler is dan het vertalen naar tekst.
Minder Gewicht: Het systeem is 99% lichter dan de oude methoden (want je hoeft geen zware taal-vertaler mee te nemen).
Beter Zien: De resultaten laten zien dat het niet alleen weet dat er iets mis is, maar ook precies waar (zoals een pijl die precies op de kras wijst).

Kortom: VisualAD is als een super-intelligente, visuele detective die geen woordenboek nodig heeft. Hij kijkt gewoon naar de foto, voelt intuitief wat "normaal" is en wat "raar", en wijst precies aan waar de fout zit, zelfs als hij dat soort fouten nog nooit eerder heeft gezien.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Zero-shot anomaliedetectie (ZSAD) heeft tot doel afwijkingen te detecteren en te lokaliseren in categorieën waar het model tijdens het trainen geen voorbeelden van heeft gezien. Bestaande state-of-the-art methoden (zoals AnomalyCLIP) vertrouwen op Vision-Language Models (VLMs) zoals CLIP. Deze methoden gebruiken handgemaakte of geleerde tekst-prompten om "normale" en "abnormale" semantics te definiëren en vergelijken deze met beeldfeatures.

De auteurs identificeren echter twee belangrijke beperkingen van deze tekst-gebaseerde aanpak:

Afhankelijkheid van tekst: De noodzaak van een tekstencoder en cross-modale uitlijning leidt tot trainingsinstabiliteit en parameterredundantie.
Onderzoeksvraag: Als de uiteindelijke beslissing slechts wordt bepaald door twee sets latent vectoren (normaal en abnormaal), is de taalmodality dan echt onmisbaar? Anomalieën zijn immers structurele of statistische afwijkingen in textuur, vorm of kleur, die puur visueel kunnen worden vastgelegd.

Methodologie: VisualAD

VisualAD is een puur visueel framework dat de teksttak volledig elimineert en bouwt op een bevroren Vision Transformer (ViT) backbone. De kerncomponenten zijn:

Leerbare Tokens:
In plaats van tekst-prompten, introduceert VisualAD twee leerbare globale tokens direct in de tokensequentie van de ViT: een anomalie-token ( $t_a$ ) en een normaal-token ( $t_n$ ). Deze tokens interageren via multi-layer self-attention met de patch-tokens van het beeld. Hierdoor leren ze geleidelijk hoge-level concepten van "normaliteit" en "abnormaliteit" en sturen ze de patches om anomalie-gerelateerde aanwijzingen te benadrukken.
Spatial-Aware Cross-Attention (SCA):
Om de globale tokens te koppelen aan fijne ruimtelijke details, gebruikt VisualAD de SCA-module. Deze module:
- Voegt leerbare positionele encodings toe aan de patch-features.
- Gebruikt een klein aantal leerbare "anchor queries" om lokale ruimtelijke bewijzen te aggregeren.
- Past een token-gestuurde gating-mechanisme toe om de globale tokens dynamisch aan te passen aan de lokale structuur van het testbeeld.
  Dit zorgt voor een verrijking van de tokens met expliciete ruimtelijke informatie.
Self-Alignment Function (SAF):
Voordat de tokens worden vergeleken met de patch-features, worden de patch-features zelf herschikt (recalibrated) door een lichtgewicht Self-Alignment Function (SAF), geïmplementeerd als een kleine MLP. Dit helpt bij het uitlijnen van de features met de evoluerende semantics van de tokens.
Anomalie Scoring:
De anomalie-score wordt berekend door de cosine-afstand te nemen tussen de herschikte patch-features en de verrijkte tokens (normaal vs. abnormaal). Dit gebeurt over meerdere lagen van de ViT. De uiteindelijke anomalie-map is een fusie van deze lagen, en de beeldniveau-score wordt bepaald door het gemiddelde van de top 1% van de pixels met de hoogste scores.
Trainingsdoel:
Het model wordt getraind met een gezamenlijke loss-functie die bestaat uit:
- Binary Cross-Entropy voor beeldniveau-classificatie.
- Focal Loss en Dice Loss voor pixelniveau-segmentatie.
- Een contrastieve margin-penalty om te zorgen dat de normaal- en anomalie-token ver uit elkaar liggen in de feature-ruimte (cosine-similairiteit < -0.5).

Belangrijkste Bijdragen

Heronderzoek van tekst: Het artikel toont aan dat discriminatieve anomalie-features puur uit visuele aanwijzingen kunnen worden geleerd, zonder tekstuele prompts. Dit resulteert in een model met 99% minder trainbare parameters dan tekst-gebaseerde tegenhangers, met vergelijkbare of betere prestaties.
VisualAD Framework: Een ViT-only architectuur die twee leerbare tokens injecteert in een bevroren backbone, waardoor directe interactie met beeldpatches mogelijk is.
Nieuwe Modules: Introductie van SCA voor het injecteren van ruimtelijke bewijzen en SAF voor het herschalen van features, wat leidt tot stabiele multi-layer uitlijning.
State-of-the-Art Resultaten: De methode presteert uitstekend op zowel industriële als medische datasets zonder specifieke fine-tuning op de doelcategorieën.

Resultaten

VisualAD is geëvalueerd op 13 real-world datasets (6 industriële zoals MVTec-AD, VisA; en 7 medische zoals OCT17, BrainMRI).

Prestaties: VisualAD behaalt state-of-the-art resultaten op bijna alle datasets, zowel op beeldniveau (AUROC, F1-max) als pixelniveau (lokalisatie).
- Op industriële datasets (bijv. MVTec-AD) behaalt de CLIP-versie van VisualAD de beste resultaten in alle classificatiemetrieken.
- De DINOv2-versie toont sterke prestaties op pixelniveau-segmentatie.
Vergelijking: Het model presteert beter dan bestaande methoden zoals WinCLIP, AnomalyCLIP en AdaCLIP.
Stabiliteit: In tegenstelling tot tekst-gebaseerde methoden die fluctueren tijdens training, vertoont VisualAD een stabielere en soepelere leercurve.
Ablatie-studies:
- Het verwijderen van SCA of SAF leidt tot een significante prestatiedaling, wat aantoont dat beide modules essentieel zijn.
- Een kleine set van 4 anchor queries in SCA bleek optimaal; meer queries voegen redundantie toe.
- Het gebruik van features uit meerdere lagen (6, 12, 18, 24) levert de beste resultaten op door complementaire informatie te combineren.

Significantie

VisualAD bewijst dat de afhankelijkheid van taalmodellen voor zero-shot anomaliedetectie overbodig is. Door de teksttak te verwijderen, wordt het model:

Efficiënter: Drastische reductie in parameters en complexiteit.
Stabiel: Minder gevoelig voor trainingsinstabiliteit veroorzaakt door cross-modale uitlijning.
Universeel toepasbaar: Het werkt naadloos op verschillende backbones (CLIP, DINOv2) en domeinen (industrie en geneeskunde), wat het een robuuste oplossing maakt voor koude-start scenario's waar geen specifieke data beschikbaar is.

Deze aanpak opent de weg voor lichtere, snellere en direct toepasbare anomaliedetectiesystemen die puur vertrouwen op visuele intelligentie.

VisualAD: Language-Free Zero-Shot Anomaly Detection via Vision Transformer

1. Het oude probleem: De vertaler die niet nodig is

2. De nieuwe oplossing: VisualAD (De "Zichtbare" Inspecteur)

Hoe werkt het? (De Analogie van de Twee Hoofden)

3. Het Resultaat: Een Koud Start-Genie

Waarom is dit zo cool?

Probleemstelling

Methodologie: VisualAD

Belangrijkste Bijdragen

Resultaten

Significantie

Meer zoals dit

On the security of 2-key triple DES

Security issues in a group key establishment protocol

The impact of quantum computing on real-world security: A 5G case study

Yet another insecure group key distribution scheme using secret sharing

How not to secure wireless sensor networks: A plethora of insecure polynomial-based key pre-distribution schemes