VisualAD: Language-Free Zero-Shot Anomaly Detection via Vision Transformer

Dit paper introduceert VisualAD, een taalvrij zero-shot anomaliedetectiemodel dat puur op Vision Transformers vertrouwt door middel van leerbare tokens en speciale modules om state-of-the-art prestaties te bereiken zonder de complexiteit van vision-language modellen.

Yanning Hou, Peiyuan Li, Zirui Liu, Yitong Wang, Yanran Ruan, Jianfeng Qiu, Ke Xu

Gepubliceerd 2026-03-10
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een superdure, geavanceerde inspecteur bent die moet controleren of producten (zoals een handdoek of een medische scan) perfect zijn. Normaal gesproken leer je deze inspecteur door hem duizenden foto's van perfecte producten én duizenden foto's van defecte producten te laten zien. Maar wat als je een nieuwe productlijn krijgt waar je nog nooit een foto van hebt gezien? En wat als je geen enkele foto van een defect hebt?

Dat is het probleem dat VisualAD oplost. Het is een slimme manier om fouten te vinden in dingen die je nog nooit hebt gezien, zonder dat je ooit een foto van een fout hebt gezien.

Hier is hoe het werkt, vertaald naar een simpel verhaal:

1. Het oude probleem: De vertaler die niet nodig is

Vroeger gebruikten slimme computersystemen (zoals CLIP) een vertaler. Ze zagen een foto, vertaalden die naar een tekst (bijvoorbeeld: "dit is een perfecte handdoek" of "dit is een beschadigde handdoek") en vergeleken de tekst met de foto.

  • Het nadeel: Dit is als een spelletje "Stille Tussenkomst" waarbij je eerst een foto moet omschrijven in woorden, en dan pas kunt oordelen. Het is traag, onstabiel en vereist veel rekenkracht.

2. De nieuwe oplossing: VisualAD (De "Zichtbare" Inspecteur)

De onderzoekers van VisualAD zeiden: "Waarom vertalen we naar tekst? Waarom kijken we niet gewoon rechtstreeks met onze ogen?"

Ze bouwden een systeem dat alleen maar visueel is. Geen woorden, geen vertalingen. Alleen maar kijken.

Hoe werkt het? (De Analogie van de Twee Hoofden)

Stel je een Vision Transformer (een heel slimme computer die naar afbeeldingen kijkt) voor als een gigantisch raam dat is opgedeeld in duizend kleine raampjes (stukjes van de foto).

  1. De Twee Magische Stickers:
    In plaats van tekst te gebruiken, plakken ze twee speciale, leerbare "stickers" (tokens) op het raam:

    • Sticker A (De Normale): "Hoe ziet een perfecte handdoek eruit?"
    • Sticker B (De Fout): "Hoe ziet een beschadigde handdoek eruit?"
      Deze stickers zijn leeg aan het begin, maar ze leren snel wat "perfect" en wat "fout" betekent door alleen naar de foto's te kijken.
  2. Het Gesprek (Self-Attention):
    Deze twee stickers praten met al die kleine raampjes. Ze vragen: "Hey raampje, jij lijkt op een fout, of op een perfect stuk?"
    Naarmate ze meer lagen doorlopen, worden de stickers steeds slimmer. Ze leren de "gevoelens" van perfectie en fouten.

  3. De Speciale Brillen (SCA & SAF):
    Soms is het lastig om te zien waar precies de fout zit. Daarom gebruiken ze twee hulpmiddelen:

    • De Ruimtelijke Bril (SCA): Deze helpt de stickers om te weten waar ze moeten kijken. Het is alsof je met een vergrootglas door de foto loopt om kleine details (zoals een krasje) te vinden, in plaats van alleen naar het hele plaatje te staren.
    • De Herkalibratie (SAF): Soms zijn de stukjes van de foto wat "verward". Deze functie zorgt ervoor dat de stukjes weer scherp en duidelijk worden voordat de stickers hun oordeel vellen.

3. Het Resultaat: Een Koud Start-Genie

Het mooiste aan VisualAD is dat het koud start kan.

  • Je traint het systeem op een industriële fabriek (bijvoorbeeld om defecte blikjes te vinden).
  • Vervolgens stuur je het naar een ziekenhuis om medische scans te controleren op tumoren.
  • Het systeem heeft nooit een medische scan gezien tijdens het trainen, maar omdat het heeft geleerd wat "afwijkend" eruit ziet in het algemeen (via de visuele stickers), kan het de fouten in de medische scans ook vinden!

Waarom is dit zo cool?

  • Geen Woorden nodig: Het doet het allemaal met beelden, wat veel sneller en stabieler is dan het vertalen naar tekst.
  • Minder Gewicht: Het systeem is 99% lichter dan de oude methoden (want je hoeft geen zware taal-vertaler mee te nemen).
  • Beter Zien: De resultaten laten zien dat het niet alleen weet dat er iets mis is, maar ook precies waar (zoals een pijl die precies op de kras wijst).

Kortom: VisualAD is als een super-intelligente, visuele detective die geen woordenboek nodig heeft. Hij kijkt gewoon naar de foto, voelt intuitief wat "normaal" is en wat "raar", en wijst precies aan waar de fout zit, zelfs als hij dat soort fouten nog nooit eerder heeft gezien.