TokenCLIP: Token-wise Prompt Learning for Zero-shot Anomaly Detection

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een superintelligente robot hebt die alles kan zien en begrijpen, maar die nog nooit een gebroken kopje of een vlek op een tapijt heeft gezien. Dit is het probleem bij het detecteren van anomalieën (afwijkingen) in nieuwe objecten. De robot (in dit geval een AI-model genaamd CLIP) is slim, maar hij is gewend om alles met één en dezelfde "vertaalboek" te benaderen.

Hier is wat het paper TokenCLIP doet, uitgelegd in simpele taal met een paar leuke vergelijkingen.

Het Probleem: De "Eén-Size-Fits-All" Fout

Stel je voor dat je een leraar hebt die alle leerlingen in één klas moet onderwijzen.

De ene leerling heeft moeite met wiskunde.
De andere heeft moeite met geschiedenis.
De derde heeft moeite met tekenen.

De huidige methoden doen alsof de leraar één groot, vaag verhaal vertelt dat voor iedereen hetzelfde moet werken. Hij zegt: "Let op, er is iets mis!" Maar omdat hij niet specifiek is, mist hij de fijne details. Als er een klein krasje op een dure auto zit én een grote tumor in een röntgenfoto, gebruikt de AI hetzelfde algemene signaal voor beide. Het resultaat? De AI is goed in het zien van grote, duidelijke fouten, maar mist de subtiele, specifieke problemen.

De Oplossing: TokenCLIP (De Slimme Vertaler)

TokenCLIP lost dit op door te stoppen met het gebruik van één groot verhaal. In plaats daarvan maakt het vele kleine, gespecialiseerde vertalers aan.

Hier is hoe het werkt, stap voor stap:

1. De "Token" (Het Puzzelstukje)

Een afbeelding wordt door de computer opgedeeld in duizenden kleine stukjes, net als een puzzel. Elk stukje heet een "token".

Vroeger: De AI vroeg aan één vertaler: "Wat zie je op dit stukje?" en kreeg een vaag antwoord.
Nu: TokenCLIP vraagt aan een team van gespecialiseerde vertalers.

2. Het Team van Gespecialiseerde Subgroepen

Stel je voor dat je een team van experts hebt:

Expert A is gespecialiseerd in randen en kanten (zoals een scheur in een tegel).
Expert B is gespecialiseerd in kleurveranderingen (zoals een vlek op een shirt).
Expert C is gespecialiseerd in achtergronden (om te weten wat "normaal" is).

TokenCLIP heeft een slimme manier om te beslissen welke expert welk puzzelstukje moet bekijken.

3. De "Optimale Transport" (De Slimme Logistiek)

Hoe weet de AI welke expert bij welk stukje hoort? Dat is het meest ingenieuze deel.
Stel je voor dat je een vrachtwagenchauffeur bent die goederen (de puzzelstukjes) moet verdelen over verschillende magazijnen (de experts).

Je wilt niet dat alle goederen naar één magazijn gaan (dat is te druk en onnauwkeurig).
Je wilt ook niet dat elke chauffeur willekeurig rondrijdt.

TokenCLIP gebruikt een wiskundige methode (genaamd Optimal Transport) om de kortste en meest logische route te vinden. Het berekent: "Welk puzzelstukje past het beste bij welke expert?"

Een stukje met een scherpe rand gaat naar Expert A.
Een stukje met een vreemde kleur gaat naar Expert B.

Dit zorgt ervoor dat elke expert zich specialiseert in zijn eigen ding, in plaats van alles te proberen te doen.

4. De Top-K Selectie (Niet te veel rommel)

Soms past een puzzelstukje bij meerdere experts. Om het niet te verwarrend te maken, kiest TokenCLIP alleen de top 2 of 3 experts die het beste passen. Het negeert de rest. Dit houdt het systeem scherp en snel.

Waarom is dit zo goed?

Fijne details: Omdat elke expert zich op één ding focust, ziet de AI ook de kleinste krasjes of vlekjes die voorheen over het hoofd werden gezien.
Snelheid: Het is niet nodig om voor elk van de duizenden puzzelstukjes een nieuwe, unieke expert te trainen (dat zou te lang duren). Ze delen een team van experts, maar kiezen slim wie er aan de slag gaat.
Alles-in-één: Het werkt goed voor industriële defecten (zoals een gebroken schroef) én medische beelden (zoals een tumor), omdat het systeem leert om te kijken naar de betekenis van het beeld, niet alleen naar de vorm.

Samenvatting in één zin

TokenCLIP maakt van een AI die alles vaag bekijkt, een team van gespecialiseerde detectives die elk hun eigen taak hebben, zodat ze samen elk klein foutje in een afbeelding kunnen vinden, of het nu een gebroken machineonderdeel of een medische afwijking is.

Het is alsof je van een enkele, vermoeide leraar overstapt op een school met gespecialiseerde vakdocenten die precies weten wat ze moeten doen.

Each language version is independently generated for its own context, not a direct translation.

Titel: TokenCLIP: Token-wise Prompt Learning voor Zero-Shot Anomalie Detectie

Auteurs: Qihang Zhou, Bin-Bin Gao, Guansong Pang, Xin Wang, Jiming Chen, Shibo He.
Affiliaties: Zhejiang University, Tencent YouTu Lab, Singapore Management University, Qilu University of Technology.

1. Het Probleem

Bestaande methoden voor zero-shot anomalie detectie (ZSAD) met behulp van CLIP (Contrastive Language-Image Pre-training) kampen met een fundamenteel beperking: indiscriminate alignment (ononderscheidende uitlijning).

Huidige aanpak: Deze methoden gebruiken één enkele, tekst-agnostische ruimte om alle visuele tokens (beeldpatches) uit te lijnen met tekstuele prompts. Of het nu gaat om een barst in een tapijt of een tumor in een hersenscan, alle visuele elementen worden gedwongen om zich aan te passen aan dezelfde tekstuele ruimte.
Gevolg: Deze grove uitlijning verhindert het model om gevarieerde en fijne anomalie-semantiek nauwkeurig te vangen. Het model moet een compromis sluiten tussen verschillende semantische tokens, wat leidt tot een voorkeur voor veelvoorkomende anomalieën ten koste van zeldzame of specifieke semantische details.
Uitdaging bij oplossing: Het toewijzen van een unieke tekstuele embedding aan elk visueel token zou de oplossing zijn, maar dit is computationeel onhaalbaar (te hoge kosten voor het coderen van duizenden tekstprompts) en leidt tot onderfitting omdat elke token-specifieke embedding onvoldoende geoptimaliseerd wordt tijdens het trainen.

2. Methodologie: TokenCLIP

TokenCLIP introduceert een token-wise aanpassingsframework dat dynamische uitlijning mogelijk maakt zonder de computationele kosten van unieke embeddings per token. De kern van de methode bestaat uit twee hoofdmodules:

A. Multi-Head Tekst Prompt Learning

In plaats van één tekstuele ruimte te gebruiken, projecteert TokenCLIP een basis tekstuele ruimte naar meerdere orthogonale tekstuele subruimtes.

Scheiding van semantiek: Er worden aparte prompts gebruikt voor globale (beeldniveau) en lokale (pixelniveau) anomalie-semantiek.
Multi-head projectie: De lokale embeddings worden via een multi-head mechanisme (MLP) geprojecteerd naar een set van orthogonale subruimtes ( $O = \{o_1, ..., o_Q\}$ ).
Orthogonaliteitsregularisatie: Een straffunctie zorgt ervoor dat deze subruimtes orthogonaal blijven, wat semantische diversiteit bevordert en redundantie minimaliseert.

B. Dynamische Uitlijning via Optimaal Transport (OT)

Om elk visueel token dynamisch toe te wijzen aan de meest relevante tekstuele subruimte, wordt het probleem geformuleerd als een Optimaal Transport (OT) probleem.

Het OT-probleem: Visuele patch tokens (bronverdeling) worden getransporteerd naar de tekstuele subruimtes (doelverdeling) met als doel de totale transportkosten te minimaliseren. De kostenmatrix is gebaseerd op de cosinus-afstand tussen visuele en tekstuele representaties.
Oplossing: Het probleem wordt opgelost met het Sinkhorn-Knopp algoritme (met entropische regularisatie) voor efficiëntie.
Randvoorwaarden:
- Marginal constraint: Zorgt ervoor dat elke tekstuele subruimte voldoende geoptimaliseerd wordt (geen subruimte wordt genegeerd).
- Minimale kosten: Moedigt subruimtes aan om zich te specialiseren in verschillende semantische patronen (vermijdt menging van clusters).
Top-K Sparsificatie: Het transportplan wordt verspreid door alleen de top- $K$ subruimtes met de hoogste toewijzingswaarde per token te behouden. Dit zorgt voor een scherpere, meer discriminatieve uitlijning.
Resultaat: Elk visueel token krijgt een gewogen combinatie van tekstuele subruimtes toegewezen, wat leidt tot token-niveau toezicht en fijne semantische uitlijning.

3. Belangrijkste Bijdragen

Inzicht in beperkingen: Het paper identificeert dat de huidige "one-size-fits-all" tekstuele uitlijning de capaciteit van het model beperkt om uitgebreide anomalie-semantiek te vangen.
TokenCLIP Framework: Een nieuw framework dat token-niveau toezicht biedt door elk visueel token dynamisch toe te wijzen aan een semantisch bewuste, gewogen combinatie van orthogonale tekstuele subruimtes.
OT-Formulering: Het formuleren van dynamische uitlijning als een Optimaal Transport-probleem. Dit garandeert via de randvoorwaarden dat subruimtes voldoende worden geoptimaliseerd en zich specialiseren in unieke semantische patronen.
Efficiëntie: Het vermijden van expliciete encoding van unieke teksten per token, wat de computationele last beperkt terwijl de prestaties toenemen.

4. Resultaten

TokenCLIP is uitgebreid getest op industriële en medische datasets voor zero-shot anomalie detectie.

Industriële Detectie (MVTec AD, VisA, etc.):
- TokenCLIP overtreft state-of-the-art baselines zoals AnomalyCLIP, WinCLIP en FAPrompt.
- Op MVTec AD bereikt het een pixel-niveau AUROC van 92.2% en PRO van 87.9%, een significante verbetering ten opzichte van AnomalyCLIP (91.1% AUROC, 81.4% PRO).
- De verbetering is vooral zichtbaar in het detecteren van fijne en subtiele anomalieën.
Medische Analyse (HeadCT, BrainMRI, ISIC, etc.):
- Het model toont sterke generalisatie over domeinen heen. Zelfs wanneer getraind op industriële data, presteert het superieur op medische datasets (bijv. 96.0% AUROC op HeadCT).
Analyse van Subruimtes:
- Visualisaties tonen aan dat specifieke subruimtes zich specialiseren in object-voorgrond (bijv. schroeven, pillen) terwijl andere zich richten op achtergronden of homogene texturen.
- Zonder OT (TokenCLIP-Van) faalt deze specialisatie; subruimtes concurreren om dezelfde tokens en vangen geen fijne semantiek.
Computationele Overhead:
- TokenCLIP introduceert slechts een minimale toename in inferentiële tijd en GPU-geheugenverbruik vergeleken met AnomalyCLIP, terwijl het aanzienlijk efficiënter is dan methoden zoals FAPrompt die meerdere prompts vereisen.

5. Betekenis en Conclusie

TokenCLIP vertegenwoordigt een paradigmaverschuiving in zero-shot anomalie detectie. In plaats van te vertrouwen op een statische, globale tekstuele uitlijning, introduceert het een dynamische, token-georiënteerde uitlijning die de complexe variabiliteit van anomalieën in verschillende visuele regio's beter kan modelleren.

Door het gebruik van Optimaal Transport om orthogonale subruimtes te laten specialiseren, slaagt het model erin om zowel globale als lokale anomalieën met hoge precisie te detecteren zonder de schaalbaarheid te verliezen. Dit heeft grote implicaties voor toepassingen in slimme fabricage (industriële inspectie) en medische beeldvorming, waar het detecteren van zeldzame en subtiele afwijkingen cruciaal is. De methode biedt een robuust fundament voor toekomstige ontwikkelingen in foundation model-based detectie.