TokenCLIP: Token-wise Prompt Learning for Zero-shot Anomaly Detection

Het paper introduceert TokenCLIP, een framework dat zero-shot anomaliedetectie verbetert door visuele tokens dynamisch en fijnmazig af te stemmen op orthogonale tekstuele subruimtes via een optimaal transportprobleem, waardoor de beperkingen van eerdere methoden die een enkele tekstuele ruimte gebruiken, worden overwonnen.

Qihang Zhou, Binbin Gao, Guansong Pang, Xin Wang, Jiming Chen, Shibo He

Gepubliceerd 2026-03-02
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een superintelligente robot hebt die alles kan zien en begrijpen, maar die nog nooit een gebroken kopje of een vlek op een tapijt heeft gezien. Dit is het probleem bij het detecteren van anomalieën (afwijkingen) in nieuwe objecten. De robot (in dit geval een AI-model genaamd CLIP) is slim, maar hij is gewend om alles met één en dezelfde "vertaalboek" te benaderen.

Hier is wat het paper TokenCLIP doet, uitgelegd in simpele taal met een paar leuke vergelijkingen.

Het Probleem: De "Eén-Size-Fits-All" Fout

Stel je voor dat je een leraar hebt die alle leerlingen in één klas moet onderwijzen.

  • De ene leerling heeft moeite met wiskunde.
  • De andere heeft moeite met geschiedenis.
  • De derde heeft moeite met tekenen.

De huidige methoden doen alsof de leraar één groot, vaag verhaal vertelt dat voor iedereen hetzelfde moet werken. Hij zegt: "Let op, er is iets mis!" Maar omdat hij niet specifiek is, mist hij de fijne details. Als er een klein krasje op een dure auto zit én een grote tumor in een röntgenfoto, gebruikt de AI hetzelfde algemene signaal voor beide. Het resultaat? De AI is goed in het zien van grote, duidelijke fouten, maar mist de subtiele, specifieke problemen.

De Oplossing: TokenCLIP (De Slimme Vertaler)

TokenCLIP lost dit op door te stoppen met het gebruik van één groot verhaal. In plaats daarvan maakt het vele kleine, gespecialiseerde vertalers aan.

Hier is hoe het werkt, stap voor stap:

1. De "Token" (Het Puzzelstukje)

Een afbeelding wordt door de computer opgedeeld in duizenden kleine stukjes, net als een puzzel. Elk stukje heet een "token".

  • Vroeger: De AI vroeg aan één vertaler: "Wat zie je op dit stukje?" en kreeg een vaag antwoord.
  • Nu: TokenCLIP vraagt aan een team van gespecialiseerde vertalers.

2. Het Team van Gespecialiseerde Subgroepen

Stel je voor dat je een team van experts hebt:

  • Expert A is gespecialiseerd in randen en kanten (zoals een scheur in een tegel).
  • Expert B is gespecialiseerd in kleurveranderingen (zoals een vlek op een shirt).
  • Expert C is gespecialiseerd in achtergronden (om te weten wat "normaal" is).

TokenCLIP heeft een slimme manier om te beslissen welke expert welk puzzelstukje moet bekijken.

3. De "Optimale Transport" (De Slimme Logistiek)

Hoe weet de AI welke expert bij welk stukje hoort? Dat is het meest ingenieuze deel.
Stel je voor dat je een vrachtwagenchauffeur bent die goederen (de puzzelstukjes) moet verdelen over verschillende magazijnen (de experts).

  • Je wilt niet dat alle goederen naar één magazijn gaan (dat is te druk en onnauwkeurig).
  • Je wilt ook niet dat elke chauffeur willekeurig rondrijdt.

TokenCLIP gebruikt een wiskundige methode (genaamd Optimal Transport) om de kortste en meest logische route te vinden. Het berekent: "Welk puzzelstukje past het beste bij welke expert?"

  • Een stukje met een scherpe rand gaat naar Expert A.
  • Een stukje met een vreemde kleur gaat naar Expert B.

Dit zorgt ervoor dat elke expert zich specialiseert in zijn eigen ding, in plaats van alles te proberen te doen.

4. De Top-K Selectie (Niet te veel rommel)

Soms past een puzzelstukje bij meerdere experts. Om het niet te verwarrend te maken, kiest TokenCLIP alleen de top 2 of 3 experts die het beste passen. Het negeert de rest. Dit houdt het systeem scherp en snel.

Waarom is dit zo goed?

  • Fijne details: Omdat elke expert zich op één ding focust, ziet de AI ook de kleinste krasjes of vlekjes die voorheen over het hoofd werden gezien.
  • Snelheid: Het is niet nodig om voor elk van de duizenden puzzelstukjes een nieuwe, unieke expert te trainen (dat zou te lang duren). Ze delen een team van experts, maar kiezen slim wie er aan de slag gaat.
  • Alles-in-één: Het werkt goed voor industriële defecten (zoals een gebroken schroef) én medische beelden (zoals een tumor), omdat het systeem leert om te kijken naar de betekenis van het beeld, niet alleen naar de vorm.

Samenvatting in één zin

TokenCLIP maakt van een AI die alles vaag bekijkt, een team van gespecialiseerde detectives die elk hun eigen taak hebben, zodat ze samen elk klein foutje in een afbeelding kunnen vinden, of het nu een gebroken machineonderdeel of een medische afwijking is.

Het is alsof je van een enkele, vermoeide leraar overstapt op een school met gespecialiseerde vakdocenten die precies weten wat ze moeten doen.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →