AG-VAS: Anchor-Guided Zero-Shot Visual Anomaly Segmentation with Large Multimodal Models

AG-VAS is een nieuw framework dat Large Multimodal Models verbetert voor zero-shot visuele anomalie-segmentatie door het introduceren van leerbare semantische ankers en een semantisch-pixel uitlijningsmodule, wat leidt tot state-of-the-art prestaties op diverse industriële en medische benchmarks.

Zhen Qu, Xian Tao, Xiaoyi Bao, Dingrong Wang, ShiChen Qu, Zhengtao Zhang, Xingang Wang

Gepubliceerd 2026-03-03
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een super-intelligente assistent hebt die niet alleen kan lezen en kijken, maar ook heel goed begrijpt wat "normaal" is en wat "raar" is. Deze assistent heet AG-VAS.

In de wereld van machines en ziekenhuizen is het vaak lastig om defecten te vinden op dingen die de computer nog nooit eerder heeft gezien. Stel je voor dat je een nieuwe soort broodrooster maakt en je wilt dat de computer elk krasje of gat herkent, zonder dat je eerst duizenden foto's van die specifieke broodrooster hebt getoond. Dat is wat dit papier lost.

Hier is hoe het werkt, vertaald in alledaagse taal:

1. Het Probleem: De "Blinde" Camera

Vroeger waren slimme camera's als een kind dat net leren lezen. Als je vroeg: "Zoek het gat!", keek de camera naar het woord "gat" en probeerde het te matchen met een echte afbeelding van een gat. Maar wat als het defect een heel klein krasje is, of een rare vlek? Die woorden zijn vaak vaag. De computer wist niet precies waar het moest kijken, en verwarde vaak de achtergrond met het defect. Het was alsof je iemand vraagt om een naald te vinden in een hooiberg, maar je geeft ze alleen een vaag idee van hoe een naald eruit zou kunnen zien.

2. De Oplossing: De "Anker-Boodschappen"

De onderzoekers hebben een nieuw systeem bedacht, AG-VAS, dat werkt met drie speciale "anker-woorden" (of tokens). Denk hierbij aan drie magische sleutels die de computer in zijn woordenboek heeft gekregen:

  • [SEG] (De Specifieke Sleutel): Dit is als een fotograaf. Hij zegt: "Kijk, hier is een concreet voorwerp: een gat, een kras, een vlek." Hij maakt het abstracte idee van "defect" tastbaar.
  • [NOR] (De Normale Sleutel): Dit is als een veiligheidswachter die zegt: "Dit hier is normaal. Dit is hoe het eruit moet zien."
  • [ANO] (De Raar Sleutel): Dit is de detective die zegt: "Aha! Dit hier is niet normaal. Het wijkt af van wat de wachter net zei."

Door deze drie sleutels samen te gebruiken, kan de computer niet alleen zeggen "hier is een defect", maar ook begrijpen waarom het een defect is door het te vergelijken met wat normaal is.

3. De "Vertaler" (SPAM)

Er is nog een probleem: De computer denkt in grote concepten (zoals "kras"), maar de camera ziet duizenden kleine pixels. Het is alsof je een architect en een metselaar probeert te laten praten; ze spreken een andere taal.

De onderzoekers hebben een vertaler gebouwd (de Semantic-Pixel Alignment Module). Deze vertaler zorgt ervoor dat het idee van de architect ("er moet een gat zijn") perfect wordt omgezet in de instructies van de metselaar ("verwijder deze specifieke pixels"). Hierdoor weet de computer precies waar het defect zit, tot op het kleinste puntje.

4. De "Oefenboeken" (Anomaly-Instruct20K)

Om deze assistent slim te maken, hebben ze een enorm oefenboek gemaakt genaamd Anomaly-Instruct20K.
In plaats van alleen foto's te tonen, leerden ze de computer met verhalen. Ze gaven hem instructies zoals:

  • "Normaal heeft een kabel drie intacte draden. Wat zie je hier?"
  • "Beschrijf het defect en teken het dan in."

Hierdoor leerde de computer niet alleen te kijken, maar ook te redeneren. Hij leert: "Ah, een kabel zou normaal drie draden hebben. Hier zie ik er maar twee. Dat is een defect!"

5. Het Resultaat: De Perfecte Inspecteur

Wanneer je deze nieuwe assistent (AG-VAS) een foto geeft van een onbekend object (bijvoorbeeld een nieuwe soort machine of een medische scan), doet hij het volgende:

  1. Hij kijkt naar het plaatje.
  2. Hij gebruikt zijn anker-woorden om te denken: "Wat is hier normaal? Wat is hier raar?"
  3. Hij vertaalt dit direct naar een masker (een tekening) die precies het defect omlijnt.
  4. Als er niets mis is, zegt hij: "Geen probleem, hier is niets raars" (in plaats van dat hij zomaar ergens een vlekje tekent).

Kortom:
AG-VAS is als het geven van een superkrachtige bril aan een computer. Deze bril laat hem niet alleen zien wat er mis is, maar helpt hem ook te begrijpen waarom het mis is, door te vergelijken met wat normaal zou moeten zijn. Hierdoor kan hij nieuwe, onbekende defecten vinden zonder dat je hem eerst duizenden voorbeelden hoeft te laten zien. Het werkt zowel in fabrieken (voor defecte producten) als in ziekenhuizen (voor medische scans).

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →