EAGLE: Expert-Augmented Attention Guidance for Tuning-Free Industrial Anomaly Detection in Multimodal Large Language Models

EAGLE is een instelvrij raamwerk dat expertmodellen gebruikt om multimodale grote taalmodellen te sturen naar nauwkeurige en interpreteerbare industriële afwijkingsdetectie zonder parameteraanpassing, wat resulteert in prestaties die vergelijkbaar zijn met op fijnafstemming gebaseerde methoden.

Xiaomeng Peng, Xilang Huang, Seon Han Choi

Gepubliceerd 2026-02-25
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je in een enorme, drukke fabriek werkt waar duizenden producten per uur worden geproduceerd: flessen, circuitplaten, houten panelen. Je taak is om te controleren of er geen krassen, deuken of andere fouten op zitten.

Vroeger deden computers dit met speciale "oog"-programma's. Die waren heel goed in het vinden van fouten, maar ze waren als een robot die alleen maar knikt of schudt: "Ja, fout" of "Nee, geen fout". Ze konden je niet vertellen waar de fout zat of wat voor soort fout het was. Ze waren blind voor de details.

Aan de andere kant hebben we nu superintelligente AI-assistenten (de zogenaamde MLLM's of Multimodale Grote Taalmodellen). Dit zijn als slimme, praatgrage inspecteurs die een foto kunnen bekijken en je in volledige zinnen kunnen uitleggen: "Ik zie een kleine kras op de linkerbovenhoek van de fles, waarschijnlijk veroorzaakt door een botsing."

Het probleem: Deze slimme AI-assistenten zijn vaak te veel in hun eigen woorden verdwaald. Ze vertrouwen meer op wat ze hebben gelezen dan op wat ze echt zien. Als ze een foto zien, denken ze soms: "Oh, dit lijkt op een normaal product, want dat heb ik vaak gezien," en negeren ze een kleine kras die er wel degelijk is. Ze worden ook vaak "gehallucineerd" door verkeerde hints.

De Oplossing: EAGLE (De Slimme Hoofdinspecteur)

De onderzoekers van dit paper hebben EAGLE bedacht. Je kunt EAGLE zien als een samenwerking tussen twee mensen in de fabriek:

  1. De Specialist (De Expert): Een oude, betrouwbare robot die alleen kijkt naar de cijfers. Hij heeft een "geheugenbank" met duizenden perfecte producten. Als hij een nieuw product ziet, vergelijkt hij het met zijn geheugen. Als het er anders uitziet, zegt hij: "Hier is een probleem!" en hij maakt een rode kaartje (een visuele kaart) waar het probleem zit.
  2. De Slimme Assistent (De MLLM): De praatgrage AI die de foto en het verhaal moet vertellen.

Hoe werkt EAGLE?

Stel je voor dat de Specialist en de Assistent samenwerken, maar ze hebben een paar slimme regels nodig om niet in de war te raken:

1. De "Niet te veel ruis"-Regel (DBT)

Soms maakt de Specialist een foutje. Hij ziet een normaal product, maar omdat er een rare schaduw is, denkt hij: "Oh, hier zit iets mis!" en hij maakt een rood kaartje.
Als de Assistent dit kaartje ziet, denkt hij: "Oeps, de specialist zegt dat er iets mis is, dus ik ga ook zeggen dat er iets mis is," zelfs als het product perfect is.

EAGLE's oplossing: De Assistent kijkt eerst naar de "zekerheid" van de Specialist.

  • Als de Specialist heel zeker is (een heel hoge score), zegt de Assistent: "Oké, ik geloof je, ik ga kijken naar die rode plek."
  • Als de Specialist twijfelt (een lage score, maar toch niet helemaal nul), zegt de Assistent: "Wacht even, die roodjes zijn misschien maar ruis. Ik ga het zelf maar rustig bekijken zonder dat rode kaartje."

Dit heet DBT (Distribution-Based Thresholding). Het is alsof je zegt: "Geef me alleen de waarschuwingen die echt belangrijk zijn, niet elke kleine piek."

2. De "Luister naar je ogen"-Regel (CAAS)

Soms zegt de Specialist: "Dit product is perfect!" (terwijl er juist een grote kras op zit). De Assistent leest dit en denkt: "Oké, de expert zegt 'perfect', dus ik ga 'perfect' zeggen." Hij negeert zijn eigen ogen die de kras zien.

EAGLE's oplossing: De Assistent heeft een speciale knop: CAAS.
Als de Specialist twijfelt (bijvoorbeeld: "Ik weet niet zeker of dit normaal is"), schakelt de Assistent over op "Super Focus". Hij zegt: "Oké, de expert is niet zeker, dus ik ga mijn eigen ogen gebruiken en ignoreer zijn woorden even. Ik ga heel intens naar de foto kijken."

Dit zorgt ervoor dat de Assistent niet blindelings luistert naar de Specialist als die het niet weet, maar juist extra goed naar de foto kijkt om de waarheid te vinden.

Waarom is dit geweldig?

  • Geen hersenoperatie nodig: Normaal moet je die slimme Assistenten maandenlang trainen met duizenden voorbeelden (fine-tuning) om ze slim te maken voor fabrieken. EAGLE doet dit zonder training. Je hoeft de Assistent niet te veranderen; je geeft hem alleen slimme instructies.
  • Beter dan de specialisten: De resultaten laten zien dat deze samenwerking (EAGLE) net zo goed of zelfs beter werkt dan de zwaar getrainde, dure modellen.
  • Verstaanbaar: In plaats van alleen "Ja/Nee", krijg je een mooi verhaal: "Ja, er is een kras op de fles, en hier is precies waar."

Samenvatting in één zin

EAGLE is als het geven van een slimme "checklist" en een paar duidelijke regels aan een super-intelligente, maar soms afgeleide, AI-assistent, zodat hij samenwerkt met een betrouwbare robot-specialist om fouten in de fabriek te vinden zonder dat je de hele AI hoeft te herschrijven.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →