EAGLE: Expert-Augmented Attention Guidance for Tuning-Free Industrial Anomaly Detection in Multimodal Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je in een enorme, drukke fabriek werkt waar duizenden producten per uur worden geproduceerd: flessen, circuitplaten, houten panelen. Je taak is om te controleren of er geen krassen, deuken of andere fouten op zitten.

Vroeger deden computers dit met speciale "oog"-programma's. Die waren heel goed in het vinden van fouten, maar ze waren als een robot die alleen maar knikt of schudt: "Ja, fout" of "Nee, geen fout". Ze konden je niet vertellen waar de fout zat of wat voor soort fout het was. Ze waren blind voor de details.

Aan de andere kant hebben we nu superintelligente AI-assistenten (de zogenaamde MLLM's of Multimodale Grote Taalmodellen). Dit zijn als slimme, praatgrage inspecteurs die een foto kunnen bekijken en je in volledige zinnen kunnen uitleggen: "Ik zie een kleine kras op de linkerbovenhoek van de fles, waarschijnlijk veroorzaakt door een botsing."

Het probleem: Deze slimme AI-assistenten zijn vaak te veel in hun eigen woorden verdwaald. Ze vertrouwen meer op wat ze hebben gelezen dan op wat ze echt zien. Als ze een foto zien, denken ze soms: "Oh, dit lijkt op een normaal product, want dat heb ik vaak gezien," en negeren ze een kleine kras die er wel degelijk is. Ze worden ook vaak "gehallucineerd" door verkeerde hints.

De Oplossing: EAGLE (De Slimme Hoofdinspecteur)

De onderzoekers van dit paper hebben EAGLE bedacht. Je kunt EAGLE zien als een samenwerking tussen twee mensen in de fabriek:

De Specialist (De Expert): Een oude, betrouwbare robot die alleen kijkt naar de cijfers. Hij heeft een "geheugenbank" met duizenden perfecte producten. Als hij een nieuw product ziet, vergelijkt hij het met zijn geheugen. Als het er anders uitziet, zegt hij: "Hier is een probleem!" en hij maakt een rode kaartje (een visuele kaart) waar het probleem zit.
De Slimme Assistent (De MLLM): De praatgrage AI die de foto en het verhaal moet vertellen.

Hoe werkt EAGLE?

Stel je voor dat de Specialist en de Assistent samenwerken, maar ze hebben een paar slimme regels nodig om niet in de war te raken:

1. De "Niet te veel ruis"-Regel (DBT)

Soms maakt de Specialist een foutje. Hij ziet een normaal product, maar omdat er een rare schaduw is, denkt hij: "Oh, hier zit iets mis!" en hij maakt een rood kaartje.
Als de Assistent dit kaartje ziet, denkt hij: "Oeps, de specialist zegt dat er iets mis is, dus ik ga ook zeggen dat er iets mis is," zelfs als het product perfect is.

EAGLE's oplossing: De Assistent kijkt eerst naar de "zekerheid" van de Specialist.

Als de Specialist heel zeker is (een heel hoge score), zegt de Assistent: "Oké, ik geloof je, ik ga kijken naar die rode plek."
Als de Specialist twijfelt (een lage score, maar toch niet helemaal nul), zegt de Assistent: "Wacht even, die roodjes zijn misschien maar ruis. Ik ga het zelf maar rustig bekijken zonder dat rode kaartje."

Dit heet DBT (Distribution-Based Thresholding). Het is alsof je zegt: "Geef me alleen de waarschuwingen die echt belangrijk zijn, niet elke kleine piek."

2. De "Luister naar je ogen"-Regel (CAAS)

Soms zegt de Specialist: "Dit product is perfect!" (terwijl er juist een grote kras op zit). De Assistent leest dit en denkt: "Oké, de expert zegt 'perfect', dus ik ga 'perfect' zeggen." Hij negeert zijn eigen ogen die de kras zien.

EAGLE's oplossing: De Assistent heeft een speciale knop: CAAS.
Als de Specialist twijfelt (bijvoorbeeld: "Ik weet niet zeker of dit normaal is"), schakelt de Assistent over op "Super Focus". Hij zegt: "Oké, de expert is niet zeker, dus ik ga mijn eigen ogen gebruiken en ignoreer zijn woorden even. Ik ga heel intens naar de foto kijken."

Dit zorgt ervoor dat de Assistent niet blindelings luistert naar de Specialist als die het niet weet, maar juist extra goed naar de foto kijkt om de waarheid te vinden.

Waarom is dit geweldig?

Geen hersenoperatie nodig: Normaal moet je die slimme Assistenten maandenlang trainen met duizenden voorbeelden (fine-tuning) om ze slim te maken voor fabrieken. EAGLE doet dit zonder training. Je hoeft de Assistent niet te veranderen; je geeft hem alleen slimme instructies.
Beter dan de specialisten: De resultaten laten zien dat deze samenwerking (EAGLE) net zo goed of zelfs beter werkt dan de zwaar getrainde, dure modellen.
Verstaanbaar: In plaats van alleen "Ja/Nee", krijg je een mooi verhaal: "Ja, er is een kras op de fles, en hier is precies waar."

Samenvatting in één zin

EAGLE is als het geven van een slimme "checklist" en een paar duidelijke regels aan een super-intelligente, maar soms afgeleide, AI-assistent, zodat hij samenwerkt met een betrouwbare robot-specialist om fouten in de fabriek te vinden zonder dat je de hele AI hoeft te herschrijven.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Industriële afwijkingsdetectie (Industrial Anomaly Detection - IAD) is cruciaal voor slimme productie, maar bestaande diepe leermethoden hebben twee belangrijke beperkingen:

Beperkte semantische uitleg: Ze leveren vaak alleen binaire beslissingen (normaal/afwijkend) zonder interpreteerbare informatie over het type afwijking, de exacte locatie of een beschrijvende uitleg.
Kostbare aanpassing van MLLMs: Hoewel Multimodale Grootte Taalmodellen (MLLMs) potentieel hebben voor gedetailleerde taalgebaseerde analyses, vereisen bestaande methoden vaak kostbare fine-tuning of instructie-training. Bovendien presteren deze aangepaste modellen vaak slechter dan gespecialiseerde, lichte detectoren op het gebied van detectienauwkeurigheid, wat de belangrijkste metriek in de industrie is.

Er is dus behoefte aan een methode die de hoge detectienauwkeurigheid van specialisten combineert met de semantische uitlegkracht van MLLMs, zonder dat er zware training of parameter-updates nodig zijn.

Methodologie: EAGLE Framework

De auteurs stellen EAGLE (Expert-Augmented Attention Guidance) voor, een framework dat "tuning-free" is (geen parameterupdates) en expert-modellen integreert om MLLMs te sturen. Het framework bestaat uit drie kerncomponenten:

1. Expert Model en Distribution-Based Thresholding (DBT)

Expert Model: Er wordt gebruikgemaakt van een bestaand expert-model (gebaseerd op PatchCore) dat vooraf getraind is op normale data. Dit model genereert per afbeelding een afwijkingscore ( $s_{img}$ ) en een pixel-level afwijkingskaart.
Het probleem met drempels: Traditionele methoden injecteren visuele hints (zoals afwijkingskaarten) voor alle afbeeldingen. Dit kan leiden tot vals-positieven, omdat expert-modellen ook op normale afbeeldingen soms lokale reacties genereren die als afwijking worden gemarkeerd.
DBT-oplossing: De auteurs introduceren Distribution-Based Thresholding (DBT). In plaats van een handmatig gekozen drempel, schat DBT de verdeling van afwijkingscores voor normale steekproeven door gebruik te maken van de "verworpen" (niet-gesamplede) patches tijdens de constructie van de geheugenbank van het expert-model.
- Op basis van deze verdeling wordt een statistisch betrouwbare drempel ( $\tau$ ) automatisch berekend ( $\tau = \mu + \kappa \cdot \sigma$ ).
- Selectieve Prompting: Visuele prompts (afwijkingskaarten met rode kaders) worden alleen ingebracht als het expert-model de afbeelding als "afwijkend" classificeert (d.w.z. $s_{img} \geq \tau$ ). Voor normale afbeeldingen worden geen visuele hints gegeven om bias te voorkomen.
- Tekstuele priors: Er wordt ook een tekstuele hint toegevoegd (bijv. "Voorspeld als normaal" of "Voorspeld als abnormaal") die samen met de visuele prompt aan de MLLM wordt gegeven.

2. Confidence-Aware Attention Sharpening (CAAS)

Het probleem: MLLMs hebben een sterke neiging om meer vertrouwen te hebben in tekstuele informatie dan in visuele informatie ("language bias"). Als het expert-model een fout maakt (bijv. een defecte afbeelding als "normaal" labelt), kan deze verkeerde tekstuele prior de visuele bewijzen in de latere lagen van het MLLM overrulen, wat leidt tot hallucinaties of fouten.
CAAS-oplossing: De auteurs analyseren de interne werking van de MLLM en merken op dat in de tussenliggende lagen (intermediate layers) de aandacht vaak correct gericht is op defecten, maar dat dit later wordt overschaduwd door de tekst.
- CAAS activeert wanneer de afwijkingscore van het expert-model in een "onzekerheidsgebied" valt (tussen de drempel $\tau$ en de maximale score van normale steekproeven).
- In dit geval wordt de aandacht (attention weights) voor visuele tokens in de specifieke tussenliggende lagen kunstmatig versterkt (geschaald met een factor $\alpha$ ).
- Dit zorgt ervoor dat de MLLM meer leunt op het visuele bewijs wanneer de tekstuele prior onbetrouwbaar is, waardoor fouten van het expert-model kunnen worden gecorrigeerd.

Belangrijkste Bijdragen

Tuning-Free Framework: EAGLE verbetert de prestaties van MLLMs voor industriële afwijkingsdetectie zonder enige fine-tuning of updates van de modelparameters.
Selectieve Prompting met DBT: Een nieuwe methode om visuele hints selectief in te voeren op basis van een statistisch afgeleide drempel, wat vals-positieven door het expert-model minimaliseert.
Attention Guidance (CAAS): Een mechanisme dat de interne aandacht van de MLLM dynamisch aanpast om de dominantie van tekstuele priors te doorbreken wanneer visueel bewijs sterker is, vooral in situaties met hoge onzekerheid.
Interpretatie van Internals: Het paper biedt inzicht in hoe MLLMs werken door te laten zien dat succesvolle detectie correleert met een hogere concentratie van aandacht op de werkelijke defectgebieden in de tussenliggende lagen.

Resultaten

De methode is getest op de standaard datasets MVTec-AD en VisA met diverse MLLM-backbones (zoals LLaVA-1.5, Qwen2.5-VL, InternVL3).

Prestatieverbetering: EAGLE leidt tot aanzienlijke verbeteringen in nauwkeurigheid, precisie, recall en F1-score voor alle geteste MLLMs.
- Voorbeeld: Op MVTec-AD steeg de nauwkeurigheid van LLaVA-1.5 van 61,6% naar 92,9%.
- Op VisA steeg de F1-score van LLaVA-1.5 van 32,8% naar 86,1%.
Vergelijking met State-of-the-Art: Zelfs zonder training presteert EAGLE concurrerend met, en vaak beter dan, methoden die gebaseerd zijn op fine-tuning of GRPO (Group Relative Policy Optimization). Op de VisA-dataset behaalde EAGLE de beste resultaten in de vergelijking.
Ablatie Studies:
- Het combineren van visuele en tekstuele prompts (met DBT) werkt beter dan alleen visuele of alleen tekstuele prompts.
- CAAS is cruciaal voor het corrigeren van fouten; zonder CAAS presteert het model slechter wanneer het expert-model verkeerde tekstuele priors geeft.

Betekenis en Conclusie

EAGLE demonstreert dat multimodale grote taalmodellen zeer effectief kunnen worden ingezet voor industriële kwaliteitscontrole zonder de hoge kosten en het risico van overfitting die gepaard gaan met fine-tuning. Door slimme integratie van expert-kennis via gestructureerde prompts en interne attentiesturing, kunnen MLLMs zowel hoge detectienauwkeurigheid als gedetailleerde semantische uitleg bieden. Dit opent nieuwe wegen voor de toepassing van generatieve AI in de industrie, waarbij de focus ligt op het benutten van bestaande modellen in plaats van het trainen van nieuwe, gespecialiseerde modellen.

EAGLE: Expert-Augmented Attention Guidance for Tuning-Free Industrial Anomaly Detection in Multimodal Large Language Models

De Oplossing: EAGLE (De Slimme Hoofdinspecteur)

1. De "Niet te veel ruis"-Regel (DBT)

2. De "Luister naar je ogen"-Regel (CAAS)

Waarom is dit geweldig?

Samenvatting in één zin

Probleemstelling

Methodologie: EAGLE Framework

1. Expert Model en Distribution-Based Thresholding (DBT)

2. Confidence-Aware Attention Sharpening (CAAS)

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation