GRD-Net: Generative-Reconstructive-Discriminative Anomaly Detection with Region of Interest Attention Module

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Der "Suche im Heuhaufen"-Effekt

Stellen Sie sich vor, Sie arbeiten in einer Fabrik, die tausende von Medikamentenflaschen herstellt. Ihre Aufgabe ist es, jede einzelne Flasche zu prüfen, ob sie einen Kratzer, einen Fleck oder einen Fremdkörper hat.

Das Problem ist: Die meisten Flaschen sind perfekt. Nur eine winzige Anzahl ist defekt. Und oft ist der Defekt winzig – wie ein kleiner Kratzer auf dem Glas oder ein Staubkorn am Rand.

Bisherige Computer-Programme waren wie blinde Hunde, die über den ganzen Tisch rennen. Sie schauten sich die ganze Flasche an, inklusive des Hintergrunds, des Tisches und des Lichtreflexes. Wenn der Hintergrund mal etwas schief war oder ein Schatten fiel, dachte der Computer: "Achtung, Defekt!" und warf die gute Flasche weg. Das nennt man "Fehlalarm".

Die Lösung: GRD-Net – Der dreistufige Detektiv

Die Autoren dieses Papiers haben einen neuen, schlauen Detektiv erfunden, den sie GRD-Net nennen. Dieser Detektiv arbeitet in drei Schritten, wie ein kleines Team aus drei Spezialisten:

1. Der "Kopierer" (Der Generative Teil)

Stellen Sie sich diesen Teil als einen Künstler vor, der alles auswendig kennt.

Was er macht: Er sieht sich nur perfekte Flaschen an. Er lernt, wie eine perfekte Flasche aussieht.
Die Aufgabe: Wenn ihm eine neue, vielleicht leicht verschmutzte Flasche gezeigt wird, versucht er, sie "in Gedanken" zu reparieren. Er malt eine perfekte Version der Flasche neu.
Der Trick: Wenn die Flasche einen echten Kratzer hat, kann der Künstler diesen Kratzer nicht "reparieren", weil er nicht weiß, wie er dort aussehen soll. Er malt stattdessen die perfekte Oberfläche darunter.
Das Ergebnis: Wenn man das Original mit der "reparierten" Version vergleicht, leuchtet der Kratzer hell auf, weil er im Original da ist, aber in der neuen Version fehlt.

2. Der "Kritiker" (Der Diskriminative Teil)

Dieser Teil ist wie ein strenger Lehrer, der den Künstler überprüft.

Was er macht: Er vergleicht das Original mit dem, was der Künstler gemalt hat.
Die Aufgabe: Er muss genau sagen: "Hier ist ein Unterschied! Hier ist der Defekt!"
Das Problem früher: Der Lehrer war oft zu streng. Er schrie auch über Schatten oder Staub auf dem Tisch.
Die neue Idee: Hier kommt der wichtigste Teil des Papiers ins Spiel.

3. Der "Fokus-Brillen-Träger" (Das ROI-Modul)

Das ist das Genie des Systems. Stellen Sie sich vor, der Lehrer bekommt eine Spezialbrille mit einem roten Kreis.

Wie es funktioniert: Bevor der Lehrer überhaupt anfängt zu schauen, bekommt er eine Karte, auf der nur der wichtige Bereich (z. B. der Hals der Flasche oder der Verschluss) rot markiert ist. Der Rest des Bildes ist grau und unsichtbar für ihn.
Der Effekt: Wenn der Lehrer einen Schatten auf dem Tisch sieht (außerhalb des roten Kreises), ignoriert er ihn komplett. Er schreit nur, wenn er innerhalb des roten Kreises einen Kratzer sieht.
Warum das toll ist: Das System lernt nicht nur, was ein Defekt ist, sondern auch wo man suchen muss. Es wird nicht mehr von unnötigem Hintergrundlärm abgelenkt.

Wie wird das System trainiert? (Die Übungsschule)

Damit dieser Detektiv so gut wird, muss er üben. Aber wie trainiert man jemanden, der nur "gute" Flaschen gesehen hat, Defekte zu erkennen?

Die Autoren nutzen einen Trick: Sie fälschen Defekte.

Sie nehmen eine perfekte Flasche.
Sie malen zufällige, seltsame Muster (wie Perlin-Noise, ähnlich wie ein chaotischer Wolkenhimmel) darauf.
Sie sagen dem System: "Das ist jetzt kaputt! Versuche, es wieder perfekt zu machen und zeig mir genau, wo das Chaos war."

Das System lernt daraus: "Aha, wenn ich etwas sehe, das sich nicht wie eine normale Flasche anfühlt, ist das ein Fehler."

Das Ergebnis: Warum ist das besser?

In Tests mit echten Daten (sogar von einer echten Pharma-Fabrik in Italien) hat GRD-Net gezeigt, dass es:

Schneller lernt: Es braucht weniger Trainingszeit als alte Methoden.
Genauer ist: Es findet die winzigen Kratzer besser.
Weniger Fehlalarme macht: Weil es durch die "Fokus-Brille" (ROI) weiß, wo es suchen soll, ignoriert es den chaotischen Hintergrund.

Zusammenfassung in einem Satz

GRD-Net ist wie ein super-scharfer Inspektor, der nicht nur lernt, wie ein perfektes Produkt aussieht, sondern auch eine Brille trägt, die ihm sagt: "Schau nur hier hin, der Rest ist egal!" – und das spart Zeit, Geld und Nerven in der Industrie.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die visuelle Inspektion in der industriellen Fertigung zur Erkennung von Oberflächenanomalien (Defekten) steht vor zwei Hauptproblemen:

Mangelnde Generalisierung und Voreingenommenheit: Herkömmliche Methoden zur Defektlokalisierung basieren oft auf einfachen Vergleichen zwischen einem generierten und dem Originalbild, gefolgt von Post-Processing-Algorithmen (z. B. Blob-Analyse oder Bildbearbeitung). Diese sind stark vom Trainingsdatensatz abhängig und generalisieren schlecht auf neue Anomalien.
Irrelevante Bildbereiche: In industriellen Anwendungen ist oft nicht das gesamte Bild relevant, sondern nur bestimmte Regionen von Interesse (Region of Interest, ROI). Defekte außerhalb dieser ROIs (z. B. Hintergrundrauschen oder Verpackungsteile) führen zu Fehlalarmen (False Positives), wenn das gesamte Bild gleichgewichtet wird.
Komplexität der Anomalien: Besonders bei pharmazeutischen Produkten (z. B. Vials) sind Defekte oft klein (Kratzer, Partikel) und schwer von natürlichen Variationen (z. B. Meniskus-Formen, Blasen) zu unterscheiden.

2. Methodik: GRD-Net-Architektur

Das vorgeschlagene GRD-Net ist ein hybrides Netzwerk, das aus zwei Hauptblöcken besteht und auf semi-überwachtem Lernen basiert (Training nur mit fehlerfreien Produkten und synthetischen Defekten).

A. Generativer-Rekonstruktiver Block (GANomaly-basiert)

Architektur: Anstelle eines einfachen Autoencoders (wie im DRÆM-Modell) wird eine GANomaly-Architektur verwendet. Diese besteht aus einem Encoder-Decoder-Encoder-Subnetzwerk.
Residual-Design: Der Generator nutzt ein vollständig convolutionales Residual-Autoencoder (CRAE). Dies verhindert das Verschwinden von Gradienten in tiefen Netzen und verbessert die Stabilität des Trainings.
Trainingsprozess:
- Das Netzwerk lernt, fehlerfreie Bilder zu rekonstruieren.
- Synthetische Anomalien werden durch Perlin-Noise und zufällige RGB-Pixel auf die Eingabebilder aufgebracht.
- Das Ziel ist es, das Originalbild ohne die eingefügten „Defekte" wiederherzustellen.
- Die Verlustfunktion kombiniert adversariellen Verlust, kontextuellen Verlust (L1 + SSIM) und Encoder-Verlust.

B. Diskriminativer Block mit ROI-Aufmerksamkeitsmodul

Architektur: Ein U-Net-ähnliches Netzwerk, das als Segmentierungsnetzwerk dient.
Eingabe: Es erhält die ursprüngliche Bildkanäle und die rekonstruierten Kanäle des Generators.
ROI-Attention (Der Kernbeitrag):
- Während des Trainings erhält das diskriminative Netzwerk zusätzlich zu den Bildern eine Segmentierungsmaske, die die relevante Region (ROI) des Produkts markiert.
- Die Ausgabe des Netzwerks (Anomalie-Maske) wird mit dieser ROI-Maske multipliziert, um eine Schnittmaske ( $I$ ) zu erhalten.
- Der Focal Loss wird nicht auf das gesamte Bild, sondern ausschließlich auf diese Schnittmaske berechnet.
- Ziel: Das Netzwerk lernt, wo es suchen muss (ROI) und ignoriert Anomalien oder Rauschen außerhalb dieses Bereichs.

3. Wichtige Beiträge

Fusion von GANomaly und DRÆM: Die Kombination der robusten Rekonstruktionsfähigkeiten von GANomaly mit der diskriminativen Lernfähigkeit von DRÆM.
ROI-basierte Aufmerksamkeitssteuerung: Einführung eines Moduls, das dem Netzwerk explizit beibringt, sich nur auf relevante Produktbereiche zu konzentrieren. Dies eliminiert die Notwendigkeit komplexer Vorverarbeitungsschritte zur ROI-Extraktion.
Verbesserte Stabilität durch Residual-Netze: Der Einsatz von Residual-Blöcken im Generator führt zu stabileren Lernkurven, schnellerer Konvergenz und besseren Rekonstruktionsergebnissen im Vergleich zu Standard-Autoencodern.
Optimierter Verlust: Die Anpassung des Focal Loss auf die ROI-Schnittmaske verhindert, dass das Netzwerk den gesamten ROI-Bereich als Defekt markiert, sondern nur die tatsächlichen Anomalien innerhalb dieses Bereichs.

4. Ergebnisse und Evaluation

Die Leistung wurde auf mehreren Datensätzen getestet:

MVTec-AD Datensätze: (Haselnuss, Metallmutter, Pillen, Kabel, Zipper).
Industrieller Real-Case: Ein proprietärer Datensatz von pharmazeutischen BFS-Streifen (Vials) von Bonfiglioli Engineering.

Ergebnisse:

Überlegenheit gegenüber State-of-the-Art: GRD-Net übertrifft sowohl DRÆM als auch GANomaly in Bezug auf die AUROC-Werte (Image-Level und Pixel-Level).
- Beispiel MVTec Haselnuss: Nach 100 Epochen erreichte GRD-Net 100% Image-AUROC im Vergleich zu 98,8% bei DRÆM.
- Beispiel MVTec Metallmutter: GRD-Net erreichte 99,8% vs. 99,7% bei DRÆM.
Lernkurve: Das Modell konvergiert schneller und zeigt weniger Overfitting als die Referenzmodelle.
ROI-Effektivität: Im „Zipper"-Datensatz (wo Defekte sowohl im Reißverschluss als auch im Stoff auftreten) konnte das Netzwerk erfolgreich nur Defekte im Reißverschluss (ROI) lokalisieren und ignorierte Fehler im Stoffbereich.
Industrieller Einsatz: Bei der Inspektion von Pharmavials gelang es, schwer erkennbare Defekte (schwarze Partikel am Meniskus, Kratzer) zu lokalisieren, wo klassische Blob-Analyse-Algorithmen aufgrund von Schatten und Formvariationen versagten. Die Genauigkeit lag bei 0,932 (Pixel-Level).

5. Bedeutung und Fazit

Das GRD-Net stellt einen signifikanten Fortschritt in der industriellen Qualitätskontrolle dar. Durch die Integration eines ROI-Aufmerksamkeitsmoduls löst es das Problem der Fehlalarme durch Hintergrundrauschen, das bei herkömmlichen Rekonstruktionsmethoden häufig auftritt.

Die Architektur ist besonders wertvoll für Anwendungen, bei denen:

Nur spezifische Produktbereiche inspiziert werden müssen.
Die Daten unausgewogen sind (viele normale, wenige defekte Produkte).
Eine hohe Generalisierungsfähigkeit bei neuen Anomalietypen erforderlich ist.

Die Studie demonstriert erfolgreich, dass semi-überwachtes Lernen mit einem diskriminativen Fokus auf relevante Regionen die Zuverlässigkeit und Genauigkeit von visuellen Inspektionssystemen in der realen Produktion erheblich steigern kann.