Incremental dimension reduction for efficient and accurate visual anomaly detection

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Der überfüllte Bibliothekar

Stellen Sie sich vor, Sie sind ein Bibliothekar, dessen Aufgabe es ist, Fälschungen in einer riesigen Sammlung von Bildern zu finden. Ein „Anomalie" ist wie ein Buch, das nicht in die Reihe passt – vielleicht ist es ein Kaugummi zwischen den Romanen oder ein Foto, das auf dem Kopf steht.

Um das zu tun, nutzen moderne Computer (Neuronale Netze) einen sehr cleveren Trick: Sie schauen sich jedes Bild nicht als Ganzes an, sondern schneiden es in tausende kleine Puzzleteile (Patches) und beschreiben jedes Teil mit einer extrem langen Liste von Zahlen (einem Vektor). Diese Liste ist wie ein dicker Telefonbuch-Eintrag für jedes Puzzleteil.

Das Dilemma:
Wenn Sie 1.000 Bilder haben, haben Sie Millionen dieser Telefonbuch-Einträge.

Speicherplatz: Alle diese Einträge in den Arbeitsspeicher (RAM) zu packen, ist wie zu versuchen, den Ozean in einen Eimer zu füllen. Es platzt einfach.
Geschwindigkeit: Um zu prüfen, ob ein neues Bild eine Fälschung ist, muss der Computer jeden neuen Eintrag mit allen gespeicherten Einträgen vergleichen. Bei so vielen langen Listen dauert das ewig.

Bisherige Methoden (wie „PatchCore") versuchen, das Problem zu lösen, indem sie nur eine Auswahl (eine Stichprobe) der Einträge speichern. Aber selbst diese Auswahl ist oft noch zu groß und die Auswahl selbst dauert lange, weil die Listen so lang sind.

Die Lösung: Der intelligente Kompressor (Inkrementelle Dimensionsreduktion)

Der Autor schlägt eine neue Methode vor, die man sich wie einen klugen Kompressor vorstellen kann. Statt alle Daten auf einmal zu speichern, verarbeitet er sie in kleinen Paketen (Batches) und macht sie dabei sofort kleiner, ohne wichtige Informationen zu verlieren.

Hier ist die Analogie des Prozesses:

1. Das Bild in kleine Pakete zerlegen

Statt alle 1.000 Bilder auf einmal zu betrachten, nimmt der Algorithmus sie in kleinen Gruppen (z. B. 16.000 Puzzleteile pro Gruppe).

2. Das „Zusammenfassen" (SVD)

Stellen Sie sich vor, jede Gruppe von Puzzleteilen hat eine eigene, sehr lange Beschreibung. Der Algorithmus schaut sich eine Gruppe an und sagt:

„Halt! Diese 1.000 langen Listen sind sich eigentlich sehr ähnlich. Ich kann sie alle auf eine kurze, prägnante Zusammenfassung reduzieren, die nur die wichtigsten Merkmale enthält."

Er nutzt dabei eine mathematische Methode (Singular Value Decomposition), die wie ein Hochleistungs-Staubsauger funktioniert: Er saugt die unnötigen Details weg und behält nur das Wesentliche (die „Kernmuster") übrig.

Wichtig: Er macht das nicht für alle Bilder auf einmal, sondern für jedes Paket einzeln. Das spart enorm viel Speicherplatz.

3. Das Aktualisieren des „Master-Katalogs"

Nachdem er ein Paket komprimiert hat, fügt er diese neue, kurze Zusammenfassung zu einem wachsenden „Master-Katalog" hinzu.

Der Clou: Frühere Methoden mussten oft alle bisher gespeicherten Daten neu berechnen, wenn ein neues Paket kam (wie wenn man jedes Mal den ganzen Bibliothekskatalog umschreiben müsste, wenn ein neues Buch kommt).
Die neue Methode: Sie aktualisiert den Katalog nur einmal pro Paket und merkt sich, wie die neuen Muster zu den alten passen. Sie müssen nicht alles neu durchsuchen. Das ist wie ein Bibliothekar, der neue Bücher direkt in die richtigen Regale stellt, ohne den ganzen Katalog neu zu schreiben.

4. Der große Zusammenbau am Ende

Sobald alle Pakete verarbeitet sind, hat der Algorithmus viele kleine, komprimierte Teile. Er nimmt diese Teile und „dreht" sie so, dass sie alle in derselben Sprache (demselben Koordinatensystem) sprechen. Jetzt hat er eine riesige, aber kompakte Datenbank, die in den Arbeitsspeicher passt und schnell durchsucht werden kann.

Warum ist das toll? (Die Ergebnisse)

Der Autor hat diese Methode mit dem aktuellen Spitzenreiter „PatchCore" getestet:

Geschwindigkeit: Das Training (das Lernen) ging viel schneller. Statt Stunden oder Tage zu brauchen, ging es in einem Bruchteil der Zeit.
Speicher: Man konnte riesige Datensätze (Tausende von Bildern) verarbeiten, die vorher gar nicht auf den Computer passten.
Genauigkeit: Das ist das Wichtigste: Trotz der Kompression war die Genauigkeit fast genauso gut wie bei der unkomprimierten Version. Der Bibliothekar findet die Fälschungen immer noch fast perfekt, auch wenn er nur die kurzen Zusammenfassungen liest.

Zusammenfassung in einem Satz

Der Autor hat einen Weg gefunden, riesige Mengen an Bilddaten wie einen intelligenten Kompressor zu behandeln: Er zerlegt sie in kleine Stücke, macht jedes Stück sofort klein und handlich, und fügt sie dann zusammen, ohne dass der Computer platzt oder die Genauigkeit leidet.

Das macht es möglich, auch auf normalen Computern (oder mit weniger teurer Hardware) extrem große Mengen an Bildern auf Fehler zu überprüfen – ein großer Schritt für die Industrie, um defekte Produkte schneller zu finden.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Moderne Algorithmen zur visuellen Anomalieerkennung (Visual Anomaly Detection) nutzen tief neuronale Netze (z. B. WideResNet50), um saliente Merkmale aus Bildpatches zu extrahieren. Ein prominentes Beispiel ist PatchCore, das die Merkmale aller Bildpatches vergleicht, um Anomalien (z. B. verschobene oder rotierte Objekte) präzise zu erkennen.

Das Hauptproblem liegt in der Skalierbarkeit:

Hohe Dimensionalität: Die extrahierten Merkmalsvektoren haben oft Hunderte bis Tausende von Dimensionen.
Speicherbedarf: Das Speichern aller Merkmalsvektoren für Datensätze mit Tausenden von Bildern ist speicherintensiv.
Rechenzeit: Der Vergleich von Vektoren hat eine Zeitkomplexität von $O(m)$ (wobei $m$ die Dimension ist). Das Sampling einer repräsentativen Teilmenge (Memory Bank) erfordert das Berechnen von Distanzen zwischen allen Paaren, was bei hoher Dimensionalität und großen Datenmengen extrem langsam wird.
Limitationen bestehender Methoden: Herkömmliche Dimensionsreduktion (z. B. SVD) erfordert, dass alle Daten im Speicher liegen. Inkrementelle Verfahren (Online-SVD) sind oft ineffizient, da sie bei jedem neuen Batch alle bisher besuchten Vektoren neu transformieren müssen, was zu einem Anstieg der Rechenzeit führt.

2. Methodik: Inkrementelle Dimensionsreduktion

Der Autor stellt einen neuen inkrementellen Algorithmus vor, der Ideen aus der inkrementellen SVD und inkrementellen PCA kombiniert, um die Merkmalsvektoren effizient zu komprimieren, ohne den gesamten Datensatz gleichzeitig im Speicher zu halten.

Der Algorithmus läuft in zwei Hauptphasen ab:

Phase 1: Batch-weise Verarbeitung und inkrementelles Update

Die Merkmalsvektoren werden in Batches ( $X_b$ ) gruppiert.
Für jeden Batch wird eine trunkierte SVD ( $X_b \approx U_b S_b V_b^\top$ ) berechnet.
Anstatt alle Vektoren neu zu verarbeiten, wird der aktuelle Batch genutzt, um die singulären Werte und Vektoren der bisher verarbeiteten Daten ( $S_{1,b-1}, U_{1,b-1}$ ) zu aktualisieren.
Dies geschieht durch die Approximation der Gram-Matrix $[X_1, \dots, X_b][X_1, \dots, X_b]^\top$ . Der Update-Schritt berechnet die SVD der Matrix $[U_{1,b-1}S_{1,b-1}, X_b]$ .
Nach dem Update werden die alten Matrizen verworfen, und nur die SVD-Matrizen des aktuellen Batches ( $U_b, S_b, V_b$ ) werden im Speicher behalten. Dies vermeidet das wiederholte Neu-Transformieren alter Daten.

Phase 2: Finale Transformation (Re-Transformation)

Nach der Verarbeitung aller Batches liegen für jeden Batch reduzierte Vektoren ( $V_b$ ) in einem lokalen Raum vor.
Um PatchCore anwenden zu können, müssen alle Vektoren in einen gemeinsamen Raum projiziert werden, der durch die finalen singulären Vektoren ( $U_{1,B}$ ) aller Daten aufgespannt wird.
Statt die ursprünglichen Daten $X_b$ zu rekonstruieren (was viel Speicher bräuchte), wird eine Batch-spezifische Rotationsmatrix $R_b$ berechnet:
$R_b = (U_{1,B})^\top U_b S_b$
Diese Matrix $R_b$ (Größe $k \times k$ ) skaliert und rotiert die reduzierten Vektoren $V_b$ direkt in den globalen Raum. Dies ist numerisch stabiler und speichereffizienter.

3. Wichtige Beiträge

Effiziente Speichernutzung: Der Algorithmus ermöglicht die Verarbeitung sehr großer Datensätze (1000+ Bilder), die sonst den RAM übersteigen würden, indem er nur die aktuellen Batches und die laufenden Basisvektoren speichert.
Vermeidung von I/O-Overhead: Im Gegensatz zu anderen Online-PCA-Methoden werden keine zusätzlichen Durchläufe benötigt, um bereits verarbeitete Daten neu zu extrahieren oder zu transformieren.
Erhaltung der Genauigkeit: Trotz der drastischen Dimensionsreduktion (z. B. von >1000 auf 128 Dimensionen) bleibt die Genauigkeit der Anomalieerkennung nahezu unverändert.
Beschleunigung des Trainings: Durch die Reduktion der Dimensionalität wird das Sampling der Memory Bank (der kritische Engpass bei PatchCore) erheblich beschleunigt.

4. Ergebnisse

Die Methode wurde auf dem MVTec AD-Datensatz (Industrielle Anomalieerkennung) und dem Eyecandies-Datensatz (synthetische Objekte) getestet.

Genauigkeit (MVTec AD):
- Bei Verwendung von WideResNet50 und Reduktion auf 128 Dimensionen ( $k=128$ ) mit Batch-Größen von 16K/32K wurde eine Image-AUROC von 98,9% erreicht (Original-PatchCore: 99,0%).
- Die Pixel-AUROC lag bei 97,9% (Original: 97,8%).
- Die Genauigkeitseinbußen waren bei Objektkategorien vernachlässigbar, bei Texturkategorien (z. B. Teppich) leicht spürbar, aber immer noch sehr hoch.
Geschwindigkeit:
- Auf CPUs sank die Trainingszeit für den Datensatz „Hazelnut" von ca. 24.000 Sekunden (ohne Reduktion) auf ca. 3.000 Sekunden (bei $k=128$ ).
- Auf GPUs wurde eine Zeit von ca. 39 Sekunden erreicht (im Vergleich zu 130 Sekunden ohne Reduktion).
Eyecandies-Datensatz:
- Ein Datensatz mit 6.600 Bildern erforderte ohne Reduktion ca. 25 GB RAM für die Merkmalsvektoren. Mit dem inkrementellen Algorithmus konnte dies auf einem High-End-GPU-System in 3 Stunden trainiert werden.
- PatchCore mit Dimensionsreduktion übertraf den State-of-the-Art-Algorithmus PaDiM auf diesem Datensatz in der Genauigkeit.

5. Bedeutung und Fazit

Die Arbeit demonstriert, dass inkrementelle Dimensionsreduktion eine praktikable Lösung ist, um State-of-the-Art-Verfahren wie PatchCore auf große industrielle Datensätze anzuwenden, ohne die Genauigkeit signifikant zu opfern.

Praktische Relevanz: Sie löst das Problem des „Memory Bottlenecks", das bisher die Anwendung von PatchCore auf große Datenmengen limitierte.
Effizienz: Der Ansatz reduziert sowohl den Speicherbedarf als auch die Trainingszeit drastisch, während die Inferenzgeschwindigkeit durch die kleinere Dimension der Merkmalsvektoren ebenfalls profitiert (obwohl die Feature-Extraktion selbst weiterhin der limitierende Faktor auf CPUs bleibt).
Zukunftsausblick: Der Autor schlägt vor, redundante Merkmale vor dem Sampling zu eliminieren, um den Trainingsprozess weiter zu beschleunigen.

Zusammenfassend bietet der vorgestellte Algorithmus einen effizienten Weg, die Vorteile von PatchCore (hohe Genauigkeit durch Patch-Vergleich) mit den Anforderungen großer Datenmengen in Einklang zu bringen.