Ursprüngliche Autoren: Lukas Roming, Felix Lehnerer, Jonas V. Funk, Andreas Michel, Georg Maier, Thomas Längle, Jürgen Beyerer

Veröffentlicht 2026-05-15✓ Author reviewed ⓘ

📖 5 Min. Lesezeit🧠 Tiefgang

CC BY 4.0

Ursprüngliche Autoren: Lukas Roming, Felix Lehnerer, Jonas V. Funk, Andreas Michel, Georg Maier, Thomas Längle, Jürgen Beyerer

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Stellen Sie sich vor, Sie sind der Leiter der Qualitätskontrolle in einer riesigen Fabrik. Ihre Aufgabe besteht darin, winzige Mängel an Produkten zu erkennen, die auf einem Förderband vorbeigleiten. Normalerweise haben Sie ein Team von Experten, die Tausende von einwandfreien Produkten studiert haben. Sie wissen genau, wie ein „guter" Wandstecker, ein Stoffstück oder ein Glas Marmelade aussehen sollte. Wenn sie etwas sehen, das nicht mit diesem perfekten Gedächtnis übereinstimmt, markieren sie es als Mangel.

Es gibt jedoch einen Haken: Das Licht in der Fabrik ändert sich ständig. Manchmal ist es hell, manchmal dunkel, manchmal sind die Schatten seltsam. Das verwirrt die Experten, denn dasselbe perfekte Produkt sieht unter unterschiedlichem Licht anders aus. Sie könnten „Mangel!" rufen, obwohl es sich nur um einen Schatten handelt, oder schlimmer noch, sie könnten einen echten Riss übersehen, weil das Licht ihn verbirgt.

Diese Arbeit stellt ein neues, superschlau System namens SuperADD vor, das genau dieses Problem lösen soll. Hier ist die Funktionsweise, aufgeschlüsselt in einfache Konzepte:

1. Die „Trainingsfreie" Superkraft

Die meisten KI-Systeme sind wie Schüler, die monatelang im Klassenzimmer sitzen müssen, um zu lernen, wie ein Mangel bei jedem spezifischen Produkt aussieht. Wenn Sie ein neues Produkt einführen oder das Licht ändern, müssen Sie sie zurück zur Schule schicken, um alles neu zu lernen.

SuperADD ist anders. Es ist wie ein Detektiv, der das spezifische Produkt nicht im Voraus studieren muss. Es verwendet ein vortrainiertes „Gehirn" (genannt DINOv3), das bereits Millionen von Bildern aus dem Internet gesehen hat. Es weiß, wie „normale" Texturen und Formen im Allgemeinen aussehen. Da es für jede neue Produktionslinie nicht neu trainiert werden muss, kann es sofort eingesetzt werden. Es ist eine „Plug-and-Play"-Lösung.

2. Die „Gedächtnisbank"-Strategie

Anstatt zu versuchen, jedes einzelne perfekte Bild auswendig zu lernen, baut das System eine Gedächtnisbank auf.

Stellen Sie sich vor, Sie machen ein Foto eines perfekten Wandsteckers.
Das System zerlegt dieses Foto in Tausende von winzigen Puzzleteilen (Patches).
Es speichert das „Wesentliche" dieser Teile in einer riesigen Bibliothek (der Gedächtnisbank).
Wenn ein neues Produkt die Linie hinunterkommt, zerlegt das System es in dieselben Puzzleteile und fragt: „Habe ich ein perfektes Match für dieses Teil in meiner Bibliothek?"
Wenn ein Teil nichts in der Bibliothek matcht, wird es als seltsam markiert (eine Anomalie).

3. Der „Überlappende Puzzle"-Trick

Die ursprüngliche Version dieses Systems hatte ein Problem: Sie betrachtete das Produkt in großen, nicht überlappenden Blöcken. Wenn ein Mangel zufällig genau auf der Linie zwischen zwei Blöcken lag, könnte das System ihn übersehen oder verwirrt sein, wie beim Versuch, ein Wort zu lesen, das durch den Buchrücken in zwei Hälften geschnitten ist.

SuperADD behebt dies durch die Verwendung von überlappenden Patches. Stellen Sie sich vor, Sie betrachten das Produkt durch ein Fenster, das sich bewegt, aber das Fenster ist so groß, dass es mit der vorherigen Ansicht überlappt. Dies stellt sicher, dass ein Mangel, egal wo er sich befindet, aus mehreren Winkeln klar erkannt wird, was das System viel zuverlässiger macht.

4. Der „Licht-Simulator"

Um sich auf die wechselnden Fabriklichter vorzubereiten, betrachtet das System die Trainingsfotos während der Einrichtungsphase nicht so, wie sie sind. Es dimmt und hellt die Bilder künstlich auf. Es ist wie das Üben für eine Prüfung, indem man in einem dunklen Raum lernt, dann in einem hellen Raum und dann in einem Raum mit flackerndem Licht. Dies trainiert das System, die Lichtänderungen zu ignorieren und sich nur auf die tatsächliche Form und Textur des Produkts zu konzentrieren.

5. Die „Morphologische Schließung" (Der Kleber)

Manchmal erkennt das System einen Mangel, aber das Ergebnis sieht aus wie eine unterbrochene, gepunktete Linie statt eines durchgehenden Kratzers. Es ist wie ein Kratzer an einem Auto zu sehen, bei dem nur der mittlere Teil hervorgehoben ist.

Um dies zu beheben, verwendet SuperADD einen Schritt namens Morphologische Schließung. Stellen Sie sich dies als magischen Kleber vor. Er betrachtet die unterbrochenen, gepunkteten Hervorhebungen und verbindet die Punkte sanft, um eine solide, glatte Form zu bilden. Er füllt auch winzige Löcher innerhalb des Defektbereichs aus und stellt sicher, dass der endgültige Bericht ein vollständiges, sauberes Bild des Problems zeigt.

Die Ergebnisse

Das System wurde in einem harten Wettbewerb (der VAND 4.0 Industrial Track) getestet, wobei ein Datensatz namens MVTec AD 2 verwendet wurde, der knifflige Gegenstände wie glänzende Metalldosen, transparente Gläser und Reisberge enthält.

Die Herausforderung: Die Testdaten hatten andere Lichtverhältnisse als die Trainingsdaten, und das System musste mit allen verschiedenen Objekttypen unter Verwendung der gleichen Einstellungen arbeiten (keine individuelle Anpassung für jedes Objekt).
Das Ergebnis: SuperADD gewann. Es erzielte die höchsten Punktzahlen unter allen Wettbewerbern.
- Es identifizierte Mängel in Stoff etwa 88 % der Zeit korrekt.
- Es identifizierte Mängel in Reis etwa 74 % der Zeit korrekt.
- Am wichtigsten ist, dass es die bisherigen besten Methoden schlug und bewies, dass man für jedes einzelne Produkt keine komplexe, individuell trainierte KI benötigt, um großartige Ergebnisse zu erzielen.

Zusammenfassung

SuperADD ist eine intelligente, flexible und schnelle Methode, um Fabrikfehler zu erkennen, ohne dass die KI für jedes neue Produkt oder jede Lichtänderung neu trainiert werden muss. Es verwendet ein vortrainiertes Gehirn, betrachtet Produkte in überlappenden Teilen, um keine Details zu übersehen, übt mit künstlichen Lichtänderungen, um widerstandsfähig zu bleiben, und verwendet „Kleber", um sicherzustellen, dass die endgültige Defektkarte sauber und vollständig ist. Es ist eine „Einheitslösung", die tatsächlich sehr gut passt.

Technische Zusammenfassung: SuperADD – Trainingsfreie klassenunabhängige Anomalie-Segmentierung

1. Problemstellung

Der Beitrag adressiert die visuelle Anomalieerkennung (AD) in der industriellen Inspektion, wobei er sich speziell der Herausforderung von Verteilungsverschiebungen widmet, die durch variierende Aufnahmbedingungen (z. B. Änderungen der Beleuchtung) zwischen Training und Einsatz entstehen. Die Arbeit ist im Rahmen der VAND 4.0 Industrial Track angesiedelt, die den MVTec AD 2-Datensatz verwendet.

Zu den wichtigsten Randbedingungen und Herausforderungen gehören:

Unüberwachtes Setting: Modelle werden ausschließlich auf normalen (fehlerfreien) Bildern trainiert.
Robustheit: Modelle müssen ihre Leistung trotz signifikanter Erscheinungsveränderungen (Beleuchtung, Texturvariabilität) zwischen Trainings- und Testdatensätzen beibehalten.
Klassenunabhängige Anforderung: Im Gegensatz zu früheren Iterationen (VAND 3.0), bei denen klassenspezifische Architekturen oder Hyperparameter üblich waren, schreibt die Herausforderung eine einheitliche Architektur und gemeinsame Hyperparameter-Konfiguration für alle Objektklassen vor, um eine praktische Einsatzfähigkeit und minimalen Anpassungsaufwand zu gewährleisten.
Evaluation: Die Leistung wird durch den F1-Score auf Pixelebene und die AU-ROC auf privaten Testaufteilungen (TESTpriv und TESTpriv,mix) gemessen, wobei die Ground Truth verborgen ist, um Overfitting zu verhindern.

2. Methodik

Die vorgeschlagene Methode, SuperADD, ist eine trainingsfreie Pipeline, die auf dem SuperAD-Rahmenwerk aufbaut, welches seinerseits von PatchCore inspiriert ist. Sie nutzt einen eingefrorenen, vortrainierten Vision-Transformer-Rückgrat zur Extraktion von Merkmalen und führt eine Nachbarschaftsbasierte Ausreißererkennung durch, ohne Modellgewichte zu aktualisieren.

2.1. Architektur und Merkmalsextraktion

Rückgrat: Die Autoren ersetzen das in SuperAD verwendete DINOv2-Rückgrat durch DINOv3 (ViT-H+/16) und nutzen dessen überlegene vortrainierte visuelle Repräsentationen.
Mehrschichtige Einbettungen: Merkmalsvektoren werden aus vier Zwischenschichten (7, 15, 23 und 31) des Transformers extrahiert.
Aufbau des Speichers: Ein Speicher („Memory Bank") aus „normalen" Prototypen wird aus den Trainingsdaten konstruiert.

2.2. Wichtige technische Anpassungen

Der Beitrag führt mehrere spezifische Anpassungen ein, um Robustheit und Generalisierung zu verbessern:

Überlappende patchweise Verarbeitung:
- Anstatt das gesamte Bild oder nicht-überlappende Kacheln zu verarbeiten, werden Eingabebilder in überlappende Patches unterteilt ( $P=640$ , Überlappung $O=128$ ).
- Zweck: Dies reduziert die Empfindlichkeit gegenüber Gitterpositionsartefakten und verhindert falsche Anomalien in leeren Bereichen oder an Bildrändern. Es eliminiert die Notwendigkeit von Null-Padding, das unrealistische Referenz-Einbettungen erzeugen kann.
- Inferenz: Redundante Vorhersagen in überlappenden Bereichen werden verworfen, und die verbleibenden Einbettungen werden zu einer kohärenten Karte neu zusammengesetzt.
Verfeinerte Subsampling-Strategie:
- Problem: Das ursprüngliche SuperAD sampelte 16 Bilder ab, was versagte, nahe beieinanderliegende Merkmalsvektoren innerhalb eines Bildes oder über ähnliche Bereiche hinweg zu entfernen.
- Lösung: Die Autoren führen das Subsampling direkt auf Merkmalsvektoren mittels eines k-nächsten-Nachbarn (k-NN)-basierten Ansatzes durch.
- Mechanismus: Für jeden Kandidatenvektor wird die Anzahl der Nachbarn innerhalb eines globalen Distanzschwellenwerts berechnet. Vektoren mit niedrigen Scores (die in spärlich besetzten Regionen des Merkmalsraums liegen) werden beibehalten. Dies gewährleistet eine kompakte, diverse Speicherbibliothek, die die Datenverteilung besser abdeckt und gleichzeitig den Speicherverbrauch reduziert.
Intensitätsbasierte Augmentierung:
- Während der Verarbeitung der Trainingsdaten werden Pixelwerte mit einem zufälligen Faktor skaliert, der gleichverteilt aus $[0.8, 1.2]$ gezogen wird.
- Zweck: Um variierende Integrationszeiten und Beleuchtungsbedingungen zu simulieren und damit die Robustheit gegenüber Beleuchtungsverschiebungen zwischen Trainings- und Testdaten zu verbessern.
Schwellenwertbildung und Nachbearbeitung:
- Schwellenwertbildung: Anstatt klassenspezifischer Schwellenwerte, die aus Testdaten abgeleitet werden, wird ein einzelner Schwellenwert als skalierte Version (Verstärkungsfaktor 1,3–1,5) des 95. Perzentils der Anomaliekartenwerte aus den Trainingsdaten definiert.
- Morphologisches Schließen: Ein iterativer morphologischer Schließungsschritt (16 Iterationen mit linearen Strukturelementen mit einem Radius von 26 Pixeln in verschiedenen Orientierungen) wird angewendet, um fragmentierte lineare Defekte (z. B. Kratzer) zu verbinden und kleine Lücken zu schließen.
- Flächenfüllung: Ein abschließender Schritt füllt Löcher in der binären Maske, um die räumliche Konsistenz sicherzustellen, insbesondere dort, wo Anomalien Patchgrenzen überschreiten.

3. Wichtige Beiträge

Die Autoren beanspruchen folgende Beiträge:

Klassenunabhängiges Framework: Eine einheitliche Pipeline unter Verwendung einer einzigen Architektur und Hyperparameter für alle Objektklassen, die den VAND 4.0-Randbedingungen entspricht.
Verbessertes Subsampling: Eine Subsampling-Methode im Merkmalsraum, die im Vergleich zur Bildauswahl die Abdeckung der Datenverteilung und die Recheneffizienz verbessert.
Patchweise Vorverarbeitung: Die Einführung überlappender Patches zur Minderung positionsabhängiger Artefakte und zur Verbesserung der Generalisierung.
Robuste Nachbearbeitung: Die Anwendung eines iterativen, multi-orientierten morphologischen Schließens zur Generierung räumlich konsistenter Anomaliekarten.
Robustheit gegenüber Beleuchtung: Die Verwendung von Intensitätsskalierung zur Simulation von Beleuchtungsverschiebungen während des Trainings.
Upgrade des Rückgrats: Die erfolgreiche Integration von DINOv3 als Merkmalsextraktor.

4. Ergebnisse

Die Methode wurde auf dem MVTec AD 2-Datensatz über drei Aufteilungen hinweg evaluiert: TESTpub, TESTpriv und TESTpriv,mix.

Leistungsmetriken:
- TESTpub: Erzielte einen mittleren F1-Score von 62,61 % und eine AU-ROC0.05 von 83,93 %.
- TESTpriv: Erzielte einen mittleren F1-Score von 57,42 %.
- TESTpriv,mix: Erzielte einen mittleren F1-Score von 54,35 %.
Vergleich:
- SuperADD übertraf den vorherigen State-of-the-Art (ISVL aus VAND 3.0), der auf TESTpriv 53,81 % und auf TESTpriv,mix 51,43 % erreichte.
- Es übertraf auch andere Top-Methoden des Vorjahres (RoBiS, ASEG) sowie Standard-Baselines wie PatchCore und EfficientAD.
Klassenspezifische Leistung:
- Eine hohe Leistung wurde bei Fabric (88,47 % F1 auf TESTpriv) und Rice (73,83 % F1) beobachtet.
- Die Leistung war bei Can niedriger (0,00 % F1 auf TESTpub, 11,59 % auf TESTpriv), was auf feine Defekte zurückgeführt wird, die für das menschliche Auge kaum sichtbar sind.
- Wallplugs zeigten im Vergleich zu TESTpub einen signifikanten Leistungsabfall auf TESTpriv, wahrscheinlich aufgrund subtilerer Defekte und einer geringeren Toleranz gegenüber falsch positiven Ergebnissen in der Ground Truth.

5. Bedeutung und Behauptungen

Der Beitrag positioniert SuperADD als eine praktisch einsetzbare Lösung für die industrielle Anomalieerkennung. Seine Bedeutung liegt in:

Trainingsfreie Effizienz: Durch die Vermeidung eines Modell-Neutraining ermöglicht die Methode eine schnelle Integration neuer Produktklassen oder Designänderungen, eine kritische Anforderung in dynamischen industriellen Umgebungen.
Generalisierung: Der Ansatz zeigt, dass eine einzige, klassenunabhängige Konfiguration effektiv verschiedene Objekttypen (Massengüter, texturiert, reflektierend, transparent) und variierende Beleuchtungsbedingungen ohne klassenspezifische Feinabstimmung bewältigen kann.
Robustheit gegenüber Verteilungsverschiebungen: Die Kombination aus DINOv3, Intensitätsaugmentierung und patchweiser Verarbeitung mildert erfolgreich die Leistungsverschlechterung, die typischerweise durch Verschiebungen der Aufnahmbedingungen verursacht wird.

Die Autoren erkennen Einschränkungen an, wie etwa Schwierigkeiten bei der Erkennung fehlender Teile (z. B. gebrochene Stücke) oder sehr dünner Kratzer auf reflektierenden Oberflächen, betonen jedoch, dass die Methode erfolgreich kleine Defekte in Kategorien wie Reis und Walnüsse sowie großflächige Defekte mit hoher Kohärenz lokalisiert. Als zukünftige Arbeit wird vorgeschlagen, duale Speicherbibliotheken zu erforschen, die synthetische Anomalien über Diffusionsmodelle integrieren, obwohl dies außerhalb des Rahmens der aktuellen trainingsfreien Behauptung bleibt.

SuperADD: Training-free Class-agnostic Anomaly Segmentation -- CVPR 2026 VAND 4.0 Workshop Challenge Industrial Track