TIPS Over Tricks: Simple Prompts for Effective Zero-shot Anomaly Detection

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Der „Seher", der nicht genau hinschaut

Stell dir vor, du hast einen sehr klugen Roboter, der gelernt hat, Bilder und Wörter zu verstehen. Er kennt sich mit „Hunden" und „Katzen" aus, weil er Millionen von Bildern gesehen hat. Das ist wie CLIP, ein berühmtes KI-Modell, das oft für die Fehlererkennung (Anomalieerkennung) genutzt wird.

Aber dieser Roboter hat ein Problem: Er ist ein Generalist. Wenn er ein Bild von einem Auto sieht, sagt er: „Das ist ein Auto." Aber wenn du ihn fragst: „Wo genau ist der Kratzer auf der Tür?", schaut er nur grob hin und sagt: „Vielleicht da?" Er vermisst die feinen Details.

In der Industrie (z. B. bei der Herstellung von Schrauben oder in der Medizin bei Röntgenbildern) ist das fatal. Ein winziger Riss kann bedeuten, dass ein Flugzeug abstürzt oder ein Patient krank ist. Die bisherigen Lösungen waren kompliziert: Man hat dem Roboter extra „Brillen" oder „Verstärkungen" aufgesetzt, damit er genauer sieht. Das war wie ein schwerer Rucksack – es half ein bisschen, machte den Roboter aber langsam und kompliziert.

Die Lösung: Ein neuer Lehrer namens „TIPS"

Die Autoren dieses Papers haben sich gedacht: „Warum den Roboter mit einem Rucksack belasten, wenn wir ihm einfach einen besseren Lehrer geben?"

Sie haben ein neues Modell namens TIPS verwendet.

Die Analogie: Stell dir CLIP vor wie einen Künstler, der gerne Landschaften malt, aber nicht gut darin ist, winzige Insekten auf einem Blatt zu zeichnen. TIPS ist wie ein Künstler, der extra dafür trainiert wurde, genau hinzusehen. Er versteht nicht nur, was auf dem Bild ist, sondern auch, wo genau es ist.

Der neue Trick: Zwei verschiedene Stimmen

Aber auch TIPS hatte ein kleines Problem. Er hatte zwei „Stimmen" im Kopf:

Die globale Stimme: „Das ist ein kaputtes Auto." (Gut für die Frage: Ist etwas falsch?)
Die lokale Stimme: „Hier ist der Kratzer." (Gut für die Frage: Wo ist der Kratzer?)

Das Problem war: Diese beiden Stimmen redeten nicht auf derselben Frequenz. Wenn man sie zusammenbrachte, verwirrte sich der Roboter.

Die Autoren haben eine geniale, einfache Lösung gefunden: Getrennte Aufgaben (Decoupled Prompts).

Stell dir vor, du hast zwei Mitarbeiter in einer Fabrik:

Mitarbeiter A (Der Chef): Er bekommt eine feste, unveränderliche Liste von Anweisungen. Er schaut sich das ganze Bild an und sagt: „Ja, hier ist ein Fehler." Er ist stabil und zuverlässig für die grobe Entscheidung.
Mitarbeiter B (Der Detektiv): Er bekommt eine lernbare Liste, die er während des Trainings verbessert. Er kriecht über das Bild und sucht nach den winzigen Details. Er ist flexibel und findet die genauen Stellen.

Früher hat man versucht, beide Aufgaben mit einem einzigen Mitarbeiter zu lösen, der dann verwirrt war. Jetzt haben sie die Aufgaben getrennt. Das ist wie ein Orchester, bei dem die Geige die Melodie spielt und die Pauke den Rhythmus – beide machen ihren Job, ohne sich zu stören.

Das Ergebnis: Einfachheit schlägt Komplexität

Das Besondere an dieser Methode (die sie Tipsomaly nennen) ist, dass sie keine komplizierten Tricks braucht.

Kein schwerer Rucksack: Sie nutzen den neuen Lehrer (TIPS) direkt.
Kein Übertraining: Sie lassen die KI nicht zu viel lernen, damit sie sich nicht nur auf die Trainingsdaten spezialisiert (wie ein Schüler, der nur die Lösungen auswendig lernt, aber keine neuen Aufgaben lösen kann).

Was bringt das?

In der Industrie: Sie finden mehr Fehler auf Schrauben, Holz und Metall als alle bisherigen Methoden.
In der Medizin: Sie finden Tumore oder Polypen in Röntgen- und Endoskopie-Bildern genauer.
Allgemein: Das System funktioniert auch bei Dingen, die es nie vorher gesehen hat (Zero-Shot), weil es die Sprache versteht, um zu beschreiben, was „normal" und was „kaputt" ist.

Zusammenfassung in einem Satz

Statt einen einfachen Roboter mit komplizierten Werkzeugen zu überladen, haben die Forscher einen besseren Roboter (TIPS) genommen und ihm einfach gesagt: „Du, Chef, sag mir, ob etwas falsch ist. Und du, Detektiv, such mir genau die Stelle." Das Ergebnis ist schneller, genauer und funktioniert überall – von der Fabrikhalle bis zum Krankenhaus.

Der Titel „TIPS OVER TRICKS" bedeutet also: Ein guter Ratschlag (ein besserer Hintergrund-Modell und eine klare Strategie) ist besser als viele komplizierte Tricks.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Anomalieerkennung ist entscheidend für sicherheitskritische Anwendungen wie die industrielle Qualitätskontrolle und die medizinische Bildgebung. Herkömmliche Methoden benötigen jedoch oft große Mengen an annotierten Normaldaten aus dem Zielbereich, was aufgrund von Datenschutz oder Datenknappheit häufig nicht gegeben ist.

Das Zero-Shot Anomaly Detection (ZSAD)-Paradigma versucht, dieses Problem zu lösen, indem es Vision-Language-Modelle (VLMs) wie CLIP nutzt, um Anomalien in unbekannten Domänen ohne spezifisches Training zu erkennen. Allerdings stoßen bestehende Ansätze auf zwei Hauptprobleme:

Räumliche Fehlausrichtung: CLIPs Kontrastiv-Lernziel erzwingt keine Patch-Ebene-Alignment. Dies führt zu einer schwachen räumlichen Kohärenz und erschwert die präzise Lokalisierung von feinkörnigen Anomalien.
Komplexität vs. Generalisierung: Bisherige Lösungen versuchen, diese Mängel durch komplexe, lernbare Zusatzmodule (z. B. visuelle Prompts oder Feature-Adapter) zu kompensieren. Diese neigen jedoch zum Overfitting auf die Trainingsdaten und verschlechtern oft die Generalisierungsfähigkeit auf neue Domänen. Zudem wird die Wahl des Backbone-Modells oft vernachlässigt.

2. Methodik: Das Tipsomaly-Framework

Die Autoren schlagen einen vereinfachten Ansatz vor, der auf einer Neuinvestigation des Backbone-Modells und einer cleveren Prompt-Strategie basiert, anstatt auf komplexen Architekturanpassungen.

A. Backbone-Modell: TIPS

Statt CLIP verwenden die Autoren TIPS (Text-Image Pretraining with Spatial Awareness). TIPS ist ein VLM, das mit räumlich bewussten Zielen trainiert wurde und somit eine bessere Patch-Text-Alignment als CLIP bietet. Dies löst das Problem der groben räumlichen Ausrichtung von Grund auf.

B. Entkoppeltes Prompting (Decoupled Prompts)

Die Autoren identifizieren eine Verteilungslücke zwischen globalen Merkmalen (für Bildklassifikation) und lokalen Merkmalen (für Pixel-Lokalisierung) im TIPS-Modell. Um dies zu überbrücken, führen sie ein entkoppeltes Prompting ein:

Feste Prompts für die Bilderkennung: Für die Bild-level-Anomalieerkennung werden feste, nicht lernbare Textvorlagen (z. B. „A photo of a flawless {class}" vs. „damaged {class}") verwendet. Diese bieten eine starke globale Ausrichtung.
Lernbare Prompts für die Lokalisierung: Für die Pixel-level-Segmentierung werden class-agnostische, lernbare Token-Sets optimiert. Diese werden nur mit einem lokalen Verlust (Focal Loss und Dice Loss) auf Patch-Ebene trainiert, um feine Details zu erfassen, ohne die globale Konsistenz zu stören.

C. Aggregationsstrategie

Das Framework nutzt zwei globale Token aus TIPS: einen objektspezifischen Token ( $g_o$ ) und einen räumlichen Token ( $g_s$ ).

Der Bild-Score wird durch den Vergleich des räumlichen Tokens ( $g_s$ ) mit den festen Text-Prototypen berechnet.
Um die Genauigkeit zu erhöhen, wird dieser globale Score mit dem stärksten lokalen Beweis (dem maximalen Pixel-Score der Anomaliekarte) addiert:
$\hat{y} = p_a(g_s, G_f) + \max(\hat{S}_a)$
Diese Kombination verbessert die Robustheit der Bilderkennung.

3. Schlüsselbeiträge

Backbone-Neubewertung: Die Arbeit zeigt, dass die Wahl eines räumlich bewussten Backbones (TIPS) effektiver ist als die komplexen Anpassungen von CLIP.
Entkoppelte Prompt-Strategie: Die Trennung von festen Prompts (für globale Diskriminierung) und lernbaren Prompts (für lokale Segmentierung) schließt die Verteilungslücke zwischen globalen und lokalen Merkmalen und verhindert Overfitting.
Einfachheit und Effizienz: Der Ansatz verzichtet auf CLIP-spezifische Tricks und komplexe Adapter, bietet aber dennoch State-of-the-Art-Ergebnisse mit einer schlanken Architektur.
Umfassende Evaluation: Die Methode wurde auf 14 verschiedenen Datensätzen (industriell und medizinisch) evaluiert und zeigt starke Zero-Shot-Generalisierung.

4. Ergebnisse

Die Methode Tipsomaly wurde auf 14 Datensätzen getestet (u. a. MVTec-AD, VisA, ISIC, HeadCT).

Industrielle Domäne: Im Vergleich zu CLIP-basierten State-of-the-Art-Methoden (wie AnomalyCLIP, AdaCLIP) erzielte Tipsomaly Verbesserungen von 1,1–3,9 % auf Bild-Ebene und 1,5–6,9 % auf Pixel-Ebene (gemittelt über sieben Datensätze).
Medizinische Domäne: Besonders stark waren die Ergebnisse im medizinischen Bereich, wo die Pixel-Level-Metriken (AUROC, AUPRO, F1-max) im Durchschnitt um 3,2 %, 4,4 % und 5,3 % verbessert wurden.
Qualitative Ergebnisse: Die generierten Anomaliekarten weisen weniger False Positives auf und decken Anomalien vollständiger ab als konkurrierende Methoden.
Ablationsstudien: Die Studien bestätigten, dass die Kombination aus festem Prompt für die Klassifikation und lokalem Verlust für die Segmentierung entscheidend ist. Auch die Verwendung von SigLIP2 als Backbone erwies sich als weniger effektiv als TIPS.

5. Bedeutung und Fazit

Das Paper demonstriert, dass für Zero-Shot Anomaly Detection nicht unbedingt komplexe Anpassungen an etablierten Modellen wie CLIP notwendig sind. Stattdessen kann die Wahl eines geeigneten, räumlich bewussten Backbones (TIPS) in Kombination mit einer intelligenten Prompt-Strategie (Entkoppelung von globalen und lokalen Aufgaben) zu überlegenen Ergebnissen führen.

Die Arbeit unterstreicht die Bedeutung von Backbone-Architekturen und Prompt-Design gegenüber reinen Architektur-Tricks. Tipsomaly bietet eine robuste, generalisierbare und rechnerisch effiziente Lösung, die sowohl in industriellen als auch in medizinischen Anwendungen ohne Zielbereichs-Training einsetzbar ist. Der Code ist öffentlich verfügbar, was die Reproduzierbarkeit und Weiterentwicklung fördert.