FiLo: Zero-Shot Anomaly Detection by Fine-Grained Description and High-Quality Localization

Das Paper stellt FiLo vor, eine Zero-Shot-Anomalieerkennungsmethode, die durch feingranulare Beschreibungen mittels LLMs und eine positionserweiterte Hochwert-Lokalisierung mit Grounding DINO sowie einem Multi-Scale-Modul die Genauigkeit und Interpretierbarkeit bei der Detektion und Lokalisierung von Anomalien in verschiedenen Objektkategorien signifikant verbessert.

Zhaopeng Gu, Bingke Zhu, Guibo Zhu, Yingying Chen, Hao Li, Ming Tang, Jinqiao Wang

Veröffentlicht 2026-03-03
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie sind ein hochqualifizierter Qualitätskontrolleur in einer Fabrik. Ihre Aufgabe ist es, auf einem Fließband nach defekten Produkten zu suchen – sei es ein Kratzer auf einem Handy, ein Riss in einer Schraube oder eine Verfärbung auf einem Stoff.

Das Problem: In der herkömmlichen Welt müssen Sie für jeden neuen Produkttyp (z. B. von Schrauben zu Schokolade) erst tausende Beispiele von guten und schlechten Produkten sehen, um zu lernen, was ein Defekt ist. Das kostet Zeit, Geld und verletzt oft die Privatsphäre, wenn man Kundendaten braucht.

Hier kommt FiLo ins Spiel. FiLo ist wie ein Super-Inspektor, der nie zuvor ein einziges defektes Produkt gesehen hat, aber trotzdem sofort weiß, wo das Problem liegt. Wie macht er das? Er nutzt zwei magische Werkzeuge: Fine-Grained Description (Feine Beschreibung) und Location (Ortung).

Hier ist die Erklärung, wie FiLo funktioniert, mit ein paar einfachen Vergleichen:

1. Das Problem der alten Methoden: Der "Gummibärchen"-Ansatz

Frühere KI-Methoden waren wie ein Kind, das nur zwei Wörter kennt: "Gut" und "Schlecht".
Wenn Sie dem Kind ein Bild von einem Kratzer auf einem Holzbrett zeigen und fragen: "Ist das schlecht?", sagt es vielleicht "Ja". Aber wenn Sie ein Bild von einem verbrannten Keks zeigen, sagt es vielleicht auch "Ja".
Das Problem: Das Wort "Schlecht" ist zu allgemein. Ein Kratzer auf Holz ist etwas ganz anderes als ein verbrannter Keks. Die alte KI verwechselt oft den Hintergrund (z. B. einen Schatten) mit einem Defekt, weil sie nicht genau genug hinschaut.

2. Teil 1: FiLo's "Feine Beschreibung" (FG-Des) – Der Experte mit dem Wörterbuch

FiLo nutzt eine große Sprach-KI (wie einen sehr gebildeten Bibliothekar, der alles über die Welt weiß), um für jedes Produkt eine maßgeschneiderte Liste von möglichen Fehlern zu erstellen.

  • Der Vergleich: Statt nur zu sagen "Das ist kaputt", sagt FiLo: "Ein Holzbrett könnte verwurzelt, verfault, mit Rissen entlang der Maserung oder mit Schimmel sein."
  • Die Magie: FiLo lernt nicht nur, "schlecht" zu erkennen, sondern versteht den Unterschied zwischen einem "Kratzer" und einem "Riss". Er nutzt keine starren Sätze, sondern passt seine Fragen dynamisch an. Er fragt quasi: "Zeig mir einen Kratzer auf Holz" statt nur "Zeig mir etwas Schlechtes". Das macht die Suche viel präziser und erklärt auch warum etwas als defekt gilt.

3. Teil 2: FiLo's "Hohe Qualität der Ortung" (HQ-Loc) – Der Detektiv mit dem Suchscheinwerfer

Wenn die alte KI nach einem Defekt suchte, verglich sie jedes kleine Bildchen (Patch) einzeln mit dem Text. Das war wie jemand, der im Dunkeln mit einer Taschenlampe jedes einzelne Pflaster auf dem Boden einzeln abtastet. Das dauert lange und man stolpert leicht über Dinge, die gar nicht defekt sind (z. B. Schatten im Hintergrund).

FiLo macht das anders in drei Schritten:

  1. Der grobe Suchscheinwerfer (Grounding DINO): FiLo nutzt zuerst einen anderen KI-Experten, der wie ein Suchscheinwerfer funktioniert. Dieser sagt: "Hey, schau mal dort hin, dort ist das Objekt!" Er ignoriert den Hintergrund komplett. So vermeidet FiLo, dass er Schatten oder Staub auf dem Boden fälschlicherweise als Defekt meldet.
  2. Der Positions-Check: FiLo fügt der Frage noch eine Ortsangabe hinzu. Statt nur "Zeig mir einen Kratzer", fragt er: "Zeig mir einen Kratzer auf der rechten Seite". Das hilft der KI, sich auf den relevanten Bereich zu konzentrieren.
  3. Der Multi-Format-Scanner (MMCI): Defekte haben verschiedene Formen. Ein Riss ist lang und dünn, ein Loch ist rund, eine Delle ist groß. FiLo nutzt verschiedene "Brillen" (Filter), um gleichzeitig nach kleinen, großen, runden und eckigen Fehlern zu suchen. Es ist, als würde er nicht nur mit einer Lupe, sondern mit einem Set aus verschiedenen Lupen und Weitwinkelobjektiven gleichzeitig scannen.

Das Ergebnis: Warum ist das so toll?

FiLo hat in Tests (auf Datenbanken wie MVTec und VisA) gezeigt, dass er besser ist als alle bisherigen Methoden.

  • Er findet mehr: Er erkennt Defekte, die andere übersehen.
  • Er zeigt genauer: Er markiert den Defekt pixelgenau, ohne den ganzen Hintergrund als "kaputt" zu kennzeichnen.
  • Er ist schnell: Er braucht keine neuen Trainingsdaten für jedes neue Produkt.

Zusammenfassend:
Stellen Sie sich FiLo vor wie einen Detektiv, der nicht nur "Mord" kennt, sondern genau weiß, wie ein Messerstich, ein Giftmord oder ein Erstickungstod aussieht (Feine Beschreibung), und der zudem eine spezielle Brille trägt, die ihm hilft, den Täter sofort im Gedränge zu finden, ohne die unschuldigen Zuschauer zu verdächtigen (Hohe Qualität der Ortung).

Damit kann die Industrie Produkte schneller und sicherer prüfen, ohne dass ein Mensch erst jahrelang Defekte sammeln muss, um die Maschine zu trainieren.