Anomaly detection in time-series via inductive biases in the latent space of conditional normalizing flows

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Der "perfekte" Lügner

Stell dir vor, du hast einen sehr cleveren Detektiv (ein KI-Modell), der gelernt hat, wie sich ein normales Herzschlag-Muster oder ein normaler Aktienkurs verhält. Wenn du ihm eine neue Kurve zeigst, fragt er: "Wie wahrscheinlich ist es, dass diese Kurve zu meinem gelernten Muster gehört?"

Das Problem bei herkömmlichen Detektiven ist folgendes: Sie sind manchmal zu gut darin, Muster zu erkennen, aber zu schlecht darin, zu verstehen, ob das Muster richtig ist.

Die Analogie:
Stell dir vor, dein Detektiv hat gelernt, wie ein normaler Spaziergang aussieht. Plötzlich siehst du jemanden, der auf einem Trampolin hüpft.

Der alte Detektiv schaut auf die Höhe der Sprünge. Da die Sprünge hoch sind, denkt er: "Wow, das ist ein sehr häufiges Ereignis in meiner Datenbank! Das ist sicher normal!" (Weil er nur auf die Häufigkeit schaut, nicht auf den Zusammenhang).
Tatsächlich ist das Hupfen aber völlig falsch für einen Spaziergang. Der alte Detektiv übersieht den Fehler, weil er nur die "Dichte" der Daten betrachtet.

In der Wissenschaft nennt man das: Likelihood (Wahrscheinlichkeit) ist nicht dasselbe wie Konsistenz (ob es logisch zusammenpasst).

Die Lösung: Der "Regel-Check" im Inneren

Die Autoren schlagen eine neue Methode vor. Statt nur zu fragen: "Ist das Bild ähnlich?", fragen sie: "Folgt das Bild den Regeln?"

Sie bauen ein System, das wie ein Gymnastik-Coach funktioniert.

1. Der Coach und die Schüler (Das Modell)

Stell dir vor, du hast eine Gruppe von Schülern (die Daten), die du trainierst.

Der alte Weg: Du sagst ihnen nur: "Macht das, was ihr am häufigsten seht." (Das führt zu den Problemen oben).
Der neue Weg (Induktive Verzerrung): Du gibst ihnen eine starre Regel: "Ihr müsst euch wie eine perfekt choreografierte Tanztruppe bewegen. Wenn einer nach links geht, muss der nächste nach rechts gehen, und alle müssen im Takt bleiben."

Diese Regel ist die induktive Verzerrung. Sie zwingt das System, nicht nur Daten zu speichern, sondern eine logische Struktur zu lernen.

2. Die unsichtbare Bühne (Der latente Raum)

Das System verwandelt die komplizierten, chaotischen Daten (z. B. Aktienkurse oder Herzschläge) in eine vereinfachte, unsichtbare Sprache – nennen wir sie "Geheimsprache".

Im alten System war die Geheimsprache ein Haufen durcheinander geworfener Bücher.
In diesem neuen System ist die Geheimsprache ein perfekt sortiertes Regal. Jedes Buch (jeder Datenpunkt) muss an eine bestimmte Stelle, die sich logisch aus dem vorherigen Buch ergibt.

3. Der Test: "Passt du ins Regal?" (Der Goodness-of-Fit Test)

Wenn eine neue, verdächtige Kurve hereinkommt, passiert Folgendes:

Das System übersetzt die Kurve in die Geheimsprache.
Der Coach (das System) prüft nicht, wie "häufig" diese Kurve ist. Er prüft, ob sie sich an die Tanzregeln hält.
Der Test: Er nutzt einen statistischen Werkzeugkasten (den Kolmogorov-Smirnov-Test), um zu messen: "Bewegt sich dieser Schüler im Takt mit der Gruppe?"

Wenn ja: Alles ist in Ordnung.
Wenn nein: Selbst wenn der Schüler auf den ersten Blick wie die anderen aussieht (hohe Wahrscheinlichkeit), ist er ein Betrüger, weil er aus dem Takt gerät. Das System schreit: "ANOMALIE!"

Warum ist das so genial?

Stell dir vor, du hast einen Dieb, der sich perfekt verkleidet hat. Er trägt die gleiche Uniform wie alle anderen (hohe Wahrscheinlichkeit).

Der alte Detektiv schaut nur auf die Uniform und lässt ihn durch.
Der neue Coach schaut auf die Tanzschritte. Der Dieb weiß nicht, wie man den speziellen Tanz macht, den die anderen beherrschen. Der Coach merkt sofort: "Hey, du tanzst nicht im Takt! Du bist ein Fremder!"

Die Vorteile im Alltag

Kein manuelles Raten: Früher mussten Menschen einen Schwellenwert festlegen: "Wenn der Fehler größer als X ist, ist es ein Fehler." Das ist oft willkürlich. Hier entscheidet ein mathematischer Test: "Passt es zur Regel oder nicht?" Das ist viel objektiver.
Früherkennung: Es findet Fehler, die sonst unsichtbar wären, weil sie sich in "sicheren" Bereichen verstecken.
Selbst-Check: Das System kann sich selbst testen. Wenn der Coach merkt, dass seine eigenen Schüler die Tanzregeln nicht lernen können, weiß er: "Mein Training war schlecht, ich bin noch nicht bereit für den echten Einsatz." Das verhindert, dass man ein kaputtes System benutzt.

Zusammenfassung

Die Forscher haben ein System gebaut, das nicht nur lernt, wie Daten aussehen, sondern warum sie so aussehen. Es zwingt die Daten, sich an eine logische, zeitliche Regel zu halten. Wenn eine neue Datenreihe diese Regel bricht – egal wie "normal" sie auf den ersten Blick aussieht – wird sie sofort als Anomalie erkannt.

Es ist der Unterschied zwischen jemandem, der nur Bilder auswendig lernt, und jemandem, der die Logik hinter dem Bild versteht.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Erkennung von Anomalien (Ausreißern) in multivariaten Zeitreihen ist eine fundamentale Herausforderung im maschinellen Lernen. Herkömmliche Ansätze basieren häufig auf Deep Generative Models (DGMs), die durch Maximierung der Daten-Wahrscheinlichkeit (Likelihood) trainiert werden. Das Paper identifiziert jedoch eine wesentliche strukturelle Einschränkung dieses Ansatzes:

Fehlende Unterscheidungsfähigkeit: Die Likelihood im Beobachtungsraum misst die marginale Dichte, nicht aber die Übereinstimmung mit strukturierten zeitlichen Dynamiken.
Das „OOD-Problem": Tiefe generative Modelle können oft anomalie- oder out-of-distribution (OOD) Proben eine höhere Wahrscheinlichkeit zuweisen als in-distribution Daten (z. B. bei hochfrequenten Rauschen oder bestimmten Amplitudenänderungen).
Abhängigkeit von Schwellenwerten: Klassische Methoden erfordern oft manuell gewählte Schwellenwerte für Anomalie-Scores, was in unüberwachten Szenarien mit seltenen Anomalien unpraktisch und statistisch schwer zu rechtfertigen ist.

Das Ziel ist es, ein Framework zu entwickeln, das Anomalien nicht nur als Abweichungen von der Dichte, sondern als Verletzungen spezifischer, vordefinierter zeitlicher Dynamiken definiert.

2. Methodik

Die Autoren schlagen ein unüberwachtes, probabilistisches State-Space-Framework vor, das auf Conditional Normalizing Flows (CNF) basiert und explizite induktive Verzerrungen (Inductive Biases) im latenten Raum nutzt.

Kernkomponenten:

Conditional Normalizing Flow (CNF):
- Die CNF bildet die Beobachtungen $x_t$ (unter Berücksichtigung eines zeitlichen Kontexts $W_t$ ) auf latente Repräsentationen $z_t$ ab.
- Dies ermöglicht eine invertierbare Transformation, bei der die Log-Likelihood effizient berechnet werden kann.
Latente Dynamik mit induktiver Verzerrung:
- Im Gegensatz zu reinen Dichteschätzern wird die zeitliche Evolution der latenten Mittelwerte $\mu_t$ durch eine vordefinierte deterministische Dynamik $\psi$ eingeschränkt.
- Linear-Gaussian Latent Dynamical Model (LG-LDM): Als spezifische Implementierung wird ein lineares Gaußsches Modell gewählt:
  - $\mu_0 \sim \mathcal{N}(0, I)$
  - $\mu_t = A\mu_{t-1} + b$
- Dies zwingt die latenten Trajektorien, sich gemäß einer linearen, zeitlich kohärenten Dynamik zu entwickeln.
Trainingsprozess:
- Das Modell wird durch Minimierung der negativen Log-Likelihood (NLL) trainiert. Dabei werden sowohl die Parameter der CNF ( $\theta$ ) als auch die Parameter der latenten Dynamik ( $\phi = \{A, b\}$ ) gemeinsam optimiert.
- Das Training kann sequentiell über die gesamte Zeitreihe oder in Mini-Batches erfolgen, um die Recheneffizienz zu steigern.
Anomalieerkennung als statistischer Test (Goodness-of-Fit):
- Anomalieerkennung wird nicht über einen Likelihood-Score, sondern über einen Goodness-of-Fit (GOF) Test im latenten Raum durchgeführt.
- Multivariate Kolmogorov-Smirnov (MV-KS) Test: Nach dem Mapping der neuen Beobachtungen in den latenten Raum wird geprüft, ob die resultierenden Trajektorien der vorgegebenen Verteilung (z. B. standardisierte Gaußsche Verteilung) entsprechen.
- Entscheidungsregel: Wenn der KS-Statistik-Wert ( $s$ ) einen kritischen Wert ( $\tau$ ) überschreitet, wird die Sequenz als Anomalie klassifiziert.
- Vorteil: Dies eliminiert die Notwendigkeit manueller Schwellenwerttuning, da der kritische Wert des Tests datengetrieben und statistisch fundiert ist.

3. Wichtige Beiträge

State-Space Deep Generative Model: Kopplung einer CNF mit expliziten latenten Dynamiken (z. B. linear-gaußsch), die Beobachtungen auf zeitlich kohärente Trajektorien mit vordefinierter Dichte zwingt.
Statistisch fundierter, unüberwachter Detektor: Ein Anomalie-Detektor, der auf GOF-Tests im latenten Raum basiert. Er kann Anomalien auch in Bereichen hoher Beobachtungs-Wahrscheinlichkeit (hohe Dichte) erkennen, wo herkömmliche Likelihood-basierte Methoden versagen.
Integrierte Trainingsdiagnostik: Das Framework bietet einen eingebauten Mechanismus, um zu überprüfen, ob das Training erfolgreich war. Wenn die Trainingsdaten die induktive Verzerrung nicht erfüllen (hoher KS-Wert im Training), ist das Modell nicht vertrauenswürdig für die Anomalieerkennung. Dies signalisiert, ob das Modell bereit für den Einsatz ist.
Interpretierbarkeit: Durch die Visualisierung des latenten Raums können Abweichungen von der erwarteten Dynamik direkt interpretiert werden.

4. Ergebnisse

Die Autoren evaluieren das Framework an synthetischen und realen Datensätzen (TSB-AD Benchmark).

Synthetische Daten:
- Versagen von NLL: Herkömmliche NLL-basierte Scores scheiterten oft bei Amplitudenänderungen, da diese Punkte in hochdichten Regionen des Modells landeten.
- Erfolg von MV-KS: Der MV-KS Test erkannte erfolgreich Anomalien in Frequenz, Amplitude und Rauschen, selbst wenn die NLL niedrig war.
- Fenstergröße: Es wurde gezeigt, dass die Fenstergröße ( $w$ ) kritisch ist. Ein Fenster von $w \approx 64$ (in der Größenordnung von $D^3$ ) erwies sich als optimal, um ein Gleichgewicht zwischen statistischer Power und der Fähigkeit, lokale Anomalien zu erkennen, zu finden.
Reale Daten (TSB-AD):
- Das Framework erreichte wettbewerbsfähige Ergebnisse im Vergleich zu etablierten Baselines (z. B. TimesNet, OmniAnomaly, AutoEncoder).
- Besonders bei univariaten Datensätzen (z. B. Stock-Daten) zeigte die MV-KS-Methode eine hohe Leistung (VUS-PR Metrik).
- Diagnostik: Die „FIT"-Metrik (Anteil der Trainingssequenzen, die den GOF-Test bestehen) korrelierte stark mit der tatsächlichen Leistung. Modelle, die die induktive Verzerrung im Training nicht einhielten, zeigten schlechte Ergebnisse bei der Anomalieerkennung.

5. Bedeutung und Fazit

Das Paper bietet einen Paradigmenwechsel in der Anomalieerkennung von Zeitreihen:

Vom Likelihood zum Struktur-Check: Statt zu fragen „Wie wahrscheinlich ist dieses Datum?", fragt das Framework „Verhält sich dieses Datum gemäß den erwarteten physikalischen/strukturellen Dynamiken?".
Robustheit: Die Methode ist robust gegenüber Anomalien, die in hochdichten Bereichen des Beobachtungsraums liegen, da sie die zeitliche Kohärenz im latenten Raum prüft.
Unabhängigkeit von Labels: Da der kritische Wert des GOF-Tests theoretisch bestimmt werden kann, ist das Verfahren vollständig unüberwacht und benötigt keine manuelle Kalibrierung.
Herausforderungen: Die Methode ist empfindlich gegenüber der Modellkapazität und der Wahl der induktiven Verzerrung. In hochdimensionalen Räumen kann die statistische Power der Tests leiden, was große Zeitfenster erfordert.

Zusammenfassend demonstriert das Paper, dass die Einbettung expliziter induktiver Verzerrungen in generative Modelle zusammen mit statistischen Güte-Tests eine vielversprechende, interpretierbare und zuverlässige Alternative zu reinen Likelihood-basierten Ansätzen darstellt.