Anomaly Detection from a Tensor Train Perspective

Ursprüngliche Autoren: Alejandro Mata Ali, Aitor Moreno Fdez. de Leceta, Jorge López Rubio

Veröffentlicht 2026-05-05

📖 5 Min. Lesezeit🧠 Tiefgang

Ursprüngliche Autoren: Alejandro Mata Ali, Aitor Moreno Fdez. de Leceta, Jorge López Rubio

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst oder gebilligt. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Stellen Sie sich vor, Sie haben eine riesige Bibliothek voller Bücher. Die meisten Bücher sind Kopien desselben populären Romans (die „normalen" Daten), aber einige wenige sind seltsame, handschriftliche Kritzeleien oder gehören völlig anderen Genres an (die „Anomalien"). Ihr Ziel ist es, diese seltsamen Bücher zu finden, ohne jedes einzelne durchzulesen.

Dieser Artikel stellt eine neue Methode vor, dies mit einem mathematischen Werkzeug namens Tensor-Trains zu erreichen. Betrachten Sie dieses Werkzeug nicht als Buch, sondern als eine hocheffiziente Kompressionsmaschine (wie eine superfortschrittliche Zip-Datei).

Hier ist die einfache Aufschlüsselung, wie es funktioniert, welche Methoden sie erprobten und was sie herausfanden.

Die Kernidee: Der „Quetsch"-Test

Die Hauptidee der Autoren basiert auf einem einfachen Prinzip: Normale Dinge passen zusammen; seltsame Dinge nicht.

Das Setup: Sie nehmen einen Datensatz (wie Bilder von Ziffern oder Protokolle von Computernetzwerken) und speisen ihn in ihre Kompressionsmaschine ein.
Das Quetschen: Sie sagen der Maschine, sie solle die Daten „zusammendrücken", indem sie winzige, unwichtige Details verwirft, um Platz zu sparen.
Das Ergebnis:
- Normale Daten: Da diese Elemente gemeinsame Muster teilen (wie die Ähnlichkeit aller Ziffern „1"), kann die Maschine sie zusammendrücken und dann wieder entquetschen, sodass sie fast ihre ursprüngliche Form haben. Sie passen perfekt in die Form.
- Anomale Daten: Da diese Elemente seltsam oder einzigartig sind, passen sie nicht in die Form. Wenn die Maschine versucht, sie zu quetschen, verwirft sie zu viel ihrer einzigartigen Struktur. Wenn sie versucht, sie wieder zu entquetschen, sehen sie verzerrt oder beschädigt aus.

Der Test: Sie vergleichen das ursprüngliche Element mit der „entquetschten" Version. Wenn sie sich sehr ähnlich sehen, ist es normal. Wenn sie sich sehr unterschiedlich sehen, ist es eine Anomalie.

Die zwei Hauptmethoden

Der Artikel beschreibt zwei Wege, diesen Test durchzuführen, wie zwei verschiedene Strategien zur Organisation dieser Bibliothek:

1. Die „Globale" Methode (Die Gruppenumarmung)

Wie es funktioniert: Sie speisen die gesamte Bibliothek (oder einen riesigen Teil davon) auf einmal in die Kompressionsmaschine ein. Die Maschine lernt die „durchschnittliche" Form der gesamten Gruppe.
Die Analogie: Stellen Sie sich vor, Sie machen ein Foto der gesamten Bibliothek, komprimieren dieses Foto und sehen dann, wie gut jedes einzelne Buch in dieses komprimierte Foto passt.
Vorteile: Es ist schnell und funktioniert gut für große Datensätze.
Nachteile: Es benötigt viele Daten, um zu beginnen.

2. Die „Lokale" Methode (Das Einzelgespräch)

Wie es funktioniert: Sie wählen nur ein perfektes Beispiel eines „normalen" Buches aus (ein Trainingsbeispiel). Sie bauen eine Form basierend auf diesem einzelnen Buch. Dann testen Sie jedes andere Buch gegen diese spezifische Form.
Die Analogie: Sie nehmen eine perfekte „1" aus dem Zifferndatensatz, merken sich ihre Form und prüfen dann jede andere Zahl, um zu sehen, ob sie in diese spezifische „1"-Form passt.
Vorteile: Es kann unglaublich genau sein (manchmal perfekt).
Nachteile: Es ist extrem langsam. Der Artikel stellt fest, dass es etwa 50-mal langsamer ist als die globale Methode.

Was sie testeten

Die Autoren testeten diese Methoden an drei verschiedenen „Bibliotheken":

Handschriftliche Ziffern: Versuchen, eine „7" zu erkennen, wenn die Bibliothek hauptsächlich aus „1"s besteht.
Gesichter: Versuchen, ein anderes Gesicht in einem Raum voller derselben Person zu erkennen.
Cybersicherheit: Versuchen, einen Hackerangriff in einem Strom normaler Computeranfragen zu erkennen.

Die überraschenden Erkenntnisse

Der Artikel enthüllte einige kontraintuitive Ergebnisse:

Nicht zu stark komprimieren: Man könnte denken, dass das maximale Zusammendrücken der Daten am besten wäre. Die Autoren fanden jedoch heraus, dass sehr leichte Kompression (nur ein winziger Druck) oft am besten funktionierte. Wenn Sie zu stark drücken, beginnen Sie auch die „normalen" Muster zu zerstören, was es schwierig macht, den Unterschied zu erkennen.
Die „Skalierer"-Falle: In der Datenwissenschaft ist es üblich, Daten zu „skalieren" (wie das Ändern der Helligkeit oder Größe aller Fotos auf denselben Wert), bevor sie verarbeitet werden. Die Autoren fanden heraus, dass für ihre spezifische Methode das Skalieren die Ergebnisse tatsächlich ruinieren kann. Es war wie der Versuch, einen quadratischen Pfropfen in ein rundes Loch zu stecken; das Skalieren zerstörte die spezifischen Muster, die die Maschine sehen musste.
Geschwindigkeit vs. Genauigkeit: Die „Lokale" Methode war die genaueste (erreichte perfekte Scores bei Ziffern), war aber zu langsam, um für die meisten realen Anwendungen praktikabel zu sein. Die „Globale" Methode war ein großartiger Kompromiss und bot eine sehr gute Genauigkeit (Erkennung von 98 % der Cyberangriffe), während sie schnell genug für den Einsatz war.

Das Fazit

Die Autoren schufen eine neue Möglichkeit, „seltsame" Daten zu finden, indem sie sahen, wie gut sie einen Kompressionstest überstehen. Sie zeigten, dass Sie Anomalien effektiv erkennen können, indem Sie die „normale" Struktur intakt lassen und die „seltsame" Struktur zerfallen lassen.

Wichtigste Erkenntnis: Manchmal ist der beste Weg, eine Nadel im Heuhaufen zu finden, nicht, härter zu suchen, sondern zu sehen, wie gut das Heu zusammenhält, wenn Sie versuchen, es zu quetschen. Wenn das Heu auseinanderfällt, haben Sie möglicherweise die Nadel gefunden.

Technische Zusammenfassung: Anomalieerkennung aus der Perspektive von Tensor-Trains

Problemstellung
Die Anomalieerkennung ist eine kritische Aufgabe in Bereichen wie industrieller Überwachung, medizinischer Diagnostik, Betrugserkennung und Cybersicherheit. Das primäre Ziel besteht darin, Datenpunkte zu identifizieren, die erheblich vom normalen Verhalten abweichen. Während traditionelle statistische Methoden, maschinelles Lernen und Deep Learning Erfolge erzielt haben, haben sie oft Schwierigkeiten mit hochdimensionalen Daten und erfordern typischerweise Techniken zur Dimensionsreduktion wie die Hauptkomponentenanalyse (PCA). Die Autoren schlagen vor, Tensor-Netzwerke (TN), speziell Tensor-Trains (TT), zur effizienten Bewältigung hochdimensionaler Daten zu nutzen. Die Kernhypothese lautet, dass normale Daten gemeinsame strukturelle Muster teilen, während anomale Daten eindeutige oder seltene Strukturen aufweisen. Durch die Kompression der Daten in eine approximative Tensor-Repräsentation zielt die Methode darauf ab, die Struktur normaler Daten zu bewahren und gleichzeitig die Struktur anomaler Daten zu stören, wodurch ihre Unterscheidung ermöglicht wird.

Methodik
Der Artikel stellt eine Suite von acht Algorithmen vor, die auf zwei konzeptionell unterschiedlichen Kompressionsstrategien unter Verwendung der Tensor-Train (TT)-Darstellung basieren. Die Kompression wird durch einen Parameter $\tau$ (im Bereich von 0 bis 1) gesteuert, der die Beibehaltung von Singulärwerten während des TT-SVD-Prozesses bestimmt.

Globale Kompressionsalgorithmen:
- Konzept: Der gesamte Datensatz wird als ein einzelner Tensor höherer Ordnung behandelt. Der Algorithmus komprimiert den globalen Datensatz und bewahrt dabei die dominanten Strukturen, die von der Mehrheit der Datenpunkte (normale Daten) geteilt werden. Anomale Daten, denen diese gemeinsamen Strukturen fehlen, werden während der Kompression stärker verdrängt.
- Entscheidungsfunktionen:
  - Auto-Vergleich (ACGCTNAD): Berechnet einen „Selbstbeibehaltungswert" ( $s_{self}$ ), indem das Skalarprodukt eines ursprünglichen Datenpunkts mit seiner rekonstruierten Kompression gebildet und durch das quadrierte Norm des Originals normalisiert wird. Dieser Wert erfasst sowohl die gerichtete Ausrichtung als auch die Beibehaltung der Magnitude.
  - Gruppenvergleich (GCGCTNAD): Vergleicht jeden Datenpunkt mit den komprimierten Versionen aller anderen Datenpunkte in der Menge unter Verwendung einer Kosinus-Ähnlichkeitsmetrik, um sich auf die geometrische Ausrichtung statt auf die Magnitude zu konzentrieren.
- Lernmodi: Diese Methoden können in unüberwachten (ohne Vorwissen), überwachten (unter Verwendung von gelabelten normalen Trainingsdaten) oder semi-überwachten Modi angewendet werden.
Lokale Kompressionsalgorithmen:
- Konzept: Anstatt den gesamten Datensatz zu komprimieren, verwendet dieser Ansatz einen repräsentativen normalen Datenpunkt (oder eine Menge), um eine „normale" TT-Struktur zu definieren. Die ersten $n-1$ Knoten der TT-Darstellung für einen Test-Datenpunkt werden gezwungen, mit den Kernen der Trainingsdaten übereinzustimmen, wobei der letzte Knoten die einzigartigen Informationen des Testpunkts enthält.
- Heuristische Ausrichtung: Die Methode verwendet einen heuristischen Ausrichtungsschritt, bei dem die abgeschnittene Basis der Testdaten mit den normalen Trainingskernen ausgerichtet wird.
- Entscheidungsfunktionen: Ähnlich wie bei den globalen Methoden werden selbstvergleichende (ACLCTNAD) und gruppenvergleichende (GCLCTNAD) Bewertungen verwendet.
- Projektionsbasierte Variante: Die Autoren schlagen eine mathematisch fundierte lokale Variante vor, die auf orthogonaler Projektion basiert (Minimierung des quadratischen Fehlers gegen eine erlernte TT-Schnittstelle), weisen jedoch darauf hin, dass die in dem Artikel berichteten experimentellen Ergebnisse der ursprünglichen heuristischen Version entsprechen.

Hauptbeiträge

Neues Framework: Die Einführung von Anomalieerkennungsalgorithmen, die auf der Bewahrung und Störung von Tensor-Netzwerk-Strukturen während der Kompression basieren.
Algorithmische Suite: Entwicklung von vier primären Algorithmen (ACGCTNAD, GCGCTNAD, ACLCTNAD, GCLCTNAD), die sowohl globale als auch lokale Kompressionsstrategien abdecken und für unüberwachte, überwachte und semi-überwachte Szenarien anwendbar sind.
Effizienz in hohen Dimensionen: Der Nachweis, dass TT-Repräsentationen hochdimensionale Daten (z. B. Bilder, Netzwerkverkehrs-Logs) effektiv bewältigen können, ohne die Einschränkungen traditioneller Dimensionsreduktion.
Empirische Validierung: Tests an drei unterschiedlichen Datensätzen:
- Digits-Datensatz: Unterscheidung einer Ziffernkategorie von anderen.
- Olivetti-Gesichter-Datensatz: Unterscheidung von Gesichtsidentitäten.
- Cybersicherheits-Datensatz: Erkennung von Cyberangriffen (Brute-Force, Scanning, Slowloris) gegenüber normalen Netzwerk-Anfragen.

Ergebnisse

Digits-Datensatz:
- ACGCTNAD (Global): Erzielte maximale AUROC-Werte im Bereich von 0,74 bis 0,997. Die Leistung erreichte oft bei sehr niedrigen Kompressionswerten ( $\tau$ ) ihren Höhepunkt, was darauf hindeutet, dass aggressive Kompression anomale Strukturen entfernt, während normale erhalten bleiben.
- ACLCTNAD (Lokal): Erzielte eine perfekte AUROC (1,0) für alle Ziffernklassen. Allerdings wurde festgestellt, dass die Methode 50-mal langsamer ist als die globale Methode. Zudem zeigte sie bei niedrigen Kompressionswerten eine „Umkehrung der Score-Orientierung" (AUROC fiel auf 0), was eine nachträgliche Inversion der Scores erforderte, was ihre unüberwachte Nutzbarkeit einschränkt.
Olivetti-Gesichter-Datensatz:
- Die globale Methode (ACGCTNAD) zeigte je nach Klasse eine variable Leistung mit AUROC-Werten im Bereich von 0,69 bis 1,0. Die Autoren führen die geringere Leistung in einigen Fällen auf die kleine Stichprobengröße (ca. 8–9 normale Proben pro Klasse) oder die spezifische Natur der Daten zurück.
Cybersicherheits-Datensatz:
- Ohne Skalierer: Die ACGCTNAD-Methode erzielte außergewöhnliche Ergebnisse mit einer AUROC von 0,98 und einer Genauigkeit von 97,72 % bei $\tau = 0,01$ .
- Mit Standard-Skalierer: Die Leistung verschlechterte sich erheblich. Die Autoren beobachteten, dass die Anwendung eines Standard-Skalierers die Ergebnisse „ruiniert", wahrscheinlich, weil er die zugrunde liegenden strukturellen Normen verändert, auf die das Tensor-Netzwerk zur Erkennung angewiesen ist.
- Unüberwachter Modus: Bei Tests ohne Trainingsdatensatz (nur Testdaten) behielt die Methode ohne Skalierer eine hohe Leistung (97,5 % Genauigkeit) bei, während die Leistung mit Skalierer auf 64,7 % sank.

Bedeutung und Behauptungen
Der Artikel behauptet, dass der vorgeschlagene Tensor-Netzwerk-Ansatz eine vielseitige und effektive Alternative für die Anomalieerkennung bietet, insbesondere in hochdimensionalen Umgebungen. Die Autoren heben Folgendes hervor:

Strukturerhaltung: Die Kraft der Methode ergibt sich aus der Fähigkeit von Tensor-Netzwerken, die strukturellen Beziehungen normaler Daten zu erfassen und zu bewahren, während die diffusen Strukturen von Anomalien verworfen werden.
Gegenintuitive Kompression: Die optimale Erkennung erfolgt oft bei niedrigen Kompressionswerten (niedriges $\tau$ ), wobei die Repräsentation anomale Strukturen löscht, aber normale behält; ein Phänomen, das im Vergleich zu Standard-Kompressionszielen kontraintuitiv erscheinen mag.
Empfindlichkeit gegenüber Vorverarbeitung: Die Ergebnisse betonen, dass die Datenvorverarbeitung, insbesondere die Standard-Skalierung, für diesen spezifischen Ansatz nachteilig sein kann, da sie die strukturellen Merkmale zerstören kann, die der Algorithmus zu erkennen designed ist.
Abwägungen: Während lokale Methoden (ACLCTNAD) eine perfekte Trennung erreichen können, sind sie rechenintensiv und verlassen sich auf heuristische Ausrichtung. Globale Methoden (ACGCTNAD) bieten einen besseren Ausgleich zwischen Geschwindigkeit und Genauigkeit und sind daher für viele Anwendungen praktischer.

Die Autoren schließen, dass ihre Ergebnisse vielversprechend sind, jedoch eine umfassendere Evaluierung erforderlich ist, die Vergleiche mit Standard-Baselines (PCA, Isolation Forest, Autoencoder usw.) und eine rigorose statistische Berichterstattung (zufällige Seeds, Standardabweichungen) für zukünftige Arbeiten beinhaltet. Sie schlagen zudem zukünftige Forschungsrichtungen vor, darunter die Verwendung anderer Tensor-Netzwerk-Strukturen (wie PEPS), die Anwendung auf Text- und Videodaten sowie die Evaluierung der mathematisch fundierten, projektionsbasierten lokalen Variante.