Anomaly Detection from a Tensor Train Perspective

Oorspronkelijke auteurs: Alejandro Mata Ali, Aitor Moreno Fdez. de Leceta, Jorge López Rubio

Gepubliceerd 2026-05-05

📖 5 min leestijd🧠 Diepgaand

Oorspronkelijke auteurs: Alejandro Mata Ali, Aitor Moreno Fdez. de Leceta, Jorge López Rubio

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Stel je een gigantische bibliotheek met boeken voor. De meeste boeken zijn kopieën van dezelfde populaire roman (de "normale" data), maar een paar zijn vreemde, handgeschreven krabbels of volledig andere genres (de "anomalieën"). Je doel is die vreemde boeken te vinden zonder elk exemplaar te lezen.

Dit artikel presenteert een nieuwe manier om dat te doen met een wiskundig hulpmiddel genaamd Tensor Trains. Denk aan dit hulpmiddel niet als een boek, maar als een zeer efficiënte compressiemachine (zoals een supergeavanceerd Zip-bestand).

Hier is de eenvoudige uitleg van hoe het werkt, de methoden die ze probeerden en wat ze vonden.

Het Kernidee: De "Squeeze"-test

Het hoofdbestand van de auteurs is gebaseerd op een simpel principe: Normale dingen passen bij elkaar; rare dingen niet.

De Opzet: Ze nemen een dataset (zoals afbeeldingen van cijfers of computernetwerklogs) en voeren deze in hun compressiemachine in.
De Squeeze: Ze vertellen de machine om de data "in te knijpen", waarbij ze de kleine, onbelangrijke details weggooien om ruimte te besparen.
Het Resultaat:
- Normale Data: Omdat deze items gemeenschappelijke patronen delen (zoals hoe alle cijfers "1" erop lijken), kan de machine ze inknijpen en ze daarna terugontknijpen tot bijna hun oorspronkelijke vorm. Ze passen perfect in het mal.
- Anomale Data: Omdat deze items vreemd of uniek zijn, passen ze niet in het mal. Wanneer de machine probeert ze in te knijpen, gooit het te veel van hun unieke structuur weg. Wanneer het ze probeert terug te ontknijpen, zien ze er vervormd of kapot uit.

De Test: Ze vergelijken het oorspronkelijke item met de "terugontknijpte" versie. Als ze er heel erg op lijken, is het normaal. Als ze er heel anders uitzien, is het een anomalie.

De Twee Hoofdmethoden

Het artikel beschrijft twee manieren om deze test uit te voeren, zoals twee verschillende strategieën voor het organiseren van die bibliotheek:

1. De "Globale" Methode (De Groepsomhelzing)

Hoe het werkt: Je voert de hele bibliotheek (of een enorm groot stuk ervan) in één keer in de compressiemachine in. De machine leert de "gemiddelde" vorm van de hele groep.
De Analogie: Stel je voor dat je een foto van de hele bibliotheek maakt, die foto comprimeert en vervolgens bekijkt hoe goed elk individuele boek in die gecomprimeerde foto past.
Voordelen: Het is snel en werkt goed voor grote datasets.
Nadelen: Het heeft veel data nodig om te beginnen.

2. De "Lokale" Methode (Het Eén-op-Eén)

Hoe het werkt: Je kiest slechts één perfect voorbeeld van een "normaal" boek (een trainingsvoorbeeld). Je bouwt een mal op basis van dat ene boek. Vervolgens test je elk ander boek tegen die specifieke mal.
De Analogie: Je neemt een perfect "1" uit de cijferdataset, onthoudt de vorm en controleert vervolgens elk ander getal om te zien of het in die specifieke "1"-mal past.
Voordelen: Het kan ontzettend nauwkeurig zijn (soms perfect).
Nadelen: Het is extreem traag. Het artikel merkt op dat het ongeveer 50 keer trager is dan de globale methode.

Wat Ze Testten

De auteurs testten deze methoden op drie verschillende "bibliotheken":

Handgeschreven Cijfers: Proberen een "7" te spotten terwijl de bibliotheek voornamelijk uit "1"s bestaat.
Gezichten: Proberen een ander gezicht te spotten in een kamer vol met dezelfde persoon.
Cyberbeveiliging: Proberen een hacker-aanval te spotten in een stroom van normale computerverzoeken.

De Verrassende Bevindingen

Het artikel onthulde een paar tegen-intuïtieve resultaten:

Niet Te Hard Comprimeren: Je zou denken dat het zo veel mogelijk inknijpen van de data het beste zou zijn. De auteurs vonden echter dat zeer lichte compressie (gewoon een kleine knijp) vaak het beste werkte. Als je te hard knijpt, begin je ook de "normale" patronen te vernietigen, waardoor het moeilijk wordt om het verschil te zien.
De "Scaler"-Valstrik: In datawetenschap is het gebruikelijk om data te "schalen" (zoals het aanpassen van alle foto's naar dezelfde helderheid of grootte) voordat je ze verwerkt. De auteurs vonden dat voor hun specifieke methode schalen de resultaten juist verpestte. Het was alsof je probeerde een vierkante pen in een rond gat te steken; de schaling vernietigde de specifieke patronen die de machine nodig had om te zien.
Snelheid versus Nauwkeurigheid: De "Lokale" methode was het nauwkeurigst (met perfecte scores voor cijfers), maar was te traag om praktisch te zijn voor de meeste real-world toepassingen. De "Globale" methode was een uitstekende balans, met zeer goede nauwkeurigheid (het detecteren van 98% van de cyberaanvallen) terwijl het snel genoeg was om te gebruiken.

De Conclusie

De auteurs creëerden een nieuwe manier om "vreemde" data te vinden door te kijken hoe goed het een compressietest doorstaat. Ze toonden aan dat je door de "normale" structuur intact te houden en de "vreemde" structuur te laten uit elkaar vallen, anomalieën effectief kunt opsporen.

Belangrijkste Les: Soms is de beste manier om een naald in een hooiberg te vinden niet om harder te zoeken, maar om te zien hoe goed het hooi bij elkaar blijft wanneer je het probeert in te knijpen. Als het hooi uit elkaar valt, heb je misschien de naald gevonden.

Technische Samenvatting: Anomaliedetectie vanuit het perspectief van Tensor Trains

Probleemstelling
Anomaliedetectie is een kritieke taak in domeinen zoals industriële monitoring, medische diagnostiek, fraudeopsporing en cybersecurity. Het primaire doel is het identificeren van datapunten die significant afwijken van normaal gedrag. Hoewel traditionele statistische methoden, machine learning en deep learning succes hebben geboekt, kampen ze vaak met problemen bij hoogdimensionale data, waarbij doorgaans technieken voor dimensiereductie zoals Principal Component Analysis (PCA) nodig zijn. De auteurs stellen voor om Tensor Networks (TN), en specifiek Tensor Trains (TT), in te zetten om hoogdimensionale data efficiënt te verwerken. De kernhypothese is dat normale data gemeenschappelijke structurele patronen deelt, terwijl anormale data beschikt over onderscheidende of zeldzame structuren. Door data te comprimeren tot een benaderende tensorrepresentatie, beoogt de methode de structuur van normale data te behouden terwijl de structuur van anormale data wordt verstoord, waardoor onderscheid mogelijk wordt.

Methodologie
Het artikel presenteert een reeks van acht algoritmen gebaseerd op twee conceptueel verschillende compressiestrategieën met gebruik van de Tensor Train (TT)-representatie. De compressie wordt gestuurd door een parameter $\tau$ (variërend van 0 tot 1), die bepaalt hoeveel singuliere waarden tijdens het TT-SVD-proces behouden blijven.

Globale Compressie-algoritmen:
- Concept: Het volledige dataset wordt behandeld als één enkele tensor van hoge orde. Het algoritme comprimeert het globale dataset, waarbij de dominante structuren die door het merendeel van de datapunten (normale data) worden gedeeld, behouden blijven. Anormale data, die deze gedeelde structuren mist, wordt tijdens de compressie aanzienlijk meer verplaatst.
- Beslissingsfuncties:
  - Auto Comparative (ACGCTNAD): Berekent een "zelfbehoudsscore" ( $s_{self}$ ) door het scalair product te nemen van een origineel datapunt met zijn gereconstrueerde compressie, genormaliseerd door het kwadraat van de norm van het origineel. Deze score vangt zowel directionele uitlijning als behoud van grootte.
  - Group Comparative (GCGCTNAD): Vergelijkt elk datapunt met de gecomprimeerde versies van alle andere datapunten in de set, gebruikmakend van een cosine-相似heidsmetriek om te focussen op geometrische uitlijning in plaats van grootte.
- Leermodes: Deze methoden kunnen worden toegepast in onbewaakte (geen voorkennis), bewaakte (met gelabelde normale trainingsdata) of semi-bewaakte modi.
Lokale Compressie-algoritmen:
- Concept: In plaats van het hele dataset te comprimeren, gebruikt deze aanpak een representatief normaal datapunt (of set) om een "normale" TT-structuur te definiëren. De eerste $n-1$ knopen van de TT-representatie voor een testdatapunt worden geforceerd om overeen te komen met de cores van de trainingsdata, waarbij de laatste knoop de unieke informatie van het testpunt bevat.
- Heuristische Uitlijning: De methode maakt gebruik van een heuristische uitlijningstap waarbij de getrimde basis van de testdata wordt uitgelijnd met de normale trainingscores.
- Beslissingsfuncties: Net als bij de globale methoden worden zelf-comparatieve (ACLCTNAD) en groeps-comparatieve (GCLCTNAD) scores gebruikt.
- Variant op basis van Projectie: De auteurs stellen een wiskundig onderbouwde lokale variant voor op basis van orthogonale projectie (minimaliseren van de fout in de kleinste kwadraten tegen een geleerde TT-interface), hoewel zij opmerken dat de in het artikel gerapporteerde experimentele resultaten overeenkomen met de originele heuristische versie.

Belangrijkste Bijdragen

Nieuw Kader: De introductie van anomaliedetectie-algoritmen gebaseerd op het behoud en de verstoring van tensornetwerkstructuren tijdens compressie.
Algoritmesuite: Ontwikkeling van vier primaire algoritmen (ACGCTNAD, GCGCTNAD, ACLCTNAD, GCLCTNAD) die zowel globale als lokale compressiestrategieën bestrijken, toepasbaar in onbewaakte, bewaakte en semi-bewaakte scenario's.
Efficiëntie bij Hoge Dimensies: Aantonen dat TT-representaties hoogdimensionale data (bijv. afbeeldingen, netwerkverkeerslogs) effectief kunnen verwerken zonder de beperkingen van traditionele dimensiereductie.
Empirische Validatie: Testen op drie verschillende datasets:
- Digits Dataset: Onderscheid tussen één cijferklasse en de anderen.
- Olivetti Faces Dataset: Onderscheid tussen gezichtsideentiteiten.
- Cybersecurity Dataset: Detectie van cyberaanvallen (brute force, scanning, slowloris) tegen normale netwerkverzoeken.

Resultaten

Digits Dataset:
- ACGCTNAD (Globaal): Bereikte maximale AUROC-waarden variërend van 0,74 tot 0,997. De prestaties piekten vaak bij zeer lage compressiewaarden ( $\tau$ ), wat suggereert dat agressieve compressie anormale structuren verwijdert terwijl normale structuren behouden blijven.
- ACLCTNAD (Lokaal): Bereikte een perfecte AUROC (1,0) voor alle cijferklassen. De methode bleek echter 50 keer trager dan de globale methode. Bovendien vertoonde het een "score-oriëntatieomkering" bij lage compressiewaarden (AUROC daalt naar 0), wat een achteraf omkering van scores vereist, wat de onbewaakte bruikbaarheid beperkt.
Olivetti Faces Dataset:
- De globale methode (ACGCTNAD) vertoonde variabele prestaties afhankelijk van de klasse, met AUROC-waarden variërend van 0,69 tot 1,0. De auteurs schrijven lagere prestaties in sommige gevallen toe aan de kleine steekproefgrootte (ongeveer 8-9 normale samples per klasse) of de specifieke aard van de data.
Cybersecurity Dataset:
- Zonder Scaler: De ACGCTNAD-methode bereikte uitzonderlijke resultaten met een AUROC van 0,98 en 97,72% nauwkeurigheid bij $\tau = 0,01$ .
- Met Standaard Scaler: De prestaties verslechterden aanzienlijk. De auteurs observeerden dat het toepassen van een standaard scaler "de resultaten verpest", waarschijnlijk omdat het de onderliggende structurele normen verandert waarop het tensornetwerk zich voor detectie baseert.
- Onbewaakte Modus: Bij testen zonder trainingsdataset (alleen met testdata) behield de methode hoge prestaties (97,5% nauwkeurigheid) zonder scaler, maar daalde de prestatie naar 64,7% met een scaler.

Betekenis en Claims
Het artikel claimt dat de voorgestelde tensornetwerkaanpak een veelzijdig en effectief alternatief biedt voor anomaliedetectie, met name in hoogdimensionale settings. De auteurs benadrukken dat:

Structuurbehoud: De kracht van de methode voortkomt uit het vermogen van tensornetwerken om de structurele relaties van normale data vast te leggen en te behouden, terwijl de diffuse structuren van anomalieën worden verworpen.
Contraintuïtieve Compressie: Optimale detectie treedt vaak op bij lage compressiewaarden (lage $\tau$ ), waarbij de representatie anormale structuren verwijdert maar normale structuren behoudt, een fenomeen dat intuïtief gezien tegenstrijdig kan lijken met standaard compressiedoelen.
Gevoeligheid voor Preprocessing: De resultaten benadrukken dat datapreprocessing, met name standaard schaling, schadelijk kan zijn voor deze specifieke aanpak, omdat het de structurele kenmerken kan vernietigen die het algoritme is ontworpen om te detecteren.
Afwegingen: Hoewel lokale methoden (ACLCTNAD) perfecte scheiding kunnen bereiken, zijn ze computergewijs duur en afhankelijk van heuristische uitlijning. Globale methoden (ACGCTNAD) bieden een betere balans tussen snelheid en nauwkeurigheid, waardoor ze praktischer zijn voor veel toepassingen.

De auteurs concluderen dat, hoewel hun resultaten veelbelovend zijn, een meer exhaustieve evaluatie met vergelijkingen met standaard baselines (PCA, Isolation Forest, Autoencoders, enz.) en rigoureuze statistische rapportage (random seeds, standaardafwijkingen) noodzakelijk is voor toekomstig werk. Zij suggereren ook toekomstige onderzoeksrichtingen, waaronder het gebruik van andere tensornetwerkstructuren (zoals PEPS), toepassing op tekst- en videodata, en de evaluatie van de wiskundig onderbouwde projectiegebaseerde lokale variant.