⚛️ quantum physics

Anomaly Detection from a Tensor Train Perspective

Questo articolo introduce una serie di algoritmi basati su reti tensoriali per il rilevamento di anomalie che sfruttano la compressione dei dati Tensor Train per preservare le strutture dei dati normali eliminando quelle anomale, dimostrandone l'efficacia su dataset relativi a cifre, volti e cybersecurity.

Autori originali: Alejandro Mata Ali, Aitor Moreno Fdez. de Leceta, Jorge López Rubio

Pubblicato 2026-05-05

📖 5 min di lettura🧠 Approfondimento

CC BY 4.0

Autori originali: Alejandro Mata Ali, Aitor Moreno Fdez. de Leceta, Jorge López Rubio

Articolo originale sotto licenza CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Questa è una spiegazione generata dall'IA dell'articolo qui sotto. Non è stata scritta né approvata dagli autori. Per precisione tecnica, consulta l'articolo originale. Leggi il disclaimer completo

Immagina di avere una gigantesca biblioteca di libri. La maggior parte dei libri sono copie dello stesso romanzo popolare (i dati "normali"), ma alcuni sono strani scarabocchi scritti a mano o generi completamente diversi (le "anomalie"). Il tuo obiettivo è trovare quei libri strani senza leggerne uno per uno.

Questo articolo presenta un nuovo modo per farlo utilizzando uno strumento matematico chiamato Tensor Trains. Immagina questo strumento non come un libro, ma come una macchina di compressione altamente efficiente (come un file Zip super avanzato).

Ecco una semplice spiegazione di come funziona, dei metodi che hanno provato e di ciò che hanno scoperto.

L'idea centrale: il test della "compressione"

L'idea principale degli autori si basa su un principio semplice: le cose normali si adattano insieme; le cose strane no.

La configurazione: Prendono un set di dati (come immagini di cifre o registri di rete informatica) e lo immettono nella loro macchina di compressione.
La compressione: Chiedono alla macchina di "schiacciare" i dati, scartando i dettagli minuscoli e non importanti per risparmiare spazio.
Il risultato:
- Dati normali: Poiché questi elementi condividono pattern comuni (come il fatto che tutte le cifre "1" si assomiglino), la macchina può schiacciarli e poi ri-schiacciarli (decomprimerli) fino a riportarli quasi alla forma originale. Si adattano perfettamente al modello.
- Dati anomali: Poiché questi elementi sono strani o unici, non si adattano al modello. Quando la macchina cerca di schiacciarli, scarta troppo della loro struttura unica. Quando cerca di ri-schiacciarli, appaiono distorti o rotti.

Il test: Confrontano l'elemento originale con la versione "ri-schiacciata". Se appaiono molto simili, è normale. Se appaiono molto diversi, è un'anomalia.

I due metodi principali

L'articolo descrive due modi per eseguire questo test, come due strategie diverse per organizzare quella biblioteca:

1. Il metodo "Globale" (L'abbraccio di gruppo)

Come funziona: Immetti l'intera biblioteca (o un enorme pezzo di essa) nella macchina di compressione tutta insieme. La macchina impara la "forma media" dell'intero gruppo.
L'analogia: Immagina di scattare una foto dell'intera biblioteca, comprimere quella foto e poi vedere quanto bene ogni singolo libro si adatta a quella foto compressa.
Pro: È veloce e funziona bene per grandi set di dati.
Contro: Ha bisogno di molti dati per iniziare.

2. Il metodo "Locale" (Uno contro uno)

Come funziona: Scegli solo un esempio perfetto di un libro "normale" (un esempio di addestramento). Costruisci un modello basato su quel singolo libro. Poi, testi ogni altro libro contro quel modello specifico.
L'analogia: Prendi una "1" perfetta dal set di dati delle cifre, memorizzi la sua forma e poi controlli ogni altro numero per vedere se si adatta a quel modello specifico di "1".
Pro: Può essere incredibilmente accurato (a volte perfetto).
Contro: È estremamente lento. L'articolo nota che è circa 50 volte più lento del metodo globale.

Cosa hanno testato

Gli autori hanno testato questi metodi su tre diverse "biblioteche":

Cifre scritte a mano: Cercare di individuare un "7" quando la biblioteca è composta principalmente da "1".
Volti: Cercare di individuare un volto diverso in una stanza piena della stessa persona.
Sicurezza informatica: Cercare di individuare un attacco hacker in un flusso di richieste informatiche normali.

Le scoperte sorprendenti

L'articolo ha rivelato alcuni risultati controintuitivi:

Non comprimere troppo: Potresti pensare che schiacciare i dati il più possibile sarebbe la cosa migliore. Tuttavia, gli autori hanno scoperto che una compressione molto leggera (solo una piccola schiacciata) spesso funzionava meglio. Se schiacci troppo, inizi a distruggere anche i pattern "normali", rendendo difficile distinguere la differenza.
La trappola del "ridimensionamento" (Scaler): Nella scienza dei dati, è comune "ridimensionare" i dati (come ridimensionare tutte le foto alla stessa luminosità o dimensione) prima dell'elaborazione. Gli autori hanno scoperto che per il loro metodo specifico, il ridimensionamento ha effettivamente rovinato i risultati. Era come cercare di inserire un chiodo quadrato in un buco rotondo; il ridimensionamento distruggeva i pattern specifici che la macchina aveva bisogno di vedere.
Velocità vs. Accuratezza: Il metodo "Locale" era il più accurato (ottenendo punteggi perfetti sulle cifre), ma era troppo lento per essere pratico nella maggior parte degli usi reali. Il metodo "Globale" era un ottimo compromesso, offrendo una precisione molto buona (rilevando il 98% degli attacchi informatici) pur essendo abbastanza veloce da essere utilizzato.

La conclusione

Gli autori hanno creato un nuovo modo per trovare dati "strani" osservando quanto bene sopravvivono a un test di compressione. Hanno dimostrato che mantenendo intatta la struttura "normale" e lasciando che la struttura "strana" si disintegri, è possibile individuare le anomalie in modo efficace.

Il punto chiave: A volte, il modo migliore per trovare un ago in un pagliaio non è cercare più intensamente, ma vedere quanto bene il pagliaio tiene insieme quando provi a schiacciarlo. Se il pagliaio si disfa, potresti aver trovato l'ago.

Riepilogo Tecnico: Rilevamento delle Anomalie da una Prospettiva Tensor Train

Enunciato del Problema
Il rilevamento delle anomalie è un compito critico in ambiti quali il monitoraggio industriale, la diagnostica medica, il rilevamento delle frodi e la cybersecurity. L'obiettivo principale è identificare i punti dati che si discostano significativamente dal comportamento normale. Sebbene i metodi statistici tradizionali, l'apprendimento automatico e l'apprendimento profondo abbiano ottenuto risultati di successo, spesso faticano con dati ad alta dimensionalità, richiedendo tipicamente tecniche di riduzione della dimensionalità come l'Analisi delle Componenti Principali (PCA). Gli autori propongono di sfruttare le Reticoli Tensoriali (TN), in particolare i Tensor Train (TT), per gestire in modo efficiente dati ad alta dimensionalità. L'ipotesi di fondo è che i dati normali condividano modelli strutturali comuni, mentre i dati anomali possiedano strutture distinte o infrequenti. Comprimendo i dati in una rappresentazione tensoriale approssimata, il metodo mira a preservare la struttura dei dati normali mentre disturba quella dei dati anomali, permettendo così di distinguerli.

Metodologia
Il documento presenta una serie di otto algoritmi basati su due strategie di compressione concettualmente diverse che utilizzano la rappresentazione Tensor Train (TT). La compressione è controllata da un parametro $\tau$ (che varia da 0 a 1), il quale determina il mantenimento dei valori singolari durante il processo TT-SVD.

Algoritmi di Compressione Globale:
- Concetto: L'intero dataset è trattato come un singolo tensore di ordine elevato. L'algoritmo comprime il dataset globale, preservando le strutture dominanti condivise dalla maggior parte dei punti dati (dati normali). I dati anomali, privi di queste strutture condivise, vengono spostati in misura maggiore durante la compressione.
- Funzioni Decisionali:
  - Auto Comparativo (ACGCTNAD): Calcola un "punteggio di auto-mantenimento" ( $s_{self}$ ) prendendo il prodotto scalare di un punto dati originale con la sua ricostruzione compressa, normalizzato per il quadrato della norma dell'originale. Questo punteggio cattura sia l'allineamento direzionale che il mantenimento della grandezza.
  - Comparativo di Gruppo (GCGCTNAD): Confronta ogni punto dati con le versioni compresse di tutti gli altri punti dati nell'insieme, utilizzando una metrica di similarità coseno per focalizzarsi sull'allineamento geometrico piuttosto che sulla grandezza.
- Modalità di Apprendimento: Questi metodi possono essere applicati in modalità non supervisionata (nessuna conoscenza preliminare), supervisionata (utilizzando dati di addestramento normali etichettati) o semi-supervisionata.
Algoritmi di Compressione Locale:
- Concetto: Invece di comprimere l'intero dataset, questo approccio utilizza un punto dati normale rappresentativo (o un insieme) per definire una struttura TT "normale". I primi $n-1$ nodi della rappresentazione TT per un punto dati di test sono forzati a corrispondere ai nuclei (cores) dei dati di addestramento, lasciando all'ultimo nodo contenere le informazioni uniche del punto di test.
- Allineamento Euristico: Il metodo impiega una fase di allineamento euristico in cui la base troncata dei dati di test viene allineata ai nuclei di addestramento normali.
- Funzioni Decisionali: Similmente ai metodi globali, utilizza punteggi comparativi auto (ACLCTNAD) e comparativi di gruppo (GCLCTNAD).
- Variante Basata su Proiezione: Gli autori propongono una variante locale matematicamente fondata basata sulla proiezione ortogonale (minimizzando l'errore dei minimi quadrati rispetto a un'interfaccia TT appresa), sebbene notino che i risultati sperimentali riportati nel documento corrispondono alla versione euristica originale.

Contributi Chiave

Nuovo Framework: L'introduzione di algoritmi di rilevamento delle anomalie basati sulla preservazione e sul disturbo delle strutture di reti tensoriali durante la compressione.
Suite Algoritmica: Sviluppo di quattro algoritmi principali (ACGCTNAD, GCGCTNAD, ACLCTNAD, GCLCTNAD) che coprono sia strategie di compressione globale che locale, applicabili a scenari non supervisionati, supervisionati e semi-supervisionati.
Efficienza in Alta Dimensionalità: Dimostrazione che le rappresentazioni TT possono gestire efficacemente dati ad alta dimensionalità (ad esempio, immagini, log del traffico di rete) senza le limitazioni della riduzione tradizionale della dimensionalità.
Validazione Empirica: Test su tre dataset distinti:
- Dataset delle Cifre: Distinzione di una classe di cifre dalle altre.
- Dataset dei Volti Olivetti: Distinzione delle identità facciali.
- Dataset di Cybersecurity: Rilevamento di attacchi informatici (forza bruta, scansione, slowloris) rispetto alle richieste di rete normali.

Risultati

Dataset delle Cifre:
- ACGCTNAD (Globale): Ha raggiunto valori massimi di AUROC compresi tra 0,74 e 0,997. Le prestazioni hanno spesso raggiunto il picco a valori di compressione molto bassi ( $\tau$ ), suggerendo che una compressione aggressiva rimuove le strutture anomale mentre mantiene quelle normali.
- ACLCTNAD (Locale): Ha raggiunto un AUROC perfetto (1,0) per tutte le classi di cifre. Tuttavia, è stato notato che il metodo è 50 volte più lento rispetto al metodo globale. Inoltre, ha mostrato un "inversione dell'orientamento del punteggio" a valori di compressione bassi (AUROC che scende a 0), richiedendo l'inversione a posteriori dei punteggi, il che ne limita l'utilità non supervisionata.
Dataset dei Volti Olivetti:
- Il metodo globale (ACGCTNAD) ha mostrato prestazioni variabili a seconda della classe, con valori di AUROC compresi tra 0,69 e 1,0. Gli autori attribuiscono le prestazioni inferiori in alcuni casi alla piccola dimensione del campione (circa 8-9 campioni normali per classe) o alla natura specifica dei dati.
Dataset di Cybersecurity:
- Senza Scaler: Il metodo ACGCTNAD ha raggiunto risultati eccezionali con un AUROC di 0,98 e un'accuratezza del 97,72% a $\tau = 0,01$ .
- Con Standard Scaler: Le prestazioni sono peggiorate significativamente. Gli autori hanno osservato che l'applicazione di uno scaler standard "rovinare i risultati", probabilmente perché altera le norme strutturali sottostanti su cui la rete tensoriale si basa per il rilevamento.
- Modalità Non Supervisionata: Quando testato senza un dataset di addestramento (utilizzando solo dati di test), il metodo ha mantenuto alte prestazioni (97,5% di accuratezza) senza scaler, ma le prestazioni sono scese al 64,7% con uno scaler.

Significato e Affermazioni
Il documento afferma che l'approccio proposto basato su reti tensoriali offre un'alternativa versatile ed efficace per il rilevamento delle anomalie, in particolare in contesti ad alta dimensionalità. Gli autori evidenziano che:

Preservazione della Struttura: Il potere del metodo deriva dalla capacità delle reti tensoriali di catturare e preservare le relazioni strutturali dei dati normali, scartando al contempo le strutture diffuse delle anomalie.
Compressione Contro-Intuitiva: Il rilevamento ottimale si verifica spesso a valori di compressione bassi (basso $\tau$ ), dove la rappresentazione elimina le strutture anomale ma mantiene quelle normali, un fenomeno che può sembrare contro-intuitivo rispetto agli obiettivi standard di compressione.
Sensibilità al Preprocessing: I risultati sottolineano che il preprocessing dei dati, in particolare la scalatura standard, può essere dannoso per questo specifico approccio, poiché può distruggere le caratteristiche strutturali che l'algoritmo è progettato per rilevare.
Compromessi: Sebbene i metodi locali (ACLCTNAD) possano raggiungere una separazione perfetta, sono computazionalmente costosi e si basano su allineamenti euristici. I metodi globali (ACGCTNAD) offrono un miglior equilibrio tra velocità e accuratezza, rendendoli più pratici per molte applicazioni.

Gli autori concludono che, sebbene i loro risultati siano promettenti, è necessaria una valutazione più esaustiva che includa confronti con baseline standard (PCA, Isolation Forest, Autoencoder, ecc.) e una reporting statistico rigoroso (semi casuali, deviazioni standard) per il lavoro futuro. Suggeriscono inoltre direzioni di ricerca future, tra cui l'uso di altre strutture di reti tensoriali (come PEPS), l'applicazione a dati testuali e video, e la valutazione della variante locale basata su proiezione matematicamente fondata.