Anomaly Detection from a Tensor Train Perspective

Auteurs originaux : Alejandro Mata Ali, Aitor Moreno Fdez. de Leceta, Jorge López Rubio

Publié 2026-05-05

📖 5 min de lecture🧠 Analyse approfondie

Auteurs originaux : Alejandro Mata Ali, Aitor Moreno Fdez. de Leceta, Jorge López Rubio

Article original sous licence CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Ceci est une explication générée par l'IA de l'article ci-dessous. Elle n'a pas été rédigée ni approuvée par les auteurs. Pour une précision technique, consultez l'article original. Lire la clause de non-responsabilité complète

Imaginez que vous possédiez une gigantesque bibliothèque de livres. La plupart des livres sont des copies d'un même roman populaire (les données « normales »), mais quelques-uns sont de curieux griffonnages manuscrits ou appartiennent à des genres totalement différents (les « anomalies »). Votre objectif est de repérer ces livres étranges sans en lire un seul.

Cet article présente une nouvelle méthode pour y parvenir en utilisant un outil mathématique appelé Tenseurs en Train (Tensor Trains). Imaginez cet outil non pas comme un livre, mais comme une machine de compression hautement efficace (comme un fichier Zip ultra-avancé).

Voici une explication simple du fonctionnement, des méthodes essayées et des résultats obtenus.

L'Idée Centrale : Le Test de « Compression »

L'idée principale des auteurs repose sur un principe simple : Les choses normales s'assemblent bien ; les choses étranges ne le font pas.

La Configuration : Ils prennent un ensemble de données (comme des images de chiffres ou des journaux de réseau informatique) et les alimentent dans leur machine de compression.
La Compression : Ils demandent à la machine de « comprimer » les données, en jetant les détails minuscules et peu importants pour gagner de l'espace.
Le Résultat :
- Données Normales : Comme ces éléments partagent des motifs communs (par exemple, tous les chiffres « 1 » se ressemblent), la machine peut les comprimer puis les décompresser pour retrouver presque leur forme originale. Ils s'adaptent parfaitement au moule.
- Données Anormales : Comme ces éléments sont étranges ou uniques, ils ne s'adaptent pas au moule. Lorsque la machine tente de les comprimer, elle élimine trop de leur structure unique. Lorsqu'elle tente de les décompresser, ils apparaissent déformés ou brisés.

Le Test : Ils comparent l'élément original avec la version « décompressée ». Si elles se ressemblent beaucoup, c'est normal. Si elles sont très différentes, c'est une anomalie.

Les Deux Méthodes Principales

L'article décrit deux façons d'effectuer ce test, comme deux stratégies différentes pour organiser cette bibliothèque :

1. La Méthode « Globale » (L'Étreinte de Groupe)

Fonctionnement : Vous alimentez la machine de compression avec la bibliothèque entière (ou un énorme morceau de celle-ci) d'un seul coup. La machine apprend la « forme moyenne » de l'ensemble du groupe.
L'Analogie : Imaginez prendre une photo de toute la bibliothèque, compresser cette photo, puis voir à quel point chaque livre individuel s'adapte à cette photo compressée.
Avantages : C'est rapide et cela fonctionne bien pour les grands ensembles de données.
Inconvénients : Cela nécessite beaucoup de données pour démarrer.

2. La Méthode « Locale » (Le Face-à-Face)

Fonctionnement : Vous choisissez un seul exemple parfait d'un livre « normal » (un exemple d'entraînement). Vous construisez un moule basé sur ce seul livre. Ensuite, vous testez tous les autres livres contre ce moule spécifique.
L'Analogie : Vous prenez un « 1 » parfait dans l'ensemble de données de chiffres, vous mémorisez sa forme, puis vous vérifiez tous les autres nombres pour voir s'ils s'adaptent à ce moule de « 1 » spécifique.
Avantages : Cela peut être incroyablement précis (parfois parfait).
Inconvénients : C'est extrêmement lent. L'article note qu'il est environ 50 fois plus lent que la méthode globale.

Ce Qu'ils Ont Testé

Les auteurs ont testé ces méthodes sur trois « bibliothèques » différentes :

Chiffres Manuscrits : Tenter de repérer un « 7 » lorsque la bibliothèque est principalement composée de « 1 ».
Visages : Tenter de repérer un visage différent dans une pièce remplie de la même personne.
Cybersécurité : Tenter de repérer une attaque de pirate dans un flux de requêtes informatiques normales.

Les Découvertes Surprenantes

L'article a révélé quelques résultats contre-intuitifs :

Ne Pas Trop Comprimer : Vous pourriez penser que comprimer les données autant que possible serait idéal. Cependant, les auteurs ont constaté qu'une compression très légère (juste une petite compression) fonctionnait souvent le mieux. Si vous compressez trop fort, vous commencez à détruire les motifs « normaux » également, rendant la distinction difficile.
Le Piège du « Redimensionnement » : En science des données, il est courant de « redimensionner » les données (comme ajuster la luminosité ou la taille de toutes les photos) avant le traitement. Les auteurs ont constaté que pour leur méthode spécifique, le redimensionnement gâchait en réalité les résultats. C'était comme essayer d'enfoncer un clou carré dans un trou rond ; le redimensionnement détruisait les motifs spécifiques que la machine devait voir.
Vitesse vs Précision : La méthode « Locale » était la plus précise (obtenant des scores parfaits sur les chiffres), mais elle était trop lente pour être pratique dans la plupart des utilisations réelles. La méthode « Globale » offrait un excellent équilibre, fournissant une très bonne précision (détection de 98 % des cyberattaques) tout en étant assez rapide pour être utilisée.

La Conclusion

Les auteurs ont créé une nouvelle façon de repérer les données « étranges » en observant comment elles survivent à un test de compression. Ils ont démontré qu'en maintenant la structure « normale » intacte et en laissant la structure « étrange » se désagréger, on peut repérer les anomalies efficacement.

À retenir : Parfois, la meilleure façon de trouver une aiguille dans une botte de foin n'est pas de chercher plus fort, mais de voir à quel point le foin tient ensemble lorsque vous essayez de le comprimer. Si le foin se désagrège, vous avez peut-être trouvé l'aiguille.

Résumé Technique : Détection d'Anomalies sous l'Angle des Trains de Tenseurs

Énoncé du Problème
La détection d'anomalies est une tâche critique dans des domaines tels que la surveillance industrielle, le diagnostic médical, la détection de fraude et la cybersécurité. L'objectif principal est d'identifier les points de données qui s'écartent significativement du comportement normal. Bien que les méthodes statistiques traditionnelles, l'apprentissage automatique et l'apprentissage profond aient connu du succès, ils éprouvent souvent des difficultés avec les données de haute dimension, nécessitant généralement des techniques de réduction de dimensionnalité comme l'Analyse en Composantes Principales (ACP). Les auteurs proposent de tirer parti des Réseaux de Tenseurs (TN), et plus spécifiquement des Trains de Tenseurs (TT), pour traiter efficacement les données de haute dimension. L'hypothèse centrale est que les données normales partagent des motifs structurels communs, tandis que les données anormales possèdent des structures distinctes ou rares. En compressant les données vers une représentation tensorielle approximative, la méthode vise à préserver la structure des données normales tout en perturbant celle des données anormales, permettant ainsi de les distinguer.

Méthodologie
L'article présente une suite de huit algorithmes basés sur deux stratégies de compression conceptuellement différentes utilisant la représentation Train de Tenseurs (TT). La compression est contrôlée par un paramètre $\tau$ (variant de 0 à 1), qui dicte la rétention des valeurs singulières lors du processus TT-SVD.

Algorithmes de Compression Globale :
- Concept : L'ensemble des données est traité comme un unique tenseur d'ordre élevé. L'algorithme comprime l'ensemble global des données, préservant les structures dominantes partagées par la majorité des points de données (données normales). Les données anormales, dépourvues de ces structures partagées, sont déplacées de manière plus significative lors de la compression.
- Fonctions de Décision :
  - Comparatif Auto (ACGCTNAD) : Calcule un « score d'autorétention » ( $s_{self}$ ) en prenant le produit scalaire d'un point de données original avec sa reconstruction compressée, normalisé par le carré de la norme de l'original. Ce score capture à la fois l'alignement directionnel et la rétention de la magnitude.
  - Comparatif de Groupe (GCGCTNAD) : Compare chaque point de données aux versions compressées de tous les autres points de données de l'ensemble, en utilisant une métrique de similarité cosinus pour se concentrer sur l'alignement géométrique plutôt que sur la magnitude.
- Modes d'Apprentissage : Ces méthodes peuvent être appliquées en mode non supervisé (sans connaissance préalable), supervisé (utilisant des données d'entraînement normales étiquetées) ou semi-supervisé.
Algorithmes de Compression Locale :
- Concept : Au lieu de compresser l'ensemble des données, cette approche utilise un point de données normal représentatif (ou un ensemble) pour définir une structure TT « normale ». Les $n-1$ premiers nœuds de la représentation TT pour un point de données de test sont forcés de correspondre aux cœurs des données d'entraînement, laissant le dernier nœud contenir l'information unique du point de test.
- Alignement Heuristique : La méthode emploie une étape d'alignement heuristique où la base tronquée des données de test est alignée avec les cœurs d'entraînement normaux.
- Fonctions de Décision : Similaire aux méthodes globales, elle utilise un score comparatif auto (ACLCTNAD) et un score comparatif de groupe (GCLCTNAD).
- Variante Basée sur la Projection : Les auteurs proposent une variante locale mathématiquement fondée basée sur la projection orthogonale (minimisant l'erreur des moindres carrés par rapport à une interface TT apprise), bien qu'ils notent que les résultats expérimentaux rapportés dans l'article correspondent à la version heuristique originale.

Contributions Clés

Nouveau Cadre : L'introduction d'algorithmes de détection d'anomalies basés sur la préservation et la perturbation des structures de réseaux de tenseurs lors de la compression.
Suite Algorithmique : Développement de quatre algorithmes principaux (ACGCTNAD, GCGCTNAD, ACLCTNAD, GCLCTNAD) couvrant à la fois les stratégies de compression globale et locale, applicables aux scénarios non supervisés, supervisés et semi-supervisés.
Efficacité en Haute Dimension : Démonstration que les représentations TT peuvent gérer efficacement les données de haute dimension (par exemple, images, journaux de trafic réseau) sans les limitations de la réduction de dimensionnalité traditionnelle.
Validation Empirique : Tests sur trois ensembles de données distincts :
- Ensemble de Données de Chiffres : Distinction d'une classe de chiffres des autres.
- Ensemble de Données de Visages Olivetti : Distinction des identités faciales.
- Ensemble de Données de Cybersécurité : Détection d'attaques cybernétiques (force brute, balayage, slowloris) contre des requêtes réseau normales.

Résultats

Ensemble de Données de Chiffres :
- ACGCTNAD (Global) : A atteint des valeurs maximales d'AUROC allant de 0,74 à 0,997. Les performances ont souvent culminé à des valeurs de compression très faibles ( $\tau$ ), suggérant qu'une compression agressive élimine les structures anormales tout en conservant les structures normales.
- ACLCTNAD (Local) : A atteint une AUROC parfaite (1,0) pour toutes les classes de chiffres. Cependant, la méthode a été notée comme étant 50 fois plus lente que la méthode globale. De plus, elle a présenté un « renversement d'orientation du score » à de faibles valeurs de compression (AUROC chutant à 0), nécessitant une inversion post-hoc des scores, ce qui limite son utilité en mode non supervisé.
Ensemble de Données de Visages Olivetti :
- La méthode globale (ACGCTNAD) a montré des performances variables selon la classe, avec des valeurs d'AUROC allant de 0,69 à 1,0. Les auteurs attribuent les performances inférieures dans certains cas à la petite taille de l'échantillon (environ 8-9 échantillons normaux par classe) ou à la nature spécifique des données.
Ensemble de Données de Cybersécurité :
- Sans Normalisateur : La méthode ACGCTNAD a obtenu des résultats exceptionnels avec une AUROC de 0,98 et une précision de 97,72 % à $\tau = 0,01$ .
- Avec Normalisateur Standard : Les performances se sont dégradées de manière significative. Les auteurs ont observé que l'application d'un normalisateur standard « gâche les résultats », probablement parce qu'il altère les normes structurelles sous-jacentes sur lesquelles le réseau de tenseurs s'appuie pour la détection.
- Mode Non Supervisé : Lorsqu'testé sans ensemble de données d'entraînement (en utilisant uniquement les données de test), la méthode a maintenu des performances élevées (97,5 % de précision) sans normalisateur, mais les performances sont tombées à 64,7 % avec un normalisateur.

Signification et Revendications
L'article affirme que l'approche proposée par réseaux de tenseurs offre une alternative versatile et efficace pour la détection d'anomalies, en particulier dans des contextes de haute dimension. Les auteurs soulignent que :

Préservation de la Structure : La puissance de la méthode découle de la capacité des réseaux de tenseurs à capturer et préserver les relations structurelles des données normales tout en écartant les structures diffuses des anomalies.
Compression Contre-Intuitive : La détection optimale se produit souvent à de faibles valeurs de compression (faible $\tau$ ), où la représentation supprime les structures anormales tout en conservant les structures normales, un phénomène qui peut sembler contre-intuitif par rapport aux objectifs de compression standards.
Sensibilité au Prétraitement : Les résultats soulignent que le prétraitement des données, spécifiquement la mise à l'échelle standard, peut être préjudiciable à cette approche spécifique, car il peut détruire les caractéristiques structurelles que l'algorithme est conçu pour détecter.
Compromis : Bien que les méthodes locales (ACLCTNAD) puissent atteindre une séparation parfaite, elles sont coûteuses en calcul et reposent sur un alignement heuristique. Les méthodes globales (ACGCTNAD) offrent un meilleur équilibre entre vitesse et précision, les rendant plus pratiques pour de nombreuses applications.

Les auteurs concluent que, bien que leurs résultats soient prometteurs, une évaluation plus exhaustive impliquant des comparaisons avec des références standards (ACP, Forêt d'Isolation, Autoencodeurs, etc.) et un rapport statistique rigoureux (graines aléatoires, écarts-types) est nécessaire pour les travaux futurs. Ils suggèrent également des orientations de recherche futures incluant l'utilisation d'autres structures de réseaux de tenseurs (comme PEPS), l'application aux données textuelles et vidéo, et l'évaluation de la variante locale basée sur la projection mathématiquement fondée.