⚛️ quantum physics

Anomaly Detection from a Tensor Train Perspective

Este artículo introduce una serie de algoritmos basados en redes tensoriales para la detección de anomalías que aprovechan la compresión de datos Tensor Train para preservar las estructuras de datos normales mientras eliminan las anómalas, demostrando su eficacia en conjuntos de datos de dígitos, rostros y ciberseguridad.

Autores originales: Alejandro Mata Ali, Aitor Moreno Fdez. de Leceta, Jorge López Rubio

Publicado 2026-05-05

📖 5 min de lectura🧠 Análisis profundo

CC BY 4.0

Autores originales: Alejandro Mata Ali, Aitor Moreno Fdez. de Leceta, Jorge López Rubio

Artículo original bajo licencia CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Esta es una explicación generada por IA del artículo a continuación. No ha sido escrita ni avalada por los autores. Para mayor precisión técnica, consulte el artículo original. Leer descargo de responsabilidad completo

Imagina que tienes una biblioteca gigante de libros. La mayoría de los libros son copias de la misma novela popular (los datos "normales"), pero unos pocos son garabatos extraños escritos a mano o géneros completamente diferentes (las "anomalías"). Tu objetivo es encontrar esos libros extraños sin leer cada uno de ellos.

Este artículo presenta una nueva forma de hacerlo utilizando una herramienta matemática llamada Cadenas de Tensores. Imagina esta herramienta no como un libro, sino como una máquina de compresión altamente eficiente (como un archivo Zip súper avanzado).

Aquí tienes el desglose simple de cómo funciona, los métodos que probaron y lo que descubrieron.

La Idea Central: La Prueba de "Apretón"

La idea principal de los autores se basa en un principio simple: Las cosas normales encajan entre sí; las cosas raras no.

La Configuración: Toman un conjunto de datos (como imágenes de dígitos o registros de redes informáticas) y lo introducen en su máquina de compresión.
El Apretón: Le dicen a la máquina que "apriete" los datos, descartando los detalles pequeños e importantes para ahorrar espacio.
El Resultado:
- Datos Normales: Como estos elementos comparten patrones comunes (como la forma en que todos los dígitos "1" se ven similares), la máquina puede apretarlos y luego desapretarlos de nuevo hasta casi su forma original. Encajan perfectamente en el molde.
- Datos Anómalos: Como estos elementos son extraños o únicos, no encajan en el molde. Cuando la máquina intenta apretarlos, descarta demasiada de su estructura única. Cuando intenta desapretarlos, se ven distorsionados o rotos.

La Prueba: Comparan el elemento original con la versión "desapretada". Si se ven muy similares, es normal. Si se ven muy diferentes, es una anomalía.

Los Dos Métodos Principales

El artículo describe dos formas de ejecutar esta prueba, como dos estrategias diferentes para organizar esa biblioteca:

1. El Método "Global" (El Abrazo de Grupo)

Cómo funciona: Introduce toda la biblioteca (o un trozo enorme de ella) en la máquina de compresión de una sola vez. La máquina aprende la "forma promedio" de todo el grupo.
La Analogía: Imagina tomar una foto de toda la biblioteca, comprimir esa foto y luego ver qué tan bien encaja cada libro individual en esa foto comprimida.
Ventajas: Es rápido y funciona bien para conjuntos de datos grandes.
Desventajas: Necesita muchos datos para comenzar.

2. El Método "Local" (Uno a Uno)

Cómo funciona: Seleccionas solo un ejemplo perfecto de un libro "normal" (un ejemplo de entrenamiento). Construyes un molde basado en ese único libro. Luego, pruebas cada libro contra ese molde específico.
La Analogía: Tomas un "1" perfecto del conjunto de datos de dígitos, memorizas su forma y luego verificas cada otro número para ver si encaja en ese molde específico de "1".
Ventajas: Puede ser increíblemente preciso (a veces perfecto).
Desventajas: Es extremadamente lento. El artículo señala que es aproximadamente 50 veces más lento que el método global.

Lo Que Probaron

Los autores probaron estos métodos en tres "bibliotecas" diferentes:

Dígitos Escritos a Mano: Intentando detectar un "7" cuando la biblioteca está llena principalmente de "1"s.
Rostros: Intentando detectar un rostro diferente en una habitación llena de la misma persona.
Ciberseguridad: Intentando detectar un ataque de hacker en un flujo de solicitudes informáticas normales.

Los Descubrimientos Sorprendentes

El artículo reveló algunos resultados contra intuitivos:

No Comprimir en Exceso: Podrías pensar que comprimir los datos tanto como sea posible sería lo mejor. Sin embargo, los autores descubrieron que una compresión muy ligera (solo un apretón pequeño) a menudo funcionaba mejor. Si aprietas demasiado, empiezas a destruir los patrones "normales" también, lo que dificulta distinguir la diferencia.
La Trampa del "Escalador": En la ciencia de datos, es común "escalar" los datos (como cambiar el tamaño de todas las fotos al mismo brillo o tamaño) antes de procesarlos. Los autores descubrieron que, para su método específico, escalar arruinó los resultados. Fue como intentar meter un clavo cuadrado en un agujero redondo; la escalado destruyó los patrones específicos que la máquina necesitaba ver.
Velocidad vs. Precisión: El método "Local" fue el más preciso (obteniendo puntuaciones perfectas en dígitos), pero fue demasiado lento para ser práctico en la mayoría de los usos del mundo real. El método "Global" fue un gran equilibrio, ofreciendo una precisión muy buena (detectando el 98% de los ciberataques) mientras era lo suficientemente rápido para usar.

La Conclusión

Los autores crearon una nueva forma de encontrar datos "raros" viendo qué tan bien sobreviven a una prueba de compresión. Demostraron que, al mantener la estructura "normal" intacta y dejar que la estructura "extraña" se desmorone, puedes detectar anomalías de manera efectiva.

Punto Clave: A veces, la mejor manera de encontrar una aguja en un pajar no es mirar más duro, sino ver qué tan bien se mantiene unido el paja cuando intentas apretarlo. Si el paja se desmorona, podrías haber encontrado la aguja.

Resumen Técnico: Detección de Anomalías desde una Perspectiva de Tren de Tensores

Enunciado del Problema
La detección de anomalías es una tarea crítica en dominios como el monitoreo industrial, el diagnóstico médico, la detección de fraudes y la ciberseguridad. El objetivo principal es identificar puntos de datos que se desvían significativamente del comportamiento normal. Si bien los métodos estadísticos tradicionales, el aprendizaje automático y el aprendizaje profundo han logrado éxitos, a menudo luchan con datos de alta dimensionalidad, requiriendo típicamente técnicas de reducción de dimensionalidad como el Análisis de Componentes Principales (PCA). Los autores proponen aprovechar las Redes de Tensores (TN), específicamente los Trenes de Tensores (TT), para abordar datos de alta dimensionalidad de manera eficiente. La hipótesis central es que los datos normales comparten patrones estructurales comunes, mientras que los datos anómalos poseen estructuras distintas o infrecuentes. Al comprimir los datos en una representación tensorial aproximada, el método busca preservar la estructura de los datos normales mientras desestabiliza la estructura de los datos anómalos, permitiendo así su distinción.

Metodología
El artículo presenta un conjunto de ocho algoritmos basados en dos estrategias de compresión conceptualmente diferentes utilizando la representación de Tren de Tensores (TT). La compresión se controla mediante un parámetro $\tau$ (que varía de 0 a 1), el cual dicta la retención de valores singulares durante el proceso TT-SVD.

Algoritmos de Compresión Global:
- Concepto: Todo el conjunto de datos se trata como un único tensor de alto orden. El algoritmo comprime el conjunto de datos global, preservando las estructuras dominantes compartidas por la mayoría de los puntos de datos (datos normales). Los datos anómalos, al carecer de estas estructuras compartidas, se desplazan más significativamente durante la compresión.
- Funciones de Decisión:
  - Comparativo Automático (ACGCTNAD): Calcula una "puntuación de auto-retención" ( $s_{self}$ ) tomando el producto escalar de un punto de datos original con su reconstrucción comprimida, normalizado por la norma al cuadrado del original. Esta puntuación captura tanto la alineación direccional como la retención de magnitud.
  - Comparativo de Grupo (GCGCTNAD): Compara cada punto de datos contra las versiones comprimidas de todos los demás puntos de datos en el conjunto, utilizando una métrica de similitud del coseno para centrarse en la alineación geométrica en lugar de la magnitud.
- Modos de Aprendizaje: Estos métodos pueden aplicarse en modos no supervisados (sin conocimiento previo), supervisados (usando datos de entrenamiento normales etiquetados) o semi-supervisados.
Algoritmos de Compresión Local:
- Concepto: En lugar de comprimir todo el conjunto de datos, este enfoque utiliza un punto de datos normal representativo (o conjunto) para definir una estructura TT "normal". Los primeros $n-1$ nodos de la representación TT para un punto de datos de prueba se fuerzan a coincidir con los núcleos de los datos de entrenamiento, dejando el nodo final para contener la información única del punto de prueba.
- Alineación Heurística: El método emplea un paso de alineación heurística donde la base truncada de los datos de prueba se alinea con los núcleos de entrenamiento normales.
- Funciones de Decisión: Similar a los métodos globales, utiliza puntuaciones comparativas automáticas (ACLCTNAD) y comparativas de grupo (GCLCTNAD).
- Variante Basada en Proyección: Los autores proponen una variante local matemáticamente fundamentada basada en proyección ortogonal (minimizando el error de mínimos cuadrados frente a una interfaz TT aprendida), aunque señalan que los resultados experimentales reportados en el artículo corresponden a la versión heurística original.

Contribuciones Clave

Marco Novel: La introducción de algoritmos de detección de anomalías basados en la preservación y desestabilización de estructuras de redes de tensores durante la compresión.
Suite Algorítmica: Desarrollo de cuatro algoritmos principales (ACGCTNAD, GCGCTNAD, ACLCTNAD, GCLCTNAD) que cubren tanto estrategias de compresión global como local, aplicables a escenarios no supervisados, supervisados y semi-supervisados.
Eficiencia en Alta Dimensión: Demostración de que las representaciones TT pueden manejar eficazmente datos de alta dimensionalidad (por ejemplo, imágenes, registros de tráfico de red) sin las limitaciones de la reducción de dimensionalidad tradicional.
Validación Empírica: Pruebas en tres conjuntos de datos distintos:
- Conjunto de Datos de Dígitos: Distinguir una clase de dígito de las demás.
- Conjunto de Datos de Rostros Olivetti: Distinguir identidades faciales.
- Conjunto de Datos de Ciberseguridad: Detectar ciberataques (fuerza bruta, escaneo, slowloris) frente a solicitudes de red normales.

Resultados

Conjunto de Datos de Dígitos:
- ACGCTNAD (Global): Logró valores máximos de AUROC que oscilaron entre 0.74 y 0.997. El rendimiento a menudo alcanzó su punto máximo en valores de compresión muy bajos ( $\tau$ ), lo que sugiere que la compresión agresiva elimina estructuras anómalas mientras retiene las normales.
- ACLCTNAD (Local): Logró un AUROC perfecto (1.0) para todas las clases de dígitos. Sin embargo, se señaló que el método era 50 veces más lento que el método global. Además, exhibió una "inversión de orientación de puntuación" en valores de compresión bajos (AUROC cayendo a 0), requiriendo la inversión post-hoc de las puntuaciones, lo que limita su utilidad no supervisada.
Conjunto de Datos de Rostros Olivetti:
- El método global (ACGCTNAD) mostró un rendimiento variable dependiendo de la clase, con valores de AUROC que oscilaron entre 0.69 y 1.0. Los autores atribuyen un rendimiento inferior en algunos casos al tamaño pequeño de la muestra (aprox. 8-9 muestras normales por clase) o a la naturaleza específica de los datos.
Conjunto de Datos de Ciberseguridad:
- Sin Escalador: El método ACGCTNAD logró resultados excepcionales con un AUROC de 0.98 y una precisión del 97.72% en $\tau = 0.01$ .
- Con Escalador Estándar: El rendimiento se degradó significativamente. Los autores observaron que aplicar un escalador estándar "arruina los resultados", probablemente porque altera las normas estructurales subyacentes en las que la red de tensores se basa para la detección.
- Modo No Supervisado: Cuando se probó sin un conjunto de datos de entrenamiento (usando solo datos de prueba), el método mantuvo un alto rendimiento (97.5% de precisión) sin escalador, pero el rendimiento cayó al 64.7% con escalador.

Significado y Afirmaciones
El artículo afirma que el enfoque propuesto de redes de tensores ofrece una alternativa versátil y efectiva para la detección de anomalías, particularmente en entornos de alta dimensionalidad. Los autores destacan que:

Preservación de Estructura: El poder del método surge de la capacidad de las redes de tensores para capturar y preservar las relaciones estructurales de los datos normales mientras descartan las estructuras difusas de las anomalías.
Compresión Contra-intuitiva: La detección óptima a menudo ocurre en valores de compresión bajos (bajo $\tau$ ), donde la representación elimina estructuras anómalas pero retiene las normales, un fenómeno que puede parecer contra-intuitivo en comparación con los objetivos de compresión estándar.
Sensibilidad al Preprocesamiento: Los resultados enfatizan que el preprocesamiento de datos, específicamente la escalación estándar, puede ser perjudicial para este enfoque específico, ya que puede destruir las características estructurales que el algoritmo está diseñado para detectar.
Compensaciones: Si bien los métodos locales (ACLCTNAD) pueden lograr una separación perfecta, son computacionalmente costosos y dependen de una alineación heurística. Los métodos globales (ACGCTNAD) ofrecen un mejor equilibrio entre velocidad y precisión, haciéndolos más prácticos para muchas aplicaciones.

Los autores concluyen que, si bien sus resultados son prometedores, es necesaria una evaluación más exhaustiva que involucre comparaciones con líneas base estándar (PCA, Bosque de Aislamiento, Autoencoders, etc.) y reportes estadísticos rigurosos (semillas aleatorias, desviaciones estándar) para trabajos futuros. También sugieren direcciones de investigación futuras que incluyen el uso de otras estructuras de redes de tensores (como PEPS), la aplicación a datos de texto y video, y la evaluación de la variante local basada en proyección matemáticamente fundamentada.