Anomaly Detection from a Tensor Train Perspective

원저자: Alejandro Mata Ali, Aitor Moreno Fdez. de Leceta, Jorge López Rubio

게시일 2026-05-05

📖 4 분 읽기🧠 심층 분석

원저자: Alejandro Mata Ali, Aitor Moreno Fdez. de Leceta, Jorge López Rubio

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

거대한 책 도서관이 있다고 상상해 보세요. 책의 대부분은 동일한 인기 소설의 복사본들 ('정상' 데이터) 이지만, 몇 권은 기이한 손글씨 낙서나 완전히 다른 장르의 책들 ('이상치') 입니다. 당신의 목표는 모든 책을 한 권씩 읽지 않고도 그 기이한 책들을 찾아내는 것입니다.

이 논문은 **텐서 트레인 (Tensor Trains)**이라는 수학적 도구를 사용하여 이를 수행하는 새로운 방법을 제시합니다. 이 도구를 책이 아니라, 매우 효율적인 압축 기계 (초고급 Zip 파일과 같은) 로 생각하세요.

다음은 그 작동 원리, 그들이 시도한 방법들, 그리고 그들이 발견한 결과에 대한 간단한 요약입니다.

핵심 아이디어: "짜내기" 테스트

저자들의 주요 아이디어는 단순한 원칙에 기반합니다: 정상적인 것들은 서로 잘 어울리지만, 기이한 것들은 그렇지 않습니다.

설정: 그들은 데이터셋 (숫자 이미지나 컴퓨터 네트워크 로그 등) 을 가져와 압축 기계에 입력합니다.
짜내기: 그들은 기계에게 공간을 절약하기 위해 미세하고 중요하지 않은 세부 사항을 버리며 데이터를 "짜내라"고 지시합니다.
결과:
- 정상 데이터: 이러한 항목들은 공통된 패턴을 공유하기 때문에 (예: 모든 숫자 "1"이 비슷하게 생김), 기계는 이를 짜낸 후 다시 펴서 거의 원래 모양으로 되돌릴 수 있습니다. 그들은 완벽하게 주형에 맞습니다.
- 이상 데이터: 이러한 항목들은 기이하거나 독특하기 때문에 주형에 맞지 않습니다. 기계가 이를 짜내려고 할 때, 그들의 독특한 구조를 너무 많이 버리게 됩니다. 다시 펴려고 할 때, 왜곡되거나 깨진 것처럼 보입니다.

테스트: 그들은 원래 항목과 "다시 펴진" 버전을 비교합니다. 만약 매우 비슷하다면 정상입니다. 만약 매우 다르다면 이상치입니다.

두 가지 주요 방법

이 논문은 그 도서관을 정리하는 두 가지 다른 전략처럼, 이 테스트를 수행하는 두 가지 방법을 설명합니다.

1. "전역 (Global)" 방법 (그룹 하프)

작동 원리: 당신은 전체 도서관 (또는 그 거대한 일부) 을 한 번에 압축 기계에 입력합니다. 기계는 전체 그룹의 "평균" 모양을 학습합니다.
비유: 도서관 전체의 사진을 찍어 그 사진을 압축한 다음, 각 개별 책이 그 압축된 사진에 얼마나 잘 들어맞는지 확인하는 것을 상상해 보세요.
장점: 빠르고 대규모 데이터셋에 잘 작동합니다.
단점: 시작하려면 많은 데이터가 필요합니다.

2. "지역 (Local)" 방법 (일대일)

작동 원리: 당신은 "정상"인 책의 단 하나의 완벽한 예시 (학습 예시) 만 선택합니다. 그 단일 책을 기반으로 주형을 만듭니다. 그런 다음, 모든 다른 책을 그 특정 주형에 대해 테스트합니다.
비유: 숫자 데이터셋에서 완벽한 "1" 하나를 가져와 그 모양을 기억한 다음, 그 특정 "1" 주형에 맞는지 확인하기 위해 모든 다른 숫자를 검사하는 것입니다.
장점: 놀라울 정도로 정확할 수 있습니다 (때로는 완벽합니다).
단점: 매우 느립니다. 논문은 이 방법이 전역 방법보다 약 50 배 느리다고 지적합니다.

그들이 테스트한 것

저자들은 세 가지 다른 "도서관"에서 이러한 방법들을 테스트했습니다:

손글씨 숫자: 도서관이 대부분 "1"일 때 "7"을 찾아내는 시도.
얼굴: 같은 사람으로 가득 찬 방에서 다른 얼굴을 찾아내는 시도.
사이버 보안: 정상적인 컴퓨터 요청의 흐름 속에서 해커 공격을 찾아내는 시도.

놀라운 발견

이 논문은 몇 가지 직관에 반하는 결과를 드러냈습니다:

과도한 압축 금지: 데이터를 최대한 많이 짜내는 것이 최선일 것이라고 생각할 수 있습니다. 그러나 저자들은 매우 가벼운 압축 (약간의 짜내기만) 이 종종 가장 잘 작동한다고 발견했습니다. 너무 세게 짜내면 "정상" 패턴까지 파괴하기 시작하여 차이를 구분하기 어려워집니다.
"스케일러 (Scaler)" 함정: 데이터 과학에서는 처리하기 전에 데이터를 "스케일링" (예: 모든 사진의 밝기나 크기를 동일하게 조정) 하는 것이 일반적입니다. 저자들은 그들의 특정 방법의 경우 스케일링이 실제로 결과를 망쳤다고 발견했습니다. 이는 마치 네모난 못을 둥근 구멍에 끼우려는 것과 같았습니다. 스케일링은 기계가 보아야 할 특정 패턴들을 파괴했습니다.
속도 대 정확도: "지역" 방법이 가장 정확했습니다 (숫자에서 완벽한 점수를 획득), 하지만 대부분의 실제 용도로는 너무 느려 실용적이지 않았습니다. "전역" 방법은 매우 좋은 정확도 (사이버 공격의 98% 탐지) 를 제공하면서도 사용할 만큼 빠른 훌륭한 균형을 이루었습니다.

결론

저자들은 "기이한" 데이터가 압축 테스트를 얼마나 잘 견디는지 확인함으로써 이를 찾는 새로운 방법을 고안했습니다. 그들은 "정상" 구조는 온전하게 유지하고 "기이한" 구조는 무너지게 함으로써 이상치를 효과적으로 탐지할 수 있음을 보여주었습니다.

핵심 교훈: 때로는 건초더미에서 바늘을 찾는 최선의 방법이 더 열심히 찾는 것이 아니라, 건초를 짜내려고 할 때 건초가 얼마나 잘 붙어있는지 보는 것입니다. 만약 건초가 무너진다면, 당신은 아마도 바늘을 찾은 것일 수 있습니다.

기술적 요약: 텐서 트레인 관점에서의 이상 탐지

문제 제기
이상 탐지는 산업 모니터링, 의료 진단, 사기 탐지, 사이버 보안 등 다양한 분야에서 중요한 과제입니다. 주된 목적은 정상적인 행동과 현저히 다른 데이터 포인트를 식별하는 것입니다. 전통적인 통계 방법, 머신러닝, 딥러닝은 성공을 거두었지만, 고차원 데이터에서는 종종 어려움을 겪으며 주성분 분석 (PCA) 과 같은 차원 축소 기법이 필요합니다. 저자들은 고차원 데이터를 효율적으로 처리하기 위해 텐서 네트워크 (TN), 특히 텐서 트레인 (TT) 을 활용하는 것을 제안합니다. 핵심 가설은 정상 데이터는 공통된 구조적 패턴을 공유하는 반면, 이상 데이터는 고유하거나 드문 구조를 가진다는 것입니다. 데이터를 근사적인 텐서 표현으로 압축함으로써, 이 방법은 정상 데이터의 구조는 보존하면서 이상 데이터의 구조는 교란시켜 구별할 수 있도록 합니다.

방법론
본 논문은 텐서 트레인 (TT) 표현을 사용하여 두 가지 개념적으로 다른 압축 전략에 기반한 여덟 가지 알고리즘 세트를 제시합니다. 압축은 $\tau$ (0 에서 1 사이) 매개변수에 의해 제어되며, 이는 TT-SVD 과정에서 고유값을 얼마나 유지할지 결정합니다.

전역 압축 알고리즘:
- 개념: 전체 데이터셋을 단일 고차 텐서로 취급합니다. 알고리즘은 전체 데이터셋을 압축하여 데이터 포인트의 대다수 (정상 데이터) 가 공유하는 지배적인 구조를 보존합니다. 이러한 공유 구조가 결여된 이상 데이터는 압축 과정에서 더 크게 이동합니다.
- 결정 함수:
  - 자기 비교 (ACGCTNAD): 원본 데이터 포인트와 그 압축 재구성의 스칼라 곱을 원본의 제곱 노름으로 정규화하여 "자기 유지 점수"( $s_{self}$ ) 를 계산합니다. 이 점수는 방향성 정렬과 크기 유지를 모두 포착합니다.
  - 그룹 비교 (GCGCTNAD): 각 데이터 포인트를 집합 내의 다른 모든 데이터 포인트의 압축 버전과 비교하며, 크기가 아닌 기하학적 정렬에 초점을 맞추기 위해 코사인 유사도 지표를 사용합니다.
- 학습 모드: 이러한 방법은 비지도 (사전 지식 없음), 지도 (레이블이 지정된 정상 학습 데이터 사용), 또는 준지도 모드로 적용할 수 있습니다.
국소 압축 알고리즘:
- 개념: 전체 데이터셋을 압축하는 대신, 이 접근법은 "정상" TT 구조를 정의하기 위해 대표적인 정상 데이터 포인트 (또는 집합) 를 사용합니다. 테스트 데이터 포인트의 TT 표현에서 처음 $n-1$ 개의 노드는 학습 데이터의 코어와 일치하도록 강제되며, 마지막 노드만 테스트 포인트의 고유 정보를 포함하게 됩니다.
- 휴리스틱 정렬: 이 방법은 테스트 데이터의 잘린 기저를 정상 학습 코어와 정렬하는 휴리스틱 정렬 단계를 사용합니다.
- 결정 함수: 전역 방법과 유사하게 자기 비교 (ACLCTNAD) 및 그룹 비교 (GCLCTNAD) 점수를 사용합니다.
- 투영 기반 변형: 저자들은 학습된 TT 인터페이스에 대한 최소 제곱 오차를 최소화하는 직교 투영에 기반한 수학적으로 원리 있는 국소 변형을 제안하지만, 논문에서 보고된 실험 결과는 원래 휴리스틱 버전에 해당한다고 명시합니다.

주요 기여

새로운 프레임워크: 압축 과정에서 텐서 네트워크 구조의 보존과 교란에 기반한 이상 탐지 알고리즘의 도입.
알고리즘 세트: 전역 및 국소 압축 전략을 모두 포괄하는 네 가지 주요 알고리즘 (ACGCTNAD, GCGCTNAD, ACLCTNAD, GCLCTNAD) 개발로, 비지도, 지도, 준지도 시나리오에 적용 가능.
고차원 효율성: 전통적인 차원 축소의 한계 없이 텐서 트레인 표현이 고차원 데이터 (예: 이미지, 네트워크 트래픽 로그) 를 효과적으로 처리할 수 있음을 입증.
실증적 검증: 세 가지 서로 다른 데이터셋에 대한 테스트:
- 숫자 데이터셋: 하나의 숫자 클래스를 다른 것들과 구별.
- 올리베티 얼굴 데이터셋: 얼굴 신원을 구별.
- 사이버 보안 데이터셋: 정상 네트워크 요청에 대한 사이버 공격 (무차별 대입, 스캐닝, 슬로우로리스) 탐지.

결과

숫자 데이터셋:
- ACGCTNAD (전역): 최대 AUROC 값이 0.74 에서 0.997 사이로 달성되었습니다. 성능은 종종 매우 낮은 압축 값 ( $\tau$ ) 에서 정점을 찍었으며, 이는 공격적인 압축이 이상 구조를 제거하면서 정상 구조는 유지함을 시사합니다.
- ACLCTNAD (국소): 모든 숫자 클래스에 대해 완벽한 AUROC(1.0) 를 달성했습니다. 그러나 이 방법은 전역 방법보다 50 배 느린 것으로 나타났습니다. 또한 낮은 압축 값에서 "점수 방향 반전" (AUROC 가 0 으로 떨어짐) 을 보였으며, 이는 사후 점수 반전을 요구하여 비지도 유틸리티를 제한합니다.
올리베티 얼굴 데이터셋:
- 전역 방법 (ACGCTNAD) 은 클래스에 따라 가변적인 성능을 보였으며, AUROC 값은 0.69 에서 1.0 사이였습니다. 저자들은 일부 경우의 낮은 성능을 작은 샘플 크기 (클래스당 약 8-9 개의 정상 샘플) 또는 데이터의 특정 특성 때문이라고 설명합니다.
사이버 보안 데이터셋:
- 스케일러 없이: ACGCTNAD 방법은 $\tau = 0.01$ 에서 AUROC 0.98 및 97.72% 정확도로 탁월한 결과를 달성했습니다.
- 표준 스케일러 사용: 성능이 크게 저하되었습니다. 저자들은 표준 스케일러를 적용하면 "결과를 망가뜨린다"고 관찰했는데, 이는 텐서 네트워크가 탐지를 위해 의존하는 근본적인 구조적 규범을 변경하기 때문일 가능성이 높습니다.
- 비지도 모드: 학습 데이터셋 없이 (테스트 데이터만 사용) 테스트했을 때, 스케일러 없이 높은 성능 (97.5% 정확도) 을 유지했지만, 스케일러를 사용하면 성능이 64.7% 로 떨어졌습니다.

의의 및 주장
본 논문은 제안된 텐서 네트워크 접근법이 특히 고차원 환경에서 이상 탐지를 위한 다용도적이고 효과적인 대안이라고 주장합니다. 저자들은 다음과 같은 점을 강조합니다:

구조 보존: 이 방법의 힘은 텐서 네트워크가 정상 데이터의 구조적 관계를 포착하고 보존하면서 이상들의 확산된 구조는 폐기할 수 있는 능력에서 나옵니다.
직관에 반하는 압축: 최적의 탐지는 종종 낮은 압축 값 (낮은 $\tau$ ) 에서 발생하며, 이는 표준 압축 목표와 비교했을 때 직관에 반하는 것처럼 보일 수 있는 현상인 이상 구조는 삭제하지만 정상 구조는 유지하는 표현을 의미합니다.
전처리 민감성: 결과는 데이터 전처리, 특히 표준 스케일링이 이 특정 접근법에는 해로울 수 있음을 강조합니다. 이는 알고리즘이 탐지하도록 설계된 구조적 특징을 파괴할 수 있기 때문입니다.
트레이드오프: 국소 방법 (ACLCTNAD) 은 완벽한 분리를 달성할 수 있지만 계산 비용이 많이 들고 휴리스틱 정렬에 의존합니다. 전역 방법 (ACGCTNAD) 은 속도와 정확도 사이의 더 나은 균형을 제공하여 많은 응용 분야에서 더 실용적입니다.

저자들은 결과가 유망하지만, 표준 베이스라인 (PCA, Isolation Forest, Autoencoders 등) 과의 비교 및 엄격한 통계 보고 (랜덤 시드, 표준 편차) 를 포함한 더 포괄적인 평가가 향후 작업에 필요하다고 결론지었습니다. 또한 PEPS 와 같은 다른 텐서 네트워크 구조의 사용, 텍스트 및 비디오 데이터에의 적용, 수학적으로 원리 있는 투영 기반 국소 변형의 평가 등을 향후 연구 방향으로 제안합니다.