Spatio-Temporal Attention Graph Neural Network: Explaining Causalities With Attention

Each language version is independently generated for its own context, not a direct translation.

1. 배경: 왜 새로운 경비원이 필요한가요?

과거 공장은 외부와 완전히 차단된 '성벽 안의 도시'처럼 안전했습니다. 하지만 요즘은 인터넷 (IT) 과 공장 시스템 (OT) 이 연결되면서 해커들이 성벽을 넘어와 물리적인 기계를 망가뜨릴 수 있게 되었습니다.

기존의 보안 시스템 (감시 카메라) 은 "이런 행동을 하면 나쁜 놈이다"라는 정해진 규칙만 따랐습니다. 하지만 해커들은 규칙을 우회하는 지능적인 방법을 쓰거나, 시스템이 평소와 조금 다르게 움직일 때 (예: 계절 변화로 인한 기계의 노후화) 이를 '정상'으로 오인하거나, 반대로 정상적인 변화를 '위험'으로 잘못 경보하는 경우가 많았습니다.

문제점:

설명 불가: "왜 경보가 울렸나요?"라고 물으면 AI 가 "모르겠어요, 그냥 이상해서요"라고 답하는 경우가 많았습니다. 공장 운영자는 그 이유를 알아야 조치를 취할 수 있습니다.
거짓 경보: 사소한 변화에도 경보가 울리면 운영자는 "또 거짓 경보인가?"하며 시스템을 무시하게 됩니다 (경보 피로).

2. 해결책: STA-GNN (지능형 도시 지도 그리기)

이 논문에서 제안한 모델은 공장을 단순한 데이터 나열이 아니라, **서로 연결된 '살아있는 도시'**로 봅니다.

노드 (Node): 공장 내의 각 센서, 펌프, 밸브는 도시의 **'건물'**이나 **'사람'**입니다.
엣지 (Edge): 이 건물들 사이의 파이프, 전선, 통신은 **'길'**이나 **'관계'**입니다.

이 모델은 두 가지 일을 동시에 합니다:

A. 시간의 흐름을 읽는 것 (Temporal)

"어제 이 펌프는 10 분마다 1 번 켜졌는데, 오늘은 5 분마다 켜지고 있네?"라고 시간의 흐름을 기억합니다. 마치 도시의 교통 흐름을 실시간으로 모니터링하는 것과 같습니다.

B. 관계의 중요성을 파악하는 것 (Spatial & Attention)

이게 이 모델의 핵심인 '어텐션 (Attention, 주의)' 메커니즘입니다.

일반적인 AI: 모든 센서 데이터를 똑같이 중요하게 여겨 혼란스러워합니다.
이 모델 (STA-GNN): "지금 이 펌프 (건물 A) 가 이상한데, 그 이유는 바로 옆의 밸브 (건물 B) 가 잘못 작동해서일 수도 있고, 멀리 있는 수질 센서 (건물 Z) 가 문제를 일으켰을 수도 있겠다"라고 어떤 관계가 가장 중요한지 스스로 찾아냅니다.

마치 수사관이 사건 현장에 왔을 때, 모든 사람의 말을 다 듣는 게 아니라 "누가 가장 의심스러운 행동을 했고, 그 사람이 누구와 연결되어 있었는지"를 중요도 순서대로 찾아내는 것과 같습니다.

3. 왜 이 모델이 특별한가요? (세 가지 장점)

① "왜?"에 대한 답을 줍니다 (설명 가능성)

기존 AI 는 "위험합니다!"라고만 말했지만, 이 모델은 **"A 펌프가 멈췄는데, 그 이유는 B 밸브가 닫혀서 물이 안 들어와서 그렇습니다. 그리고 그 영향으로 C 탱크의 수위가 낮아졌습니다"**라고 **인과 관계 (원인과 결과)**를 그래프로 보여줍니다.

비유: "불이 났습니다"라고만 하는 게 아니라, "부엌의 가스레인지 (원인) 에서 불이 시작되어 식탁 (중간) 을 타고 거실 (결과) 로 번졌습니다"라고 알려주는 것입니다.

② 거짓 경보를 줄여줍니다 (정밀한 감시)

공장은 시간이 지나면 기계가 낡거나 환경이 변해 데이터가 조금씩 달라집니다 (기울어짐/Drift). 기존 모델은 이 변화를 '해킹'으로 오인해 경보를 울렸습니다.
이 모델은 적응형으로 작동합니다. "아, 요즘은 기계가 조금 느려졌구나"라고 학습하고 기준을 조정합니다. 또한, 확률적 방법을 써서 "이 정도 이상이면 진짜 위험일 확률이 99.9% 다"라고 계산해, 불필요한 경보를 막아줍니다.

③ 여러 눈을 동시에 봅니다 (다중 모달리티)

이 모델은 공장의 물리적 상태 (수위, 압력) 와 네트워크 상태 (데이터 패킷, 통신 내용) 를 동시에 봅니다.

비유: 도둑이 문을 열 때 (물리적 변화) 소리가 나고 (네트워크 변화), 동시에 CCTV 에 찍힙니다. 이 모델은 이 모든 정보를 종합해 "도둑이 들어왔다"고 판단합니다. 특히 해커가 데이터를 조작할 때 물리적 데이터는 정상이지만 네트워크 데이터가 이상할 수 있는데, 이 둘을 함께 보면 해커를 더 잘 잡을 수 있습니다.

4. 연구 결과 및 교훈

연구진은 이 모델을 실제 수처리 공장 데이터로 테스트했습니다.

성공: 물리적 데이터 (센서 값) 를 분석할 때 가장 잘 작동했습니다. 해커가 어떤 펌프를 조작했는지, 그 영향이 어떻게 퍼져나갔는지 정확하게 추적했습니다.
한계: 네트워크 데이터만 분석할 때는 해커의 정확한 위치를 찾기 어려웠습니다. 마치 "도둑이 건물 1 층에 있는 것 같은데, 어느 방인지 정확히 모르겠다"는 상황입니다.
중요한 발견: F1 점수 (정확도 지표) 만 믿으면 안 됩니다. 논문은 "F1 점수가 높아도 실제 운영에서는 쓸모없는 모델일 수 있다"고 경고합니다. 오히려 거짓 경보 (FPR) 를 얼마나 줄이느냐가 실제 산업 현장에서는 더 중요합니다.

5. 결론: 이 기술이 주는 메시지

이 논문은 단순히 "더 똑똑한 AI"를 만든 것이 아니라, **"사람이 이해하고 신뢰할 수 있는 AI"**를 만드는 길을 제시합니다.

비유: 과거의 AI 는 "나를 믿어, 내가 해커를 잡았어"라고 말했지만, 이 새로운 모델은 "여기서부터 저기로 해커가 이동했고, 이 펌프가 멈춘 이유는 이 밸브 때문이에요. 제가 왜 그렇게 생각했는지 보여드릴게요"라고 설명합니다.

이처럼 이해 가능한 AI는 산업 현장에서 안전을 지키는 진정한 파트너가 될 수 있으며, 시간이 지나도 시스템이 변해도 스스로 적응하며 경보의 신뢰도를 유지할 수 있게 해줍니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

산업 제어 시스템 (ICS) 은 전력망, 정수 시설 등 국가 기반 시설의 핵심을 이루며, 운영 기술 (OT) 과 네트워크 환경의 융합으로 인해 사이버 - 물리적 위협에 점점 더 노출되고 있습니다. 기존 머신러닝 기반 이상 탐지 (Anomaly Detection) 접근법은 이론적 성능은 우수하나, 실제 배포에는 다음과 같은 한계가 존재합니다.

설명 가능성 부족 (Lack of Explainability): 복잡한 딥러닝 모델은 '블랙박스' 성격을 띠어, 경보가 발생한 원인과 물리적 과정 간의 인과관계를 운영자가 이해하기 어렵습니다.
높은 오탐율 (High False Positive Rates): 실제 산업 환경에서는 오탐 (False Alarm) 이 운영자의 피로도를 높이고 시스템 신뢰도를 떨어뜨립니다.
기저선 드리프트 (Baseline Drifting): 시스템의 노후화, 환경 변화, 장비 교체 등으로 인해 정상 데이터의 분포가 시간에 따라 변하는 현상이 발생하여, 고정된 모델의 성능이 저하됩니다.
불균형 데이터: 대부분의 트래픽은 정상이며 공격은 드물어, 불균형 데이터셋에서 희귀한 이상을 탐지하기 어렵습니다.

2. 제안 방법론 (Methodology: STA-GNN)

저자들은 위 문제들을 해결하기 위해 시공간 주의 그래프 신경망 (Spatio-Temporal Attention Graph Neural Network, STA-GNN) 을 제안했습니다. 이 모델은 시계열 데이터의 시간적 동역학과 시스템 구성 요소 간의 관계적 구조를 동시에 모델링합니다.

2.1 아키텍처

모델은 입력 윈도우를 기반으로 노드 (센서, 컨트롤러, 네트워크 엔티티) 와 에지 (관계) 를 가진 그래프를 동적으로 학습합니다.

Temporal Block (시간적 블록):
- 각 노드의 시계열 데이터를 처리하기 위해 Transformer 아키텍처의 Multi-Head Self-Attention (MHA) 를 사용합니다.
- 과거 시간 단계 간의 장기 및 단기 의존성을 포착하며, 미래 정보 누출을 방지하기 위해 Causal Masking 을 적용합니다.
Spatial Block (공간적 블록):
- 정적 그래프에 의존하지 않고, 동적 컨텍스트 유사도 (Contextual Similarity) 와 정적 사전 지식 (Static Prior) 을 결합하여 동적 그래프를 구성합니다.
- 그래프 어텐션 (Graph Attention): 학습된 임베딩을 기반으로 노드 간의 중요도 가중치를 동적으로 계산합니다.
- Top-k 필터링: 노이즈를 줄이고 해석 가능성을 높이기 위해 각 노드당 상위 k 개의 이웃만 유지하여 희소성 (Sparsity) 을 확보합니다.
Decoder Block:
- 최종 시공간 특징 벡터를 MLP(다층 퍼셉트론) 를 통해 재구성 (Reconstruction) 하여 예측값을 생성합니다.

2.2 학습 및 이상 점수 산출

학습 목표: 정상 데이터만을 사용하여 재구성 오차 (Reconstruction Error) 를 최소화하는 비지도 학습을 수행합니다. 연속형 데이터는 MSE, 이진형 데이터는 BCE 손실 함수를 혼합 (MixedLoss) 하여 사용합니다.
이상 점수 (Anomaly Scoring): 재구성 오차를 기반으로 윈도우별 이상 점수를 계산합니다.
그래프 설명 (Graph Explanations): 이상 탐지 시, 컨텍스트 유사도 그래프 ( $G_{cs}$ ) 와 어텐션 그래프 ( $G_a$ ) 를 시각화하여 어떤 노드와 연결이 이상을 유발했는지 인과적 경로를 추적할 수 있게 합니다.

2.3 평가 및 드리프트 대응 (Conformal Prediction)

Conformal Prediction: 오탐율 (FPR) 을 엄격하게 통제하기 위해 비동조 점수 (Nonconformity Scoring) 기반의 임계값 설정 전략을 도입했습니다. 이는 데이터 분포에 대한 가정을 최소화하면서도 유한 표본에서 오탐 확률을 제어합니다.
드리프트 감지: 임계값 초과 빈도를 모니터링하여 모델의 성능 저하 (Covariate Drift) 를 조기에 감지하고 재보정 (Recalibration) 할 수 있도록 합니다.

3. 주요 기여 (Key Contributions)

해석 가능한 ICS 이상 탐지 프레임워크: 어텐션 메커니즘을 통해 탐지된 이상과 시스템 구성 요소 간의 인과적/상관적 관계를 시각화하여, 운영자가 '왜' 경보가 발생했는지 이해할 수 있게 합니다.
멀티모달 데이터 통합: SCADA 포인트 데이터 (물리적 센서), NetFlow 데이터, 그리고 페이로드 (Payload) 데이터를 통합하여 분석할 수 있는 유연한 아키텍처를 제공합니다.
운영적 요구사항 반영: 단순한 탐지율 (Recall) 극대화가 아닌, 오탐율 (FPR) 통제와 드리프트 대응을 위한 Conformal Prediction 전략을 통합하여 실제 배포 가능성을 높였습니다.
실제 데이터셋에 대한 심층 분석: SWaT (Secure Water Treatment) 벤치마크 데이터셋을 활용하여 물리적 및 네트워크 모달리티별 성능을 평가하고, 기존 F1 점수 중심 평가의 한계를 지적했습니다.

4. 실험 결과 (Results)

연구는 SWaT 2015, 2017, 2019 데이터셋을 사용하여 평가되었습니다.

성능 비교:
- 물리적 데이터 (Physical-level): STA-GNN 이 K-means, SVM, LSTM-VAE 등 기존 모델보다 우수한 F1 점수와 낮은 FPR 을 기록했습니다. 특히 LSTM-VAE 는 특정 공격 하나를 잘 탐지하여 F1 점수가 높게 나왔으나, 전체 공격 탐지 수는 STA-GNN 이 훨씬 많았습니다.
- 네트워크 데이터 (NetFlow): 페이로드 정보가 없는 NetFlow 만으로는 성능이 저조했으나, NetFlow+Payload를 결합하면 물리적 데이터와 유사한 탐지 능력을 보였습니다.
임계값 전략의 중요성:
- F1 점수 최대화 전략은 오탐을 많이 발생시킵니다.
- Conformal Thresholding을 적용하면 오탐율을 매우 낮게 ($10^{-3}$ 수준) 유지하면서도 공격 탐지 수 (Attack Detected) 를 증가시킬 수 있었습니다.
드리프트 및 재학습:
- 2015 년 데이터로 학습된 모델은 2017 년 데이터에서 성능이 급격히 떨어졌습니다 (기저선 드리프트).
- 단순 재보정 (Recalibration) 으로 오탐율은 통제할 수 있었으나, 개념 드리프트 (Concept Drift, 시스템 구성 변경 등) 가 발생하면 재학습이 필수적임이 확인되었습니다.
인과성 해석:
- 어텐션 그래프는 실제 물리적 인과관계 (예: 펌프 고장 $\rightarrow$ 유량계 이상) 를 잘 포착했습니다.
- 사전 지식 (Prior Graph) 을 도입하면 노이즈가 제거되어 더 명확한 인과 경로를 보여줍니다.

5. 의의 및 결론 (Significance)

이 논문은 ICS 보안 분야에서 머신러닝 모델의 실제 배포 가능성을 높이는 데 중요한 통찰을 제공합니다.

평가 지표의 재고찰: 단순한 F1 점수나 정확도보다는 오탐율 (FPR) 통제와 다양한 공격 유형 탐지 능력, 그리고 시간에 따른 드리프트 대응이 실제 산업 환경에서 더 중요함을 강조했습니다.
설명 가능성의 실용성: 어텐션 메커니즘을 통해 모델이 '무엇'을 보고 이상을 판단했는지 물리적 프로세스 관점에서 설명할 수 있어, 운영자의 신뢰를 확보하는 데 기여합니다.
미래 방향: 대규모 ICS 환경에서의 확장성, 그리고 학습된 어텐션 구조를 LLM(대형 언어 모델) 과 결합하여 비전문가도 이해할 수 있는 자동화된 설명 생성 시스템 구축을 제안합니다.

요약하자면, STA-GNN 은 복잡한 산업 제어 시스템의 이상을 탐지할 뿐만 아니라, 그 원인과 전파 경로를 설명하고, 환경 변화에 적응하며 오탐을 통제할 수 있는 신뢰할 수 있는 사이버 - 물리적 보안 모니터링 시스템의 청사진을 제시합니다.