Praxium: Diagnosing Cloud Anomalies with AI-based Telemetry and Dependency Analysis

Each language version is independently generated for its own context, not a direct translation.

🏢 배경: 거대한 빌딩과 매일 바뀌는 인테리어

현대 클라우드 앱은 예전처럼 하나의 거대한 건물 (모놀리식) 이 아니라, **수백 개의 작은 방 (마이크로서비스)**으로 나뉘어 있는 거대한 빌딩처럼 작동합니다. 각 방은 서로 연결되어 있고, 매일 새로운 인테리어 (소프트웨어 업데이트) 가 이루어집니다.

문제점: 빌딩 관리인 (SRE, 시스템 관리자) 들은 매일 새로운 인테리어가 들어오는데, 갑자기 전등이 깜빡이거나 엘리베이터가 멈추면, **"어느 방의 어떤 인테리어가 문제일까?"**를 찾기 위해 수백 개의 기록을 일일이 뒤져야 합니다. 이는 너무 느리고 비효율적입니다.

🕵️‍♂️ Praxium: AI 기반의 초능력을 가진 탐정

Praxium 은 이 문제를 해결하기 위해 등장한 3 단계로 작동하는 스마트 탐정입니다.

1 단계: 감시 카메라 (이상 탐지)

비유: 빌딩 전체에 설치된 CCTV 가 평소의 '정상적인 움직임'을 기억하고 있습니다.
작동: AI 는 평소의 데이터 (메모리 사용량, CPU 속도 등) 를 학습해 두었다가, 갑자기 누군가 뛰거나 비정상적인 소리가 나면 **"여기 뭔가 이상해!"**라고 경보를 울립니다.
기술: 변이 오토인코더 (VAE) 라는 AI 기술을 써서, "평소와 다른 패턴"을 찾아냅니다.

2 단계: 범인 추적 (원인 분석)

비유: 경보가 울리면, 탐정은 **"최근에 누가 이 방에 들어와서 인테리어를 했지?"**를 확인합니다.
작동: 단순히 "가장 최근에 들어온 사람"을 의심하는 게 아닙니다. Praxium 은 **가장 최근의 설치 로그 (누가 언제 어떤 소프트웨어를 설치했는지)**를 모두 확인합니다.
핵심 기술 (인과성 분석): "만약 그 사람이 설치하지 않았다면, 지금 이런 문제가 발생했을까?"라는 가상 시나리오를 AI 가 만들어 봅니다.
- 예: "A 라는 라이브러리를 설치한 직후에 CPU 가 과열되었으니, A 가 범인일 확률이 99% 야!"라고 결론 내립니다.

3 단계: 연결고리 찾기 (의존성 그래프)

비유: 빌딩의 한 방 (예: 식당) 에서 불이 났다면, 그 불이 식당 자체의 문제인지, 아니면 식당에 식자재를 배달해 준 창고 (상위 서비스) 문제인지 구별해야 합니다.
작동: Praxium 은 빌딩의 **배관과 전선도 (서비스 간 연결 그래프)**를 그려서, 문제가 발생한 방과 연결된 다른 방들까지 모두 조사합니다. 그래서 "식당에 문제가 생겼는데, 사실은 창고에서 잘못된 식자재를 보낸 게 원인이었다"는 것을 정확히 찾아냅니다.

🧪 실험 결과: 얼마나 잘할까?

연구진은 이 시스템을 테스트하기 위해 **인위적으로 고장 (CPU 과부하, 메모리 누수 등)**을 만들어냈습니다.

정확도: 75 번의 테스트에서 97% 이상의 정확도로 이상 징후를 찾아냈습니다. (거의 실수하지 않음)
범인 특정: 여러 개의 업데이트가 짧은 시간 사이에 연속으로 들어와도, **"정말 문제인 그 업데이트"**를 정확히 찾아냈습니다. 마치 여러 사람이 동시에 문을 열고 들어와도, 누가 유리를 깼는지 정확히 알아맞히는 것과 같습니다.
실용성: 관리자가 수동으로 로그를 뒤질 필요가 없어졌고, 문제 해결 시간이 획기적으로 단축되었습니다.

💡 핵심 요약 (한 줄 정리)

Praxium은 클라우드 앱이 고장 나면, AI 가 평소의 모습을 기억했다가 이상을 감지하고, 최근의 소프트웨어 설치 기록과 서비스 연결도를 분석하여 "정확히 어떤 업데이트가 문제를 일으켰는지" 찾아주는 자동화된 디지털 탐정 시스템입니다.

이 시스템을 통해 관리자들은 더 이상 복잡한 로그를 두들겨 패며 밤을 새울 필요가 없으며, AI 가 "범인은 A 업데이트입니다!"라고 알려주면 바로 해결할 수 있게 됩니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

현대 클라우드 애플리케이션은 확장성과 유지보수성을 위해 마이크로서비스 아키텍처를 광범위하게 채택하고 있으며, CI/CD(지속적 통합/배포) 패러다임 하에서 빈번한 롤아웃이 이루어지고 있습니다. 그러나 이러한 환경은 다음과 같은 진단적 어려움을 초래합니다.

복잡한 상호작용: 새로운 소프트웨어 설치 (패키지 업데이트 등) 와 애플리케이션 구성 요소 간의 복잡한 상호작용으로 인해, 특정 설치 또는 롤아웃이 비정상적인 동작 (Anomaly) 의 원인인지 식별하기가 매우 어렵습니다.
기존 방법의 한계: 전통적인 진단 방식은 전문가의 수동 개입에 의존하며, 로그와 메트릭의 고차원성을 처리하는 데 한계가 있어 확장성이 부족합니다.
세부 정보의 부재: 기존 자동화 도구들은 서비스 수준의 트레일 (Trace) 이나 SLO 위반에 초점을 맞추지만, 소프트웨어 설치 (Package Installation) 단계의 세부적인 변화를 추적하여 근본 원인 (Root Cause) 을 특정하는 데는 미흡합니다.

2. 제안 방법론: Praxium 프레임워크 (Methodology)

Praxium 은 마이크로서비스 환경에서 비정상적인 동작을 탐지하고, 이를 소프트웨어 설치 이벤트와 연관시켜 근본 원인을 추론하는 통합 프레임워크입니다. 시스템은 크게 세 가지 핵심 구성 요소로 이루어져 있습니다.

가. 소프트웨어 종속성 로깅 시스템 (Software Dependency Logging)

PraxiPaaS 활용: 컨테이너 이미지 레이어를 스캔하여 패키지 설치 및 변경 사항을 자동으로 감지하는 도구인 PraxiPaaS 를 기반으로 합니다.
SBOM 생성: 주기적으로 서비스 배포 시점을 감지하고, 해당 시점의 소프트웨어 구성 요소 (SBOM) 변경 내역을 데이터베이스에 저장합니다. 이를 통해 어떤 패키지가 언제 설치되었는지의 타임라인을 확보합니다.

나. 이상 탐지 및 트리거 시스템 (Anomaly Detection & Triggering)

VAE 기반 모델: 기존 HPC 워크로드용 도구인 Prodigy를 마이크로서비스 환경에 맞게 수정하여 사용합니다.
학습 및 추론: 정상 상태의 메트릭 (CPU, 메모리, 디스크 등) 을 학습하여 변이 오토인코더 (Variational Autoencoder, VAE) 모델을 구축합니다.
슬라이딩 윈도우: 실시간 메트릭 스트림을 슬라이딩 윈도우로 처리하여 재구성 오차 (Reconstruction Error) 를 계산합니다. 오차가 임계값을 초과하면 이상을 탐지하며, 연속된 윈도우에서 이상 징후가 일정 횟수 ( $\tau$ ) 이상 발생하면 경보를 발령합니다.
단일 모델 최적화: 각 Pod 마다 개별 VAE 를 학습하는 대신, 모든 Pod 의 메트릭을 하나의 데이터 프레임으로 결합하여 단일 VAE 모델을 학습/추론함으로써 연산 오버헤드를 줄이고 병렬 처리 효율을 높였습니다.

다. 근본 원인 분석 및 인과 그래프 (Root Cause Analysis & Causal Graph)

인과 그래프 구축: Jaeger 와 같은 트레이싱 도구를 통해 서비스 간의 상/하위 의존성 (Upstream/Downstream) 을 기반으로 인과 그래프를 생성합니다.
임계 경로 (Critical Path) 필터링: 이상 발생 시, 해당 서비스의 임계 경로에 포함된 서비스들만 분석 대상으로 선정하여 탐색 공간을 축소합니다.
CausalImpact 활용: 베이지안 반사실 (Counterfactual) 분석 알고리즘인 CausalImpact을 사용하여, 최근 설치된 패키지 타임스탬프가 관측된 이상 메트릭에 미친 영향을 통계적으로 검증합니다.
결정 로직: p-value < 0.01 을 만족하는 설치 타임스탬프 중 평균 영향도 (Effect) 가 가장 높은 것을 최종 근본 원인으로 판별합니다.

3. 주요 기여 (Key Contributions)

미세粒度 (Fine-grained) 진단: 마이크로서비스 롤아웃 중 발생하는 소프트웨어 설치 이벤트 (Package-level changes) 를 이상 탐지 및 근본 원인 분석에 직접 연결한 최초의 작업입니다.
통합 프레임워크 설계: VAE 기반의 비지도 학습 이상 탐지, ML 기반 소프트웨어 변경 로깅 (SBOM), 그리고 인과적 추론을 결합한 종합적인 아키텍처를 구현했습니다.
실제 환경 검증: New England Research Cloud (NERC) 와 OpenShift AI 를 기반으로 실제 Kubernetes 환경에서 프로토타입을 구현하고 평가했습니다.

4. 실험 결과 (Results)

논문의 평가는 4 가지 합성 이상 (CPU 스파이크, 디스크 포화, 메모리 누수, 네트워크 지연) 을 75 회 실험하여 수행되었습니다.

이상 탐지 성능:
- 최적의 하이퍼파라미터 (창 크기 600 초, 스트라이드 300 초, 임계값 2) 를 적용했을 때, Macro-F1 점수가 0.97 이상으로 일관되게 높은 성능을 보였습니다.
- CPU 및 RAM 이상 탐지의 경우 정밀도 (Precision) 와 재현율 (Recall) 이 모두 1.0 에 근접했습니다.
- 임계값 (Thresholding) 적용을 통해 단일 윈도우의 노이즈로 인한 오탐지를 효과적으로 제거했습니다.
근본 원인 추론 정확도:
- CausalImpact 분석은 설치 간격이 짧아지더라도 (10 분, 5 분, 2 분 간격) 올바른 설치 로그를 100% 정확도로 식별했습니다.
- 이는 여러 배포가 짧은 간격으로 연속적으로 발생할 때에도 가장 관련성 높은 설치 이벤트를 정확히 찾아낼 수 있음을 의미합니다.
인과 그래프의 효과:
- 임계 경로 (Critical Path) 기반 필터링을 통해 불필요한 후보 설치를 제거하고, 실제 원인 (상위/하위 서비스의 설치) 을 정확히 식별하는 데 성공했습니다.

5. 의의 및 결론 (Significance & Conclusion)

실무적 가치: Praxium 은 클라우드 운영자 (SRE) 가 복잡한 마이크로서비스 환경에서 발생하는 이상을 신속하게 탐지하고, 단순한 로그 검색이 아닌 데이터 기반의 인과적 추론을 통해 근본 원인을 특정할 수 있게 합니다.
확장성: CI/CD 환경에서 빈번한 배포로 인해 발생하는 '어디서 문제가 시작되었는지'에 대한 불확실성을 해결하며, 수동 진단의 부담을 크게 줄여줍니다.
향후 과제: 대규모 클러스터 (수천 개의 Pod) 로의 확장성, 트레이싱 샘플링에 따른 인과 그래프의 완전성 문제, 그리고 코드 수준의 패키지 사용 정보 등을 추가적으로 통합하여 추론 정확도를 높이는 방향으로 발전이 필요합니다.

요약하자면, Praxium은 클라우드 환경의 복잡성을 해결하기 위해 AI 기반 이상 탐지와 소프트웨어 종속성 분석을 융합하여, 미세한 수준의 근본 원인 진단을 가능하게 하는 혁신적인 프레임워크입니다.