Multimodal Multi-Agent Ransomware Analysis Using AutoGen

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **'랜섬웨어 (악성 소프트웨어) 를 잡기 위해 AI 에이전트들이 팀을 이루어 일하는 새로운 방법'**을 소개합니다.

기존의 보안 프로그램이 한 가지 방법 (예: 파일 코드만 보거나, 실행 모습만 보거나) 으로만 랜섬웨어를 잡으려다 실패하는 경우가 많았습니다. 이 논문은 **"세 명의 전문가가 모여 서로의 의견을 주고받으며, 가장 확실한 결론을 내리는 시스템"**을 만들었다고 설명할 수 있습니다.

이 복잡한 내용을 일상적인 비유로 쉽게 풀어보겠습니다.

🕵️‍♂️ 비유: "랜섬웨어 사기단 잡는 3 인조 형사팀"

이 시스템은 마치 특수 수사관 3 명이 한 팀이 되어 사기범 (랜섬웨어) 을 잡는 상황과 같습니다.

1. 세 명의 전문 수사관 (3 가지 모달리티)

랜섬웨어는 변장술 (암호화, 코드 숨기기) 을 잘 쓰기 때문에 한 가지 단서만으로는 잡기 어렵습니다. 그래서 세 가지 다른 관점에서 정보를 수집합니다.

📄 문서 분석가 (정적 분석): 파일의 '외형'을 봅니다. 파일이 어떻게 생겼는지, 어떤 부품 (코드) 으로 만들어졌는지, 위조된 흔적은 없는지 확인합니다.
- 비유: 범인의 지문이나 옷차림을 분석하는 형사.
🎬 행동 감시관 (동적 분석): 파일을 '실행'시켜서 무엇을 하는지 봅니다. 파일을 암호화하려는지, 시스템을 잠그려는지 등 행동을 지켜봅니다.
- 비유: 범인이 범행 현장에서 무엇을 하는지 CCTV 로 지켜보는 형사.
🌐 통신 감청관 (네트워크 분석): 파일이 인터넷을 통해 누구와 대화하는지 봅니다. 해커의 지시 명령 (C2) 을 받는지 확인합니다.
- 비유: 범인의 전화 통화나 메시지 내용을 감청하는 형사.

2. 서로의 의견을 나누는 '회의실' (멀티 에이전트 시스템)

기존 시스템은 이 세 명의 형사가 각자 따로 일하다가 결과를 합쳤습니다. 하지만 이 논문은 AutoGen이라는 도구를 써서 세 형사가 실시간으로 대화하게 만들었습니다.

🧠 분석가 (Analyst): "이 파일은 행동이 수상해요!"라고 보고합니다.
👮‍♂️ 비평가 (Critic): "잠깐, 행동만 보면 모호할 수 있어. 문서 분석 결과를 다시 한번 확인해 봐. 그리고 이 부분은 신뢰도가 낮으니 조심하자."라고 지적하며 오류를 잡습니다.
🔮 예측가 (Predictor): "지금까지의 대화를 종합해보면, 이 범인은 'A 가족'일 확률이 높지만, 확실하지 않다면 '모르겠다'고 말하는 게 낫다"고 결론을 내립니다.

이들은 서로의 의견을 주고받으며 (피드백 루프), 신뢰도가 낮은 정보는 걸러내고, 중요한 정보만 강조합니다. 마치 형사들이 회의실에서 "아니야, 그건 착각일 수 있어. 다시 생각해보자"라고 서로를 다잡아주며 실수를 줄이는 것과 같습니다.

3. "모르겠다"고 말하는 용기 (Abstention)

가장 중요한 점은 이 시스템이 **"정답을 무조건 맞추려 하지 않는다"**는 것입니다.

만약 세 형사가 모두 "이게 범인인지 확신이 안 서"라고 말하면, 시스템은 **"이건 모릅니다 (Abstention)"**라고 답합니다.
일상 비유: 경찰이 범인을 잡을 때, "아마 저 사람일 거야"라고 막연하게 지목해서 무고한 사람을 잡는 것보다, "확실한 증거가 없으니 일단 수사를 보류하자"라고 하는 것이 더 안전합니다.
이 시스템은 오류 (잘못 잡는 것) 를 피하는 것을 최우선으로 하여, 확신이 있을 때만 "범인은 이 가족입니다!"라고 강력하게 주장합니다.

🚀 이 시스템의 놀라운 성과

이 논문의 실험 결과, 이 '팀워크' 방식은 기존 방식보다 훨씬 뛰어났습니다.

정확도 향상: 세 명의 에이전트가 협력하자 랜섬웨어 종류를 구분하는 정확도가 98% 가까이 올랐습니다.
학습 없이도 성장: 인공지능 모델의 내부 코드를 수정 (Fine-tuning) 하지 않아도, 에이전트들이 서로 대화하며 (피드백) 시간이 지날수록 더 똑똑해지고 실수가 줄어듭니다. 마치 신입 형사들이 선배와 대화하며 경험을 쌓는 것과 같습니다.
새로운 범인 (Zero-day) 대응: 아직 본 적 없는 새로운 랜섬웨어가 나타나도, "이건 확실하지 않아"라고 판단하여 위험을 막아냅니다. 특히 LockBit 같은 유명 랜섬웨어는 거의 완벽하게 잡아냈지만, Dharma처럼 변장술이 너무 뛰어난 랜섬웨어는 "확신이 안 서니 잡지 않겠다"라고 하여 오히려 더 안전한 결정을 내렸습니다.

💡 한 줄 요약

"랜섬웨어를 잡을 때, 한 명의 천재보다 서로 다른 관점에서 대화하며 실수를 교정하는 '팀워크'가 훨씬 강력하고 안전하다!"

이 연구는 앞으로의 사이버 보안이 단순히 '코드를 분석하는 것'을 넘어, AI 에이전트들이 협력하고 판단하는 지능적인 시스템으로 발전할 수 있음을 보여줍니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

랜섬웨어는 전 세계적으로 막대한 금전적 손실과 운영 마비를 초래하는 심각한 사이버 보안 위협입니다. 기존 랜섬웨어 탐지 및 분류 방법론에는 다음과 같은 한계가 존재합니다.

단일 모달리티 (Single Modality) 의 한계: 정적 분석 (Static), 동적 분석 (Dynamic), 네트워크 트래픽 분석 중 하나에만 의존할 경우, 변종 (Polymorphism) 이나 제로데이 (Zero-day) 공격을 탐지하는 데 실패하거나 오탐/미탐이 발생할 수 있습니다. 예를 들어, 어떤 랜섬웨어는 정적 분석에서는 정상처럼 보이지만 동적 행동에서는 악성일 수 있습니다.
전통적 융합의 취약점: 기존 멀티모달 접근법은 각 모달리티의 신뢰도가 균일하다고 가정하는 경우가 많아, 특정 모달리티가 신뢰할 수 없거나 부분적으로 관측되지 않을 경우 전체 시스템 성능이 저하됩니다.
적응성 부족: 고정된 분류 모델은 분포 변화 (Distribution Shift) 나 새로운 변종에 대해 적응적으로 대응하기 어렵습니다.

2. 제안 방법론 (Methodology: MMMA-RA)

저자들은 MMMA-RA (Multimodal Multi-Agent Ransomware Analysis) 프레임워크를 제안합니다. 이는 AutoGen 을 기반으로 한 멀티 에이전트 시스템과 멀티모달 딥러닝을 결합한 구조입니다.

2.1. 아키텍처 개요

시스템은 크게 데이터 인코딩, 멀티모달 융합, 분류, 에이전트 피드백 루프의 4 단계로 구성됩니다.

입력 및 모달리티별 인코딩 (Modality-Specific Encoders):
- 정적 (Static): PE 헤더, 오프코드 n-그램, 엔트로피, 임포트/익스포트 등.
- 동적 (Dynamic): API 호출 시퀀스, 레지스트리/파일 시스템 활동, 프로세스 행동.
- 네트워크 (Network): DNS/TCP 흐름, 패킷 통계, 프로토콜 사용 패턴.
- 각 모달리티는 **지도 학습 대비 오토인코더 (Supervised Contrastive Deep Autoencoder, DCAE)**를 통해 저차원의 잠재 벡터 ( $z_{static}, z_{dynamic}, z_{network}$ ) 로 변환됩니다. 이는 재구성 손실과 대비 손실 (Contrastive Loss) 을 동시에 최적화하여 동일 가족 내 분산은 줄이고 가족 간 거리는 최대화합니다.
게이트드 융합 (Gated Fusion):
- 각 모달리티의 잠재 벡터를 연결 (Concatenation) 하되, 특정 모달리티가 누락되거나 노이즈가 심할 경우 게이트 메커니즘을 통해 선택적으로 통합하여 노이즈를 억제합니다.
분류기 (Family Classifier):
- 융합된 잠재 벡터를 입력으로 받는 Transformer 기반 분류기가 랜섬웨어 가족을 분류합니다.
- 클래스 불균형 문제를 해결하기 위해 **역빈도 클래스 가중치 (Inverse Frequency Class Weighting)**를 적용합니다.
- **사후 확률 보정 (Post-hoc Probability Calibration)**을 통해 모델의 예측 신뢰도 (Confidence) 를 실제 정확도와 일치하도록 조정합니다.
AutoGen 멀티 에이전트 루프 (Agentic Feedback Loop):
- Phi-3.2B 경량 LLM 을 기반으로 한 3 개의 에이전트 (Analyst, Critic, Assistant) 가 협력합니다.
- User Proxy: 모델 통계와 예측 결과를 요약합니다.
- Critic: 예측의 결함, 누락된 요소, 약한 가족 (Low-performing families) 을 식별합니다.
- Assistant: 향후 성능 추세를 예측하고 리스크를 평가합니다.
- 작동 방식: 에이전트들은 모델 가중치를 직접 수정하지 않고, 샘플링 전략 (과소표집된 가족의 오버샘플링), 임계값 조정, 보정 파라미터를 동적으로 조정하여 학습 과정을 유도합니다. 이는 모델의 미세 조정 (Fine-tuning) 없이도 성능을 향상시킵니다.

3. 주요 기여 (Key Contributions)

멀티모달 멀티 에이전트 분류 프레임워크: 정적, 동적, 네트워크 정보를 통합하고 에이전트 간 협력을 통해 랜섬웨어 가족을 분류하는 통합 아키텍처를 제시했습니다.
클래스 불균형 인식 학습: 학습 시 데이터 균형 맞추기와 역빈도 가중 최적화를 결합하여 소수 클래스의 탐지 성능을 보장합니다.
대비 정규화 잠재 학습 (Contrastive Regularized Latent Learning): 오토인코더에 대비 학습 (Contrastive Learning) 을 도입하여 모달리티별 잠재 공간 내에서 가족 간 분리를 극대화했습니다.
게이트드 교차 모달리티 융합: 노이즈가 많거나 중복된 특징을 억제하면서 모달리티 간 상호작용을 효과적으로 통합하는 전략을 도입했습니다.
비침습적 에이전트 피드백: LLM 기반 에이전트가 모델 가중치 변경 없이 샘플링 및 보정을 유도하여 소수 가족의 재현율 (Recall) 과 수렴 안정성을 개선했습니다.
신뢰도 인식 기각 (Confidence-aware Abstention): 불확실성이 높은 샘플에 대해 강제로 분류하지 않고 기각 (Abstention) 하여 실제 환경에서의 신뢰성을 높였습니다.

4. 실험 결과 (Results)

대규모 데이터셋 (Benign, Ryuk, LockBit, Dharma, Shade, WannaCry 등 포함) 을 사용하여 100 에포크 동안 실험을 수행했습니다.

성능 향상: 단일 모달리티 및 비적응형 융합 베이스라인 대비 Macro-F1 점수가 0.946까지 향상되었습니다. (단일 에이전트 멀티모달 대비 약 7% 향상).
에이전트 품질 수렴: 100 에포크 동안 에이전트 품질 점수가 단조롭게 증가하여 최종 0.88 수준에 도달했습니다. 이는 LLM 미세 조정 없이 에이전트 피드백 루프가 학습을 효과적으로 유도했음을 의미합니다.
통계적 유의성: Friedman 검정과 Wilcoxon 부호 순위 검정을 통해 멀티모달 멀티 에이전트 접근법의 성능 향상이 통계적으로 유의미함을 확인했습니다.
제로데이 (Zero-Day) 일반화:
- LockBit: 학습 데이터에 포함되지 않았음에도 Macro-F1 0.99의 뛰어난 일반화 성능을 보였습니다.
- Dharma/WannaCry: 높은 변이성 (Polymorphism) 으로 인해 탐지가 어려웠으나, 모델은 **높은 기각률 (Abstention Rate)**을 통해 잘못된 예측을 방지하고 신뢰성을 우선시했습니다. 이는 "알 수 없는 것은 추측하지 않는다"는 실용적인 보안 원칙을 반영합니다.

5. 의의 및 결론 (Significance & Conclusion)

실용적 보안 대응: 제안된 MMMA-RA 프레임워크는 랜섬웨어의 진화하는 위협에 대응하기 위해 단일 모델의 한계를 극복하고, 에이전트 간의 협력을 통해 신뢰성 있는 의사결정을 가능하게 합니다.
적응형 학습: 모델 가중치를 변경하지 않고도 에이전트의 텍스트 기반 피드백을 통해 학습 전략을 동적으로 조정할 수 있어, 새로운 위협에 대한 빠른 적응이 가능합니다.
신뢰성 우선 전략: 불확실성이 높은 경우 강제로 분류하는 대신 기각하는 방식을 통해 오탐을 줄이고, 실제 운영 환경 (Real-world deployment) 에서의 신뢰도를 높였습니다.

이 연구는 멀티모달 학습과 에이전트 기반 AI(Agentic AI) 를 사이버 보안에 성공적으로 적용한 사례로, 향후 랜섬웨어 방어 시스템의 표준 아키텍처로 발전할 가능성을 보여줍니다.

Multimodal Multi-Agent Ransomware Analysis Using AutoGen

🕵️‍♂️ 비유: "랜섬웨어 사기단 잡는 3 인조 형사팀"

1. 세 명의 전문 수사관 (3 가지 모달리티)

2. 서로의 의견을 나누는 '회의실' (멀티 에이전트 시스템)

3. "모르겠다"고 말하는 용기 (Abstention)

🚀 이 시스템의 놀라운 성과

💡 한 줄 요약

1. 문제 정의 (Problem Statement)

2. 제안 방법론 (Methodology: MMMA-RA)

2.1. 아키텍처 개요

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance & Conclusion)

유사한 논문

DualDynamics: Synergizing Implicit and Explicit Methods for Robust Irregular Time Series Analysis

Robot Collapse: Supply Chain Backdoor Attacks Against VLM-based Robotic Manipulation

ExGes: Expressive Human Motion Retrieval and Modulation for Audio-Driven Gesture Synthesis

SafePLUG: Empowering Multimodal LLMs with Pixel-Level Insight and Temporal Grounding for Traffic Accident Understanding

Advanced Assistance for Traffic Crash Analysis: An AI-Driven Multi-Agent Approach to Pre-Crash Reconstruction