CyberSleuth: Autonomous Blue-Team LLM Agent for Web Attack Forensics

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 사이버 수사관 (CyberSleuth): AI 가 되어주는 디지털 탐정

1. 문제 상황: "범인 잡기가 너무 어려워요!"

상상해 보세요. 어떤 건물이 불이 났습니다. 소방관 (보안 전문가) 이 현장에 도착했지만, 증거는 수만 장의 문서와 녹음 파일 (네트워크 트래픽) 속에 숨어 있습니다.

기존 방식: 전문가가 눈으로 하나하나 확인하며 "아, 여기가 불이 난 곳인가?", "어떤 연료로 타고 있었을까?"라고 추리합니다. 시간이 너무 오래 걸리고, 피곤해서 실수할 수도 있습니다.
새로운 방식 (이 연구): AI 탐정 (CyberSleuth) 을 투입합니다. 이 AI 는 모든 증거를 순식간에 분석하고, "범인은 A 라는 장난감으로 불을 지폈다"라고 결론을 내립니다.

2. 어떻게 작동할까? "팀워크가 핵심!"

연구진은 AI 를 어떻게 설계할지 세 가지 방식을 실험했습니다.

방식 A: 혼자 모든 걸 하는 '혼자서 다 하는 탐정' (Single Agent)
- 한 명의 AI 가 모든 증거를 직접 뒤집니다.
- 문제점: 증거가 너무 많으면 머리가 복잡해져서 ("컨텍스트 윈도우" 부족) 중요한 단서를 놓치거나, 같은 질문을 반복하며 지칩니다. 마치 한 사람이 수만 장의 서류를 직접 넘기다 지쳐서 실수하는 것과 같습니다.
방식 B: 복잡한 지휘 체계의 '팀' (Tshark Expert Agent)
- 지휘관 (메인 AI) 이 부하 (서브 AI) 에게 "이쪽을 좀 봐줘"라고 지시합니다.
- 문제점: 지휘관과 부하 사이의 소통이 매끄럽지 않습니다. "그쪽을 봐줘"라는 모호한 지시를 받아 부하가 엉뚱한 곳을 검색하거나, 지휘관이 부하의 보고를 제대로 이해하지 못해 시간이 낭비됩니다.
방식 C: 최고의 팀인 'CyberSleuth' (Flow Reporter Agent)
- 핵심 아이디어: "전문가는 전문적인 일만 하세요."
- 작동 방식:
  1. 요약 전문가 (Flow Summariser): 먼저 수만 장의 서류를 한눈에 훑어 "여기서 이상한 점 3 가지를 찾았습니다"라고 간단한 요약 보고서를 작성합니다.
  2. 수사관 (Main Agent): 이 요약 보고서를 받아 "아, 이 부분이 의심스럽구나"라고 판단하고, 인터넷 (웹 검색) 으로 해당 범죄 수법을 검색하여 범인을 특정합니다.
- 결과: 이 방식이 가장 성공적이었습니다. 복잡한 지시 없이, 간단한 보고서를 주고받는 직선적인 소통이 가장 효율적이었습니다.

3. AI 의 두뇌 (LLM) 는 무엇이 좋을까?

연구진은 다양한 AI 모델 (GPT-4o, GPT-5, DeepSeek 등) 을 시험했습니다.

결론: 최신 모델일수록, 그리고 **추론 능력 (Reasoning)**이 뛰어난 모델일수록 범인을 더 정확하게 잡았습니다.
특히, 웹 검색을 얼마나 잘 활용하느냐가 중요했습니다. AI 가 "내 기억만 믿고" 범인을 잡으려다 실패하는 경우가 많았는데, 증거 (네트워크 데이터) 를 바탕으로 정확한 키워드로 검색을 해주는 모델이 성공률이 높았습니다.

4. 실제 성능은 어떨까?

2025 년 최신 해킹 기법 테스트: 아직 세상에 알려지지 않은 2025 년의 새로운 해킹 기법 (CVE) 으로 공격을 시뮬레이션했습니다.
성과: CyberSleuth 는 80% 의 정확도로 범인 (취약점) 을 찾아냈고, 전문가 25 명에게 보고서를 보여줬더니 "완벽하고, 유용하며, 논리적"이라고 극찬했습니다.
유연성: 웹 해킹뿐만 아니라, 악성코드에 감염된 컴퓨터의 트래픽을 분석하는 임무에도 바로 적용할 수 있었습니다. 지시만 살짝 바꾸면 다른 수사 업무도 잘 해내는 것입니다.

5. 이 연구가 주는 교훈 (핵심 요약)

혼자 하는 것보다 팀이 낫다: 모든 일을 한 AI 가 하는 것보다, 전문가 역할로 나뉜 여러 AI 가 협력하는 것이 좋습니다.
복잡한 지휘보다 간단한 소통이 낫다: 너무 복잡하게 계층을 나누면 소통이 끊깁니다. 간단한 순서대로 일을 처리하는 것이 가장 빠르고 정확합니다.
배운 것은 다른 곳에도 쓸 수 있다: 웹 해킹 수사에서 배운 AI 설계 원리는 악성코드 수사 등 다른 보안 분야에도 그대로 적용할 수 있습니다.

🎯 한 줄 요약

"복잡한 사이버 수사 일을, 여러 명의 AI 전문가가 팀을 이루어 간결하게 협력하게 만들었더니, 인간 전문가 못지않게 빠르고 정확하게 범인을 잡았다!"

이 기술은 앞으로 보안 전문가들의 업무를 도와주거나, 사고 발생 시 즉각적인 대응을 가능하게 하여 사이버 보안을 한 단계 업그레이드할 것으로 기대됩니다.

CyberSleuth: Autonomous Blue-Team LLM Agent for Web Attack Forensics

🕵️‍♂️ 사이버 수사관 (CyberSleuth): AI 가 되어주는 디지털 탐정

1. 문제 상황: "범인 잡기가 너무 어려워요!"

2. 어떻게 작동할까? "팀워크가 핵심!"

3. AI 의 두뇌 (LLM) 는 무엇이 좋을까?

4. 실제 성능은 어떨까?

5. 이 연구가 주는 교훈 (핵심 요약)

🎯 한 줄 요약

1. 문제 정의 (Problem)

2. 방법론 (Methodology)

2.1. 데이터셋 및 시나리오

2.2. 에이전트 아키텍처 비교

2.3. 핵심 기술 요소

3. 주요 기여 및 결과 (Key Contributions & Results)

3.1. 아키텍처 성능 비교

3.2. LLM 백엔드 평가

3.3. 일반화 및 포트ABILITY (Portability)

4. 의의 및 결론 (Significance & Conclusion)

CyberSleuth: Autonomous Blue-Team LLM Agent for Web Attack Forensics

🕵️‍♂️ 사이버 수사관 (CyberSleuth): AI 가 되어주는 디지털 탐정

1. 문제 상황: "범인 잡기가 너무 어려워요!"

2. 어떻게 작동할까? "팀워크가 핵심!"

3. AI 의 두뇌 (LLM) 는 무엇이 좋을까?

4. 실제 성능은 어떨까?

5. 이 연구가 주는 교훈 (핵심 요약)

🎯 한 줄 요약

1. 문제 정의 (Problem)

2. 방법론 (Methodology)

2.1. 데이터셋 및 시나리오

2.2. 에이전트 아키텍처 비교

2.3. 핵심 기술 요소

3. 주요 기여 및 결과 (Key Contributions & Results)

3.1. 아키텍처 성능 비교

3.2. LLM 백엔드 평가

3.3. 일반화 및 포트ABILITY (Portability)

4. 의의 및 결론 (Significance & Conclusion)

유사한 논문

How Effective Are Publicly Accessible Deepfake Detection Tools? A Comparative Evaluation of Open-Source and Free-to-Use Platforms

Benchmark of Benchmarks: Unpacking Influence and Code Repository Quality in LLM Safety Benchmarks

Beyond Input Guardrails: Reconstructing Cross-Agent Semantic Flows for Execution-Aware Attack Detection

Impact of 5G SA Logical Vulnerabilities on UAV Communications: Threat Models and Testbed Evaluation

When Denoising Becomes Unsigning: Theoretical and Empirical Analysis of Watermark Fragility Under Diffusion-Based Image Editing