Before You Hand Over the Wheel: Evaluating LLMs for Security Incident Analysis

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"AI(거대 언어 모델) 가 보안 전문가를 대신해 해킹 사고를 조사할 수 있을까?"**라는 질문에 답하기 위해 진행된 실험 결과입니다.

비유하자면, 이 연구는 **"새로운 AI 수사관 후보생 11 명을 뽑아, 실제 범죄 현장 (보안 사고) 에서 그들이 얼마나 잘 일하는지 시험하는 시험지 (벤치마크) 를 만든 이야기"**입니다.

핵심 내용을 쉽게 풀어서 설명해 드릴게요.

1. 왜 이 연구가 필요했을까요? (문제 상황)

보안 센터 (SOC) 에서는 매일 수천 개의 '경보'가 울립니다. 마치 불이 났을 때 소방서로 수천 개의 전화가 걸려오는 상황과 비슷합니다.

현실: 대부분의 경보는 거짓입니다 (고양이가 지나가서 센서가 울린 경우). 하지만 진짜 불 (해킹) 이 났을 때를 놓치면 큰일이 납니다.
기대: 기업들은 "AI 가 이 수많은 경보를 먼저 보고, 진짜 불인지 가짜 불인지 골라내면 좋겠다"고 생각했습니다.
문제: 하지만 "이 AI 가 정말 잘할까?"를 검증할 공식 시험지가 없었습니다. 그냥 AI 를 쓰다가 실수하면 오히려 보안을 더 위험하게 만들 수 있습니다.

2. 연구자들이 만든 것: 'SIABENCH' (시험지 + 로봇)

연구팀은 AI 를 평가하기 위해 두 가지 무기를 만들었습니다.

A. 'SIABENCH' 데이터셋 (실전 훈련용 문제집)

기존에 없던 실제 보안 사고를 시뮬레이션한 문제집입니다.

구성:
1. 심층 수사 문제 (25 개): "누가 해킹했지?", "어떻게 들어왔지?", "어떤 파일을 훔쳤지?"처럼 여러 단계를 거쳐 답을 찾아야 하는 복잡한 사건들입니다. (예: 메모리 분석, 악성코드 분석 등)
2. 경보 분류 문제 (135 개): "이 경보는 진짜 해킹일까, 아니면 거짓 알람일까?"를 판단하는 문제입니다.
특징: AI 가 이미 답을 외웠을 수도 있는 문제들을 피하기 위해, 문제의 표현을 바꾸고 (패러프레이징), 특정 이름이나 숫자를 지우는 등 AI 가 '암기'하지 않고 '생각'하도록 만든 것이 특징입니다.

B. 'SIABENCH 에이전트' (AI 가 문제를 푸는 로봇)

단순히 AI 에게 문제를 보여주고 답을 듣는 게 아닙니다. AI 가 직접 컴퓨터를 조작해서 문제를 푸는 로봇을 만들었습니다.

작동 원리:
1. 계획 세우기: "일단 PCAP 파일 (네트워크 기록) 을 열어보자."
2. 도구 사용: 직접 명령어를 입력해 (예: tshark) 데이터를 분석합니다.
3. 요약하기: 결과가 너무 길면 AI 가 핵심만 요약해서 다음 단계로 넘어갑니다.
4. 반복: 답을 찾을 때까지 이 과정을 반복합니다.

3. 실험 결과: AI 는 잘할까? (11 명의 후보생 평가)

연구팀은 OpenAI(GPT-5, GPT-4o 등), Anthropic(Claude), Google(Gemini), Meta(Llama) 등 최신 AI 11 개를 이 시험지에 투입했습니다.

✅ 잘한 점 (성공 사례)

최근 모델은 놀라울 정도로 발전했습니다. 특히 Claude 4.5와 GPT-5는 복잡한 수사에서도 높은 점수를 받았습니다.
거짓 경보 (False Positive) 구분: "이건 고양이 소리야, 진짜 불이야?"를 구분하는 능력은 최신 AI 가 거의 완벽에 가깝게 해냈습니다. (98% 이상 정확도)
초보 수사관 수준: 아직은 전문 수사관 (시니어) 수준은 아니지만, 초급 수사관 (주니어) 수준의 업무는 대체할 가능성이 보입니다.

❌ 못 한 점 (실패 원인)

복잡한 추론의 한계: "악성코드가 어떻게 숨겨져 있는지"를 역추적하거나, 암호화된 파일을 분석하는 등 깊은 기술적 분석에서는 여전히 실수가 많습니다.
무한 루프 (고정관념): AI 가 같은 명령어를 반복해서 입력하다가 지쳐버리는 경우가 있었습니다. (예: "파일 열어보기"를 100 번 반복)
할루시네이션 (망상): 증거가 없는데도 "아마도 이 IP 가 해커일 거야"라고 거짓으로 답을 만들어내는 경우가 있었습니다.
작은 모델의 부진: Llama 3.1 같은 오픈소스 작은 모델들은 복잡한 보안 도구 사용에 매우 서툴렀습니다.

4. 이 연구가 주는 교훈 (결론)

이 논문은 **"AI 를 바로 믿고 모든 일을 맡겨서는 안 된다"**는 메시지를 줍니다.

도구로 쓰되, 감시해야 한다: AI 는 방대한 데이터를 빠르게 훑어보고 '가짜 경보'를 걸러내는 비서로는 훌륭하지만, 최종 판단이나 복잡한 수사에는 인간 전문가의 확인이 필수적입니다.
모델 선택이 중요: 모든 AI 가 똑같은 게 아닙니다. 보안 업무에는 Claude 4.5나 GPT-5처럼 추론 능력이 뛰어난 최신 모델을 써야 합니다.
지속적인 평가 필요: AI 는 계속 발전하므로, 오늘 잘한다고 해서 내일도 잘할지는 모릅니다. SIABENCH 같은 지속적인 시험 시스템이 필요합니다.

📝 한 줄 요약

"AI 가 보안 사고 수사를 도와줄 수는 있지만, 아직은 '초급 수사관' 수준입니다. AI 를 믿기 전에, 우리가 만든 'SIABENCH'라는 시험지로 그 능력을 꼼꼼히 확인해야 합니다."

Before You Hand Over the Wheel: Evaluating LLMs for Security Incident Analysis

1. 왜 이 연구가 필요했을까요? (문제 상황)

2. 연구자들이 만든 것: 'SIABENCH' (시험지 + 로봇)

A. 'SIABENCH' 데이터셋 (실전 훈련용 문제집)

B. 'SIABENCH 에이전트' (AI 가 문제를 푸는 로봇)

3. 실험 결과: AI 는 잘할까? (11 명의 후보생 평가)

✅ 잘한 점 (성공 사례)

❌ 못 한 점 (실패 원인)

4. 이 연구가 주는 교훈 (결론)

📝 한 줄 요약

1. 문제 정의 (Problem Statement)

2. 방법론 (Methodology)

A. SIABENCH 데이터셋 구축

B. SIABENCH 에이전트 설계

C. 평가 대상

3. 주요 기여 (Key Contributions)

4. 평가 결과 (Results)

A. 전반적인 성능 (RQ1)

B. 실패 원인 분석 (RQ3)

C. 에이전트 설계의 영향 (Ablation Study, RQ6)

D. 실시간 태스크 및 알트 트라이징 (RQ5, RQ7)

5. 의의 및 결론 (Significance & Conclusion)

Before You Hand Over the Wheel: Evaluating LLMs for Security Incident Analysis

1. 왜 이 연구가 필요했을까요? (문제 상황)

2. 연구자들이 만든 것: 'SIABENCH' (시험지 + 로봇)

A. 'SIABENCH' 데이터셋 (실전 훈련용 문제집)

B. 'SIABENCH 에이전트' (AI 가 문제를 푸는 로봇)

3. 실험 결과: AI 는 잘할까? (11 명의 후보생 평가)

✅ 잘한 점 (성공 사례)

❌ 못 한 점 (실패 원인)

4. 이 연구가 주는 교훈 (결론)

📝 한 줄 요약

1. 문제 정의 (Problem Statement)

2. 방법론 (Methodology)

A. SIABENCH 데이터셋 구축

B. SIABENCH 에이전트 설계

C. 평가 대상

3. 주요 기여 (Key Contributions)

4. 평가 결과 (Results)

A. 전반적인 성능 (RQ1)

B. 실패 원인 분석 (RQ3)

C. 에이전트 설계의 영향 (Ablation Study, RQ6)

D. 실시간 태스크 및 알트 트라이징 (RQ5, RQ7)

5. 의의 및 결론 (Significance & Conclusion)

유사한 논문

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities