Before You Hand Over the Wheel: Evaluating LLMs for Security Incident Analysis

이 논문은 보안 사고 분석 (SIA) 의 복잡성과 벤치마킹 부재를 해결하기 위해, 다양한 SIA 태스크를 수행할 수 있는 에이전트와 대규모 데이터셋을 포함한 평가 프레임워크 'SIABENCH'를 제안하고 11 개의 주요 LLM 을 평가합니다.

Sourov Jajodia, Madeena Sultana, Suryadipta Majumdar, Adrian Taylor, Grant Vandenberghe

게시일 Mon, 09 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"AI(거대 언어 모델) 가 보안 전문가를 대신해 해킹 사고를 조사할 수 있을까?"**라는 질문에 답하기 위해 진행된 실험 결과입니다.

비유하자면, 이 연구는 **"새로운 AI 수사관 후보생 11 명을 뽑아, 실제 범죄 현장 (보안 사고) 에서 그들이 얼마나 잘 일하는지 시험하는 시험지 (벤치마크) 를 만든 이야기"**입니다.

핵심 내용을 쉽게 풀어서 설명해 드릴게요.


1. 왜 이 연구가 필요했을까요? (문제 상황)

보안 센터 (SOC) 에서는 매일 수천 개의 '경보'가 울립니다. 마치 불이 났을 때 소방서로 수천 개의 전화가 걸려오는 상황과 비슷합니다.

  • 현실: 대부분의 경보는 거짓입니다 (고양이가 지나가서 센서가 울린 경우). 하지만 진짜 불 (해킹) 이 났을 때를 놓치면 큰일이 납니다.
  • 기대: 기업들은 "AI 가 이 수많은 경보를 먼저 보고, 진짜 불인지 가짜 불인지 골라내면 좋겠다"고 생각했습니다.
  • 문제: 하지만 "이 AI 가 정말 잘할까?"를 검증할 공식 시험지가 없었습니다. 그냥 AI 를 쓰다가 실수하면 오히려 보안을 더 위험하게 만들 수 있습니다.

2. 연구자들이 만든 것: 'SIABENCH' (시험지 + 로봇)

연구팀은 AI 를 평가하기 위해 두 가지 무기를 만들었습니다.

A. 'SIABENCH' 데이터셋 (실전 훈련용 문제집)

기존에 없던 실제 보안 사고를 시뮬레이션한 문제집입니다.

  • 구성:
    1. 심층 수사 문제 (25 개): "누가 해킹했지?", "어떻게 들어왔지?", "어떤 파일을 훔쳤지?"처럼 여러 단계를 거쳐 답을 찾아야 하는 복잡한 사건들입니다. (예: 메모리 분석, 악성코드 분석 등)
    2. 경보 분류 문제 (135 개): "이 경보는 진짜 해킹일까, 아니면 거짓 알람일까?"를 판단하는 문제입니다.
  • 특징: AI 가 이미 답을 외웠을 수도 있는 문제들을 피하기 위해, 문제의 표현을 바꾸고 (패러프레이징), 특정 이름이나 숫자를 지우는 등 AI 가 '암기'하지 않고 '생각'하도록 만든 것이 특징입니다.

B. 'SIABENCH 에이전트' (AI 가 문제를 푸는 로봇)

단순히 AI 에게 문제를 보여주고 답을 듣는 게 아닙니다. AI 가 직접 컴퓨터를 조작해서 문제를 푸는 로봇을 만들었습니다.

  • 작동 원리:
    1. 계획 세우기: "일단 PCAP 파일 (네트워크 기록) 을 열어보자."
    2. 도구 사용: 직접 명령어를 입력해 (예: tshark) 데이터를 분석합니다.
    3. 요약하기: 결과가 너무 길면 AI 가 핵심만 요약해서 다음 단계로 넘어갑니다.
    4. 반복: 답을 찾을 때까지 이 과정을 반복합니다.

3. 실험 결과: AI 는 잘할까? (11 명의 후보생 평가)

연구팀은 OpenAI(GPT-5, GPT-4o 등), Anthropic(Claude), Google(Gemini), Meta(Llama) 등 최신 AI 11 개를 이 시험지에 투입했습니다.

✅ 잘한 점 (성공 사례)

  • 최근 모델은 놀라울 정도로 발전했습니다. 특히 Claude 4.5GPT-5는 복잡한 수사에서도 높은 점수를 받았습니다.
  • 거짓 경보 (False Positive) 구분: "이건 고양이 소리야, 진짜 불이야?"를 구분하는 능력은 최신 AI 가 거의 완벽에 가깝게 해냈습니다. (98% 이상 정확도)
  • 초보 수사관 수준: 아직은 전문 수사관 (시니어) 수준은 아니지만, 초급 수사관 (주니어) 수준의 업무는 대체할 가능성이 보입니다.

❌ 못 한 점 (실패 원인)

  • 복잡한 추론의 한계: "악성코드가 어떻게 숨겨져 있는지"를 역추적하거나, 암호화된 파일을 분석하는 등 깊은 기술적 분석에서는 여전히 실수가 많습니다.
  • 무한 루프 (고정관념): AI 가 같은 명령어를 반복해서 입력하다가 지쳐버리는 경우가 있었습니다. (예: "파일 열어보기"를 100 번 반복)
  • 할루시네이션 (망상): 증거가 없는데도 "아마도 이 IP 가 해커일 거야"라고 거짓으로 답을 만들어내는 경우가 있었습니다.
  • 작은 모델의 부진: Llama 3.1 같은 오픈소스 작은 모델들은 복잡한 보안 도구 사용에 매우 서툴렀습니다.

4. 이 연구가 주는 교훈 (결론)

이 논문은 **"AI 를 바로 믿고 모든 일을 맡겨서는 안 된다"**는 메시지를 줍니다.

  • 도구로 쓰되, 감시해야 한다: AI 는 방대한 데이터를 빠르게 훑어보고 '가짜 경보'를 걸러내는 비서로는 훌륭하지만, 최종 판단이나 복잡한 수사에는 인간 전문가의 확인이 필수적입니다.
  • 모델 선택이 중요: 모든 AI 가 똑같은 게 아닙니다. 보안 업무에는 Claude 4.5GPT-5처럼 추론 능력이 뛰어난 최신 모델을 써야 합니다.
  • 지속적인 평가 필요: AI 는 계속 발전하므로, 오늘 잘한다고 해서 내일도 잘할지는 모릅니다. SIABENCH 같은 지속적인 시험 시스템이 필요합니다.

📝 한 줄 요약

"AI 가 보안 사고 수사를 도와줄 수는 있지만, 아직은 '초급 수사관' 수준입니다. AI 를 믿기 전에, 우리가 만든 'SIABENCH'라는 시험지로 그 능력을 꼼꼼히 확인해야 합니다."