AttackSeqBench: Benchmarking the Capabilities of LLMs for Attack Sequences Understanding

이 논문은 사이버 위협 인텔리전스 보고서의 비정형적 특성을 해결하고 LLM 의 공격 시퀀스 이해 및 추론 능력을 체계적으로 평가하기 위해 'AttackSeqBench'라는 새로운 벤치마크와 데이터셋을 제안하고, 다양한 모델과 전략을 통해 해당 도메인에서의 장단점을 분석한 연구입니다.

Haokai Ma, Javier Yong, Yunshan Ma, Kuei Chen, Anis Yusof, Zhenkai Liang, Ee-Chien Chang

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 1. 배경: 해커의 '공격 일지'를 읽는 일

상상해 보세요. 해커들이 어떤 조직을 공격할 때, 단순히 한 번에 뚫는 게 아니라 여러 단계를 거쳐 침투합니다.

  1. 피싱 메일로 문 열기 (초기 접근)
  2. 컴퓨터에 악성코드 심기 (실행)
  3. 관리자 권한 얻기 (권한 상승)
  4. 중요한 데이터 훔쳐가기 (유출)

이런 복잡한 공격 과정은 CTI(사이버 위협 정보) 보고서라는 긴 문서에 기록되어 있습니다. 하지만 이 보고서들은 글이 너무 길고 복잡해서, 보안 전문가들이 손으로 하나하나 분석하는 건 정말 힘든 일입니다.

그래서 사람들은 **"AI(대형 언어 모델, LLM) 가 이걸 대신 읽어주고 분석해 주면 어떨까?"**라고 생각했습니다.

📝 2. 문제점: AI 는 '단어'는 잘 알아도 '줄거리'는 못 읽음

기존의 AI 시험들은 AI 가 해커의 이름이나 악성코드 종류 같은 **단순한 정보 (사실)**를 찾아내는 능력만 테스트했습니다.
하지만 실제 해킹은 **시간의 흐름에 따른 '공격 순서 (Attack Sequence)'**가 핵심입니다.

  • "A 를 한 다음에 B 를 했을 때, C 가 가능할까?"
  • "이 순서가 아니라면, 해커가 이렇게 행동할 리가 없지."

지금까지의 AI 는 이런 복잡한 논리적 흐름과 시간적 순서를 이해하는 데는 아직 서툴렀습니다. 마치 단어는 다 알지만, 소설의 줄거리나 인과관계를 이해하지 못하는 학생과 비슷합니다.

🎯 3. 해결책: AttackSeqBench (새로운 시험지)

연구팀은 AI 의 능력을 제대로 측정하기 위해 AttackSeqBench라는 새로운 시험지를 만들었습니다. 이 시험지는 세 가지 중요한 특징을 가집니다.

  1. 확장성 (Extensibility): 해커들은 새로운 방법을 계속 개발합니다. 이 시험지는 새로운 해킹 사례가 나오면 자동으로 문제를 만들어낼 수 있어, 시대에 맞춰 계속 업데이트됩니다.
  2. 추론 능력 (Reasoning): 단순히 기억하는 게 아니라, "왜 이렇게 했을까?"를 추론하는 능력을 봅니다.
  3. 전문 지식 (Domain Knowledge): 사이버 보안이라는 특수한 분야의 지식을 얼마나 잘 활용하는지 봅니다.

🧪 4. 실험 결과: AI 들의 실력은?

연구팀은 최신 AI 모델 7 개와, 추론에 특화된 '생각하는 AI'(LRM) 5 개를 이 시험지에 응시시켰습니다. 결과는 조금 놀라웠습니다.

  • 일반 AI vs. 생각하는 AI: 수학이나 코딩 문제에서는 '생각하는 AI'가 압도적으로 잘했지만, 해킹 순서를 이해하는 문제에서는 오히려 일반 AI 가 더 잘하거나 비슷하게 나왔습니다.
    • 비유: "생각하는 AI"는 복잡한 수학 문제를 풀 때는 천재지만, 해커의 심리를 파악하는 수사극에서는 오히려 너무 깊게 생각하다가 헷갈려서 틀리는 경우가 많았습니다.
  • 맥락의 중요성: AI 가 보고서 전체 내용을 함께 읽을 때 (Context 설정) 는 훨씬 잘했지만, 외부 자료를 찾아서 답을 구하는 방식 (RAG) 은 오히려 정보를 잘못 섞어서 답을 틀리는 경우가 많았습니다.

💡 5. 결론 및 시사점

이 연구는 우리에게 중요한 메시지를 줍니다.

"AI 가 해킹을 분석하려면, 단순히 많은 지식을 쌓는 것보다 '공격의 흐름 (순서)'을 논리적으로 이해하는 훈련이 더 중요합니다."

지금까지의 AI 는 해커의 행동을 조각조각만 보고 있었지만, 앞으로는 해커의 '공격 시나리오' 전체를 하나의 이야기처럼 이해할 수 있도록 발전해야 합니다. 이 연구는 그런 AI 를 만들기 위한 첫걸음이자, 앞으로의 방향을 제시하는 나침반이 될 것입니다.


한 줄 요약:

"해커들의 복잡한 공격 순서를 AI 가 얼마나 잘 이해하는지 측정하는 새로운 시험지를 만들었더니, 무조건 많이 생각하는 AI 보다 오히려 순서와 맥락을 잘 파악하는 AI 가 더 잘한다는 놀라운 사실이 밝혀졌습니다!"

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →