AttackSeqBench: Benchmarking the Capabilities of LLMs for Attack Sequences Understanding

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 1. 배경: 해커의 '공격 일지'를 읽는 일

상상해 보세요. 해커들이 어떤 조직을 공격할 때, 단순히 한 번에 뚫는 게 아니라 여러 단계를 거쳐 침투합니다.

피싱 메일로 문 열기 (초기 접근)
컴퓨터에 악성코드 심기 (실행)
관리자 권한 얻기 (권한 상승)
중요한 데이터 훔쳐가기 (유출)

이런 복잡한 공격 과정은 CTI(사이버 위협 정보) 보고서라는 긴 문서에 기록되어 있습니다. 하지만 이 보고서들은 글이 너무 길고 복잡해서, 보안 전문가들이 손으로 하나하나 분석하는 건 정말 힘든 일입니다.

그래서 사람들은 **"AI(대형 언어 모델, LLM) 가 이걸 대신 읽어주고 분석해 주면 어떨까?"**라고 생각했습니다.

📝 2. 문제점: AI 는 '단어'는 잘 알아도 '줄거리'는 못 읽음

기존의 AI 시험들은 AI 가 해커의 이름이나 악성코드 종류 같은 **단순한 정보 (사실)**를 찾아내는 능력만 테스트했습니다.
하지만 실제 해킹은 **시간의 흐름에 따른 '공격 순서 (Attack Sequence)'**가 핵심입니다.

"A 를 한 다음에 B 를 했을 때, C 가 가능할까?"
"이 순서가 아니라면, 해커가 이렇게 행동할 리가 없지."

지금까지의 AI 는 이런 복잡한 논리적 흐름과 시간적 순서를 이해하는 데는 아직 서툴렀습니다. 마치 단어는 다 알지만, 소설의 줄거리나 인과관계를 이해하지 못하는 학생과 비슷합니다.

🎯 3. 해결책: AttackSeqBench (새로운 시험지)

연구팀은 AI 의 능력을 제대로 측정하기 위해 AttackSeqBench라는 새로운 시험지를 만들었습니다. 이 시험지는 세 가지 중요한 특징을 가집니다.

확장성 (Extensibility): 해커들은 새로운 방법을 계속 개발합니다. 이 시험지는 새로운 해킹 사례가 나오면 자동으로 문제를 만들어낼 수 있어, 시대에 맞춰 계속 업데이트됩니다.
추론 능력 (Reasoning): 단순히 기억하는 게 아니라, "왜 이렇게 했을까?"를 추론하는 능력을 봅니다.
전문 지식 (Domain Knowledge): 사이버 보안이라는 특수한 분야의 지식을 얼마나 잘 활용하는지 봅니다.

🧪 4. 실험 결과: AI 들의 실력은?

연구팀은 최신 AI 모델 7 개와, 추론에 특화된 '생각하는 AI'(LRM) 5 개를 이 시험지에 응시시켰습니다. 결과는 조금 놀라웠습니다.

일반 AI vs. 생각하는 AI: 수학이나 코딩 문제에서는 '생각하는 AI'가 압도적으로 잘했지만, 해킹 순서를 이해하는 문제에서는 오히려 일반 AI 가 더 잘하거나 비슷하게 나왔습니다.
- 비유: "생각하는 AI"는 복잡한 수학 문제를 풀 때는 천재지만, 해커의 심리를 파악하는 수사극에서는 오히려 너무 깊게 생각하다가 헷갈려서 틀리는 경우가 많았습니다.
맥락의 중요성: AI 가 보고서 전체 내용을 함께 읽을 때 (Context 설정) 는 훨씬 잘했지만, 외부 자료를 찾아서 답을 구하는 방식 (RAG) 은 오히려 정보를 잘못 섞어서 답을 틀리는 경우가 많았습니다.

💡 5. 결론 및 시사점

이 연구는 우리에게 중요한 메시지를 줍니다.

"AI 가 해킹을 분석하려면, 단순히 많은 지식을 쌓는 것보다 '공격의 흐름 (순서)'을 논리적으로 이해하는 훈련이 더 중요합니다."

지금까지의 AI 는 해커의 행동을 조각조각만 보고 있었지만, 앞으로는 해커의 '공격 시나리오' 전체를 하나의 이야기처럼 이해할 수 있도록 발전해야 합니다. 이 연구는 그런 AI 를 만들기 위한 첫걸음이자, 앞으로의 방향을 제시하는 나침반이 될 것입니다.

한 줄 요약:

"해커들의 복잡한 공격 순서를 AI 가 얼마나 잘 이해하는지 측정하는 새로운 시험지를 만들었더니, 무조건 많이 생각하는 AI 보다 오히려 순서와 맥락을 잘 파악하는 AI 가 더 잘한다는 놀라운 사실이 밝혀졌습니다!"

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

배경: 사이버 위협 인텔리전스 (CTI) 보고서는 적대자의 행동과 의도를 포착하여 방어 계획에 중요한 자료가 됩니다. 그러나 이러한 보고서들은 비정형적이고 방대한 양을 가지고 있어, 보안 전문가들이 수동으로 분석하고 공격 시퀀스 (Attack Sequences) 를 추출하는 데 큰 부담이 됩니다.
현황: 대형 언어 모델 (LLM) 은 엔티티 추출이나 지식 그래프 구축과 같은 사이버 보안 작업에서 유망한 성과를 보이고 있습니다.
한계: 기존 벤치마크들은 주로 위협 인텔리전스 추출이나 공격 귀속 (Attribution) 에 초점을 맞추고 있으며, CTI 보고서에 기술된 적대적 행동 간의 의존성과 순차적 관계 (Attack Sequences) 를 이해하고 추론하는 능력은 충분히 연구되지 않았습니다. 실제 APT(고급 지속성 위협) 공격은 단일 단계가 아닌 다단계 워크플로우로 이루어지므로, 이러한 시퀀스 이해는 미래 공격 예측에 필수적입니다.
핵심 과제: LLM 이 공격 시퀀스의 전술 (Tactics), 기법 (Techniques), 절차 (Procedures) 를 논리적으로 연결하고 추론할 수 있는지, 그리고 새로운 위협 환경과 모델 진화에 따라 확장 가능한 평가 체계가 필요한지 확인해야 합니다.

2. 방법론 (Methodology)

A. AttackSeqBench 벤치마크 구축

저자들은 MITRE ATT&CK 프레임워크를 기반으로 한 새로운 벤치마크 AttackSeqBench를 제안했습니다.

데이터 구성: 다양한 보안 벤더의 408 건의 실제 CTI 보고서를 수집하여 공격 시퀀스를 자동 추출했습니다.
- 구조: 공격 시퀀스 $S$ 는 전술 시퀀스 ( $T$ ), 기법 매핑 ( $E$ ), 절차 매핑 ( $P$ ), CTI 개요 ( $O$ ) 의 4 튜플로 정의됩니다.
- 생성 파이프라인: LLM 기반 지식 그래프 (KG) 추출, CTI 개요 작성, 그리고 질문 생성 (Q&A Generation) 을 자동화했습니다.
품질 관리 (Refinement): 생성된 Q&A 쌍의 품질을 보장하기 위해 'Self-Refine' 프레임워크를 적용했습니다. 명확성 (Clarity), 논리성 (Logical), 관련성 (Relevance), 일관성 (Consistency), 답변 가능성 (Answerability) 등 6 가지 기준을 통해 인간 전문가와 LLM 을 활용하여 평가 및 정제했습니다.
확장성 (Extensibility): 새로운 CTI 보고서가 유입될 때 자동으로 공격 시퀀스를 추출하고 Q&A 를 생성할 수 있는 파이프라인을 설계하여 벤치마크의 지속 가능한 확장을 가능하게 했습니다.

B. 평가 설정 (Benchmark Settings)

LLM 의 능력을 다양한 컨텍스트 수준에서 평가하기 위해 3 가지 설정을 도입했습니다.

Zero-Shot Setting: 외부 정보 없이 모델의 내재된 지식만으로 답변.
Context Setting: CTI 보고서의 특정 전술 요약 텍스트를 마스킹 (Masking) 하고, 나머지 문맥을 기반으로 추론 (Abductive Reasoning) 하도록 유도.
RAG-empowered Setting: 검색 증강 생성 (RAG) 을 통해 관련 ATT&CK 지식 (TTPs) 을 검색하여 모델에 제공한 후 답변하도록 유도.

C. 실험 대상

모델: 7 개의 일반 LLM (LLaMa3.1, Qwen2.5, GPT-4o 등), 5 개의 대형 추론 모델 (LRMs, 예: DeepSeek-R1, GPT-o3-mini 등).
전략: 4 가지 후처리 학습 전략 (SFT, Reasoning Distillation, RLIF, RLVR) 을 적용하여 도메인 지식 주입 효과를 검증.
작업: 전술 (Tactic), 기법 (Technique), 절차 (Procedure) 를 추론하는 3 가지 다중 선택형 및 Yes/No 질문 작업.

3. 주요 기여 (Key Contributions)

AttackSeqBench 제안: 기존 CTI 벤치마크들이 놓치고 있던 '공격 시퀀스 이해'에 특화된 최초의 체계적인 벤치마크를 구축했습니다.
LRM 의 한계 규명: 수학이나 코딩 영역에서는 강력한 성능을 보이는 대형 추론 모델 (LRMs) 이 공격 시퀀스 분석에서는 일반 LLM 보다 성능이 낮거나 유사한 수준에 머무른다는 사실을 발견했습니다.
심층 분석: 파라미터 크기, 추론 경로 (Reasoning Path), RAG 의 효과 등을 분석하여 현재 모델들이 공격 시퀀스 분석에서 실패하는 근본적인 원인 (과도한 추론, 사실 오류, 검색 정보의 오남용 등) 을 규명했습니다.

4. 실험 결과 (Results)

모델 성능 비교:
- 일반 LLM vs LRM: 대부분의 경우 LRM 이 일반 LLM 보다 공격 시퀀스 분석에서 우월한 성능을 보이지 못했습니다. 오히려 일부 LRM 은 더 낮은 정확도를 보였습니다.
- 작업별 난이도: '전술 (Tactic)' 추론 작업이 가장 어렵게 나타났으며, 이는 인간 전문가와 LLM 모두에게 공통적인 어려움으로 확인되었습니다.
- 컨텍스트의 영향: Context 설정 (마스킹된 문맥 제공) 이 Zero-shot 보다 성능을 크게 향상시켰으며, 특히 대형 모델에서 그 효과가 두드러졌습니다. 반면, RAG 설정은 오히려 노이즈를 유발하거나 모델이 검색된 정보를 맹신하여 (Over-reliance) 성능이 저하되는 경우가 많았습니다.
학습 전략의 효과:
- 후처리 학습 (SFT, RL 등) 은 Zero-shot 성능을 일부 향상시켰으나, 여전히 컨텍스트가 포함된 설정보다는 성능이 낮았습니다. 이는 도메인 특화 지식을 효과적으로 주입하기 위한 더 정교한 전략이 필요함을 시사합니다.
추론 경로 분석 (Case Study):
- LLM: 검색된 지식과 절차적 논리를 직접적으로 매칭하여 효율적으로 결론을 도출했습니다.
- LRM: 과도한 반성적 추론 (Over-thinking) 을 하다가 시간적 제약 (예: "오직 ... 이전") 을 오해하거나, 관련 없는 가능성에 집중하여 잘못된 결론을 내리는 경향이 있었습니다.
RAG 오류 분석: RAG 환경에서 발생한 오류의 59% 는 검색된 정보가 정답과 모순됨에도 불구하고 이를 통합하지 못하는 '사실적 오류 (Factual Error)'였으며, 32% 는 검색된 정보를 맹신하는 '과도한 의존 (Over-reliance)'이었습니다.

5. 의의 및 결론 (Significance)

연구 방향 제시: LLM 기반 CTI 보고서 이해 (CRU) 연구에 새로운 방향을 제시했습니다. 단순한 정보 추출을 넘어, 공격의 전술적 흐름과 논리적 의존성을 이해하는 능력이 사이버 보안 운영의 핵심임을 강조했습니다.
현실적 통찰: 현재 LRM 이 모든 복잡한 추론 작업에서 만능이 아니며, 사이버 보안과 같은 도메인 특화 지식과 논리적 일관성이 요구되는 작업에서는 오히려 단순한 LLM 이나 잘 설계된 컨텍스트 활용이 더 효과적일 수 있음을 보여줍니다.
실용적 가치: AttackSeqBench 는 향후 사이버 보안 도메인 특화 모델 개발, RAG 전략 개선, 그리고 자동화된 위협 인텔리전스 마이닝 시스템 구축을 위한 중요한 기준점 (Benchmark) 으로 활용될 것입니다.

이 논문은 사이버 보안 분야에서 LLM 의 실제 적용 가능성을 평가하고, 그 한계를 명확히 함으로써 보다 안전하고 신뢰할 수 있는 AI 기반 보안 솔루션 개발의 기초를 마련했다는 점에서 의의가 큽니다.