What Are Adversaries Doing? Automating Tactics, Techniques, and Procedures Extraction: A Systematic Review

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"해커들이 뭘 하고 있는지 알아내는 자동화 시스템"**에 대한 연구들을 총정리한 보고서입니다.

비유하자면, 이 논문은 **"수사관들이 매일 쏟아지는 수만 건의 범죄 수사 보고서 (CTI) 를 읽어서, 범인의 수법 (TTP) 을 자동으로 찾아내는 기술들"**을 분석한 것입니다.

이 내용을 일반인이 이해하기 쉽게 4 가지 핵심 포인트로 나누어 설명해 드릴게요.

1. 왜 이 연구가 필요한가요? (문제 상황)

해커들은 계속 새로운 수법을 개발합니다. 마치 도둑이 자물쇠를 뚫는 방법을 매일 바꿔놓는 것과 같습니다.

현실: 보안 전문가들은 해커들의 수법 (Tactics, Techniques, Procedures) 을 분석해서 방어책을 마련해야 합니다.
문제: 해커들의 수법이 담긴 보고서가 너무 많고, 글로 쓰여 있어서 사람이 일일이 읽으려면 시간이 너무 걸립니다.
목표: 컴퓨터가 이 보고서들을 읽어서 **"해커가 어떤 목적 (Tactic) 으로, 어떤 방법 (Technique) 을 썼는지"**를 자동으로 찾아내게 하자는 것입니다.

2. 연구팀은 무엇을 했나요? (방법론)

저희 연구팀은 이 분야에서 나온 80 편의 학술 논문을 꼼꼼히 읽었습니다. 마치 수사관들이 과거의 모든 수사 기록을 뒤져서 "어떤 기술이 가장 잘 작동했는지"를 정리하는 것과 같습니다.

그들은 이 논문들을 다음과 같이 분류했습니다:

무엇을 찾으려 했나? (해커의 목적 찾기, 구체적인 수법 찾기, 증거 찾기 등)
어디서 자료를 얻었나? (보안 회사 보고서, 해킹 포럼, 시스템 로그 등)
어떻게 분석했나? (단순 규칙 찾기, 인공지능 (AI) 학습, 최신 거대 언어 모델 (LLM) 사용 등)

3. 어떤 흐름이 발견되었나요? (주요 발견)

이 논문들을 분석한 결과, 몇 가지 흥미로운 흐름이 드러났습니다.

과거 vs 현재: 예전에는 "단어만 찾아라" 같은 단순한 규칙을 썼다면, 지금은 BERT, SecureBERT 같은 똑똑한 AI 가 문맥을 이해하며 분석합니다. 최근에는 **ChatGPT 같은 거대 언어 모델 (LLM)**을 써서 해커의 수법을 더 잘 추론하려는 시도가 늘고 있습니다.
가장 인기 있는 작업: 대부분의 연구가 **"어떤 수법 (Technique) 을 썼는지 분류하기"**에 집중했습니다. 하지만 **"해커가 어떤 목적 (Tactic) 을 가졌는지"**나 **"보고서에서 특정 수법을 찾아내기"**는 상대적으로 덜 연구되었습니다.
지식 그래프 (Knowledge Graph): 단순히 단어를 찾는 것을 넘어, 해커, 악성코드, 공격 방법 사이의 연결고리를 그림으로 그려서 (지식 그래프) 전체적인 공격 패턴을 파악하려는 시도도 늘고 있습니다.

4. 아직 해결되지 않은 문제점은 무엇인가요? (한계점)

기술이 발전했지만, 아직 몇 가지 큰 걸림돌이 있습니다.

데이터의 비밀주의: 많은 연구가 비밀스러운 데이터나 공개되지 않은 데이터를 썼습니다. 마치 "이 수사 기술은 훌륭해요"라고 말하면서 정작 수사 기록 (데이터) 과 코드는 공개하지 않는 것과 같습니다. 그래서 다른 연구자들이 그 결과를 검증하거나 다시 쓰기 어렵습니다.
단순한 평가: 실제 해커는 한 번에 여러 수법을 섞어 쓰는데, 많은 연구는 **"한 번에 하나의 수법만 찾으면 된다"**는 단순한 가정으로 실험을 합니다. 이는 현실과 동떨어진 결과일 수 있습니다.
재현성 부족: "우리가 이걸 만들었어요"라고 말하지만, 다른 사람이 똑같이 따라 할 수 있는 **자재 (코드, 데이터)**가 없는 경우가 많습니다.

5. 앞으로 어떻게 해야 할까요? (제안)

이 논문은 앞으로의 연구를 위해 다음과 같은 방향을 제안합니다.

현실적인 데이터 공개: 실제 보안 전문가들이 쓰는 messy(지저분하고 복잡한) 보고서로 만든 공개 데이터셋이 필요합니다.
복잡한 상황 고려: 해커가 여러 수법을 동시에 쓴다는 점을 고려한 정교한 평가 방법이 필요합니다.
맥락 이해: 문장 하나하나를 보는 것을 넘어, 보고서 전체의 흐름과 맥락을 이해하는 AI 가 필요합니다.

📝 한 줄 요약

이 논문은 **"해커의 수법을 자동으로 찾아내는 AI 기술"**이 얼마나 발전했는지, 그리고 **"왜 아직 완벽하지 않은지"**를 80 편의 논문을 통해 정리하고, 앞으로 **"더 현실적이고 공개적인 연구"**가 필요하다고 외치는 보고서입니다.

마치 "수사 기술의 지도를 그려서, 앞으로 더 똑똑한 수사관 (AI) 을 키우기 위한 길잡이" 역할을 한다고 볼 수 있습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

배경: 사이버 공격의 규모와 복잡성이 급격히 증가함에 따라, 방어자들은 공격자의 전술, 기법, 절차 (TTPs: Tactics, Techniques, and Procedures) 를 신속하게 이해하고 대응해야 합니다.
도전 과제: 보안 벤더와 연구 커뮤니티에서 생성되는 사이버 위협 인텔리전스 (CTI) 보고서의 양이 폭발적으로 증가하고 있습니다. 이를 수동으로 분석하여 MITRE ATT&CK 와 같은 구조화된 지식 베이스에 매핑하는 작업은 노동 집약적이며 오류가 발생하기 쉽고, 위협의 속도를 따라가지 못합니다.
연구 공백: 기존 연구들은 TTP 추출을 위한 다양한 자동화 방법 (규칙 기반, 머신러닝, 딥러닝, LLM 등) 을 제안했으나, 데이터셋, 평가 지표, 작업 정의 (Task Formulation) 등이 매우 다양하여 연구 현황을 종합적으로 이해하거나 방법론 간의 성능을 비교하기 어렵습니다. 또한, 재현성 (Reproducibility) 과 데이터 공개 부족이 큰 문제입니다.

2. 연구 방법론 (Methodology)

이 연구는 시스템적 문헌 검토 (Systematic Literature Review, SLR) 방식을 따랐으며, Kitchenham 등 [66] 의 가이드라인을 준수했습니다.

데이터 수집: IEEE Xplore, ACM Digital Library, ScienceDirect, SpringerLink, ACL 등 5 개의 주요 학술 데이터베이스를 대상으로 2015 년부터 2025 년 6 월까지의 논문을 검색했습니다.
검색 전략: "MITRE ATT&CK", "Tactics", "Techniques", "Procedures" 등의 키워드를 사용하여 3,219 건의 논문을 초기 검색했습니다.
선정 기준:
- 포함 기준: TTP 추출을 위한 새로운 방법론을 제안한 논문, 영어로 작성된 논문, 피어 리뷰 논문 등.
- 제외 기준: 비 peer-review 논문 (요약, 블로그 등), 2015 년 이전 논문, TTP 추출과 무관한 논문.
프로세스:
1. 중복 제거 및 초기 스크리닝 후 103 건 선정.
2. 프론트/백워드 스노볼링 (Snowballing) 기법을 적용하여 31 건 추가 (총 134 건).
3. 3 단계 스크리닝 (제목, 초록, 전체 텍스트) 을 거쳐 최종 80 편의 논문을 선정했습니다.
4. 선정된 80 편의 논문에 대해 오픈 코딩 (Open Coding) 기법을 적용하여 정성적 분석을 수행했습니다. (연구자 간 일치도 Cohen's Kappa = 0.86)

3. 주요 기여 및 분석 결과 (Key Contributions & Results)

연구는 80 편의 논문을 7 가지 핵심 연구 질문 (RQs) 에 따라 분석하고 다음과 같은 결과를 도출했습니다.

A. 추출 목적 (RQ1)

TTP 추출 연구는 크게 5 가지 범주로 분류되었습니다.

기법 분류 (Technique Classification, 39 건): 가장 지배적인 작업으로, CTI 텍스트를 MITRE ATT&CK 의 구체적인 '기법 (Technique)'으로 매핑합니다. 주로 CTI 보고서 (24 건) 를 기반으로 합니다.
전술 분류 (Tactic Classification, 6 건): 고수준의 공격 목적 (전술) 을 분류하는 작업으로 상대적으로 덜 연구되었습니다.
기법 검색 (Technique Searching, 5 건): 텍스트 내에서 특정 기법을 검색/추출하는 작업입니다.
IoC 추출 및 TTP (6 건): 침해 지표 (IP, 해시 등) 와 TTP 를 함께 추출합니다.
지식 그래프 구축 (Knowledge Graph Construction, 24 건): 엔티티와 관계를 추출하여 구조화된 지식 그래프를 생성합니다.

B. 데이터 소스 (RQ2)

주요 소스: 벤치마크 데이터셋 및 공개 지식 베이스 (MITRE ATT&CK, CAPEC 등, 48 건), CTI 보고서 (FireEye, Kaspersky 등, 28 건).
부족한 소스: 시스템/네트워크 로그, 취약점 데이터베이스, 악성코드 저장소 등은 상대적으로 적게 활용되어 실제 운영 환경 (Operational Environment) 과의 괴리가 존재합니다.

C. 데이터 수집 및 전처리 (RQ3)

수집: 웹 크롤링 (10 건), 커스텀 검색 엔진/API (2 건), 신뢰도 기반 수집 (2 건), 라이선스 제약 고려 (1 건) 등.
전처리: 파서 라이브러리 사용, PDF 텍스트 변환, IoC 마스킹 (Replace), 문장 분할 (Segmentation) 등이 일반적입니다.

D. 데이터 주석 및 구성 (RQ4)

주석 방식: 대부분 전문가에 의한 수동 주석 (11 건) 이나 반자동/하이브리드 방식이 사용됩니다.
품질 관리: 주석자 간 일치도 (IAA) 를 명시한 연구는 4 건에 불과하여 데이터 신뢰성에 대한 우려가 있습니다.
강화 학습: 데이터 부족을 해결하기 위해 EDA, LLM 기반 생성 등 데이터 증강 기법이 도입되고 있습니다.

E. 방법론적 접근 (RQ5)

모델 진화: 규칙 기반/전통적 ML $\rightarrow$ 딥러닝 (CNN, LSTM) $\rightarrow$ Transformer 기반 (BERT, RoBERTa, SecureBERT) $\rightarrow$ LLM 기반 (GPT, LLaMA, RAG).
트렌드: 도메인 특화 임베딩 (SecureBERT 등) 이 일반 BERT 보다 성능이 우수하며, 최근에는 LLM 을 활용한 Few-shot 학습, RAG(검색 증강 생성), 하이브리드 파이프라인 연구가 증가하고 있습니다.

F. 평가 지표 및 재현성 (RQ6, RQ7)

평가: 정밀도 (Precision), 재현율 (Recall), F1-score 가 주류이나, 다중 레이블 (Multi-label) 평가나 클래스별 세부 분석은 부족합니다.
재현성 위기:
- 코드와 데이터 모두 공개: 12.5% (10 건)
- 코드만 공개: 20.0%
- 데이터만 공개: 15.0%
- 공개 정보 없음 (비공개/불명확): 50.0%
- 이는 연구의 재현성과 벤치마킹을 심각하게 저해하는 요인입니다.

4. 연구의 의의 및 한계 (Significance & Limitations)

의의:
- TTP 추출 연구의 현재 상태를 체계적으로 매핑하여, 연구자들이 방법론, 데이터, 평가의 격차를 파악할 수 있는 로드맵을 제공합니다.
- 기존 연구들이 주로 '기법 분류'에 치중해 있었음을 지적하고, '전술 분류', '검색', '실제 운영 로그 기반 분석' 등의 미개척 영역을 제시합니다.
- 재현성 부족 문제를 강조하여 향후 연구 방향을 제시합니다.
한계 및 향후 연구 방향:
- 실제 운영 데이터 부재: 대부분 필터링된 보고서나 합성 데이터를 사용하여 실제 CTI 의 노이즈와 다양성을 반영하지 못함.
- 단순화된 평가: 단일 레이블 분류나 집계 지표만 사용하여 복잡한 TTP 관계를 제대로 평가하지 못함.
- 향후 제안:
  1. 실제 운영 CTI 기반의 고품질 공개 데이터셋 구축.
  2. 다중 레이블 및 계층적 관계를 고려한 평가 패러다임 도입.
  3. 문맥 인식 (Context-aware) 추출 모델 개발 (단일 문장이 아닌 문서 전체 맥락 이해).
  4. 재현성을 위한 코드 및 데이터 공개 문화 정착.
  5. CTI 기반 적대자 시뮬레이션 (Adversary Emulation) 연구 확대.

5. 결론

이 논문은 자동화된 TTP 추출 분야의 기술적 진보 (Transformer 및 LLM 도입) 를 인정하면서도, 데이터의 다양성 부족, 평가의 단순화, 그리고 심각한 재현성 문제를 지적합니다. 향후 연구는 더 견고하고 재현 가능하며, 실제 사이버 방어 워크플로우에 부합하는 시스템 개발에 집중해야 함을 강조합니다.