What Are Adversaries Doing? Automating Tactics, Techniques, and Procedures Extraction: A Systematic Review

이 논문은 MITRE ATT&CK 와 같은 지식 베이스에 매핑하기 위해 비정형 텍스트에서 적의 전술, 기법, 절차 (TTP) 를 자동 추출하는 80 건의 선행 연구를 체계적으로 분석하여 기술 분류가 주류이나 LLM 기반 접근법이 부상 중이며, 데이터와 평가의 제한으로 인한 재현성 및 일반화 문제를 지적합니다.

Mahzabin Tamanna, Shaswata Mitra, Md Erfan, Ahmed Ryan, Sudip Mittal, Laurie Williams, Md Rayhanur Rahman

게시일 2026-04-07
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"해커들이 뭘 하고 있는지 알아내는 자동화 시스템"**에 대한 연구들을 총정리한 보고서입니다.

비유하자면, 이 논문은 **"수사관들이 매일 쏟아지는 수만 건의 범죄 수사 보고서 (CTI) 를 읽어서, 범인의 수법 (TTP) 을 자동으로 찾아내는 기술들"**을 분석한 것입니다.

이 내용을 일반인이 이해하기 쉽게 4 가지 핵심 포인트로 나누어 설명해 드릴게요.


1. 왜 이 연구가 필요한가요? (문제 상황)

해커들은 계속 새로운 수법을 개발합니다. 마치 도둑이 자물쇠를 뚫는 방법을 매일 바꿔놓는 것과 같습니다.

  • 현실: 보안 전문가들은 해커들의 수법 (Tactics, Techniques, Procedures) 을 분석해서 방어책을 마련해야 합니다.
  • 문제: 해커들의 수법이 담긴 보고서가 너무 많고, 글로 쓰여 있어서 사람이 일일이 읽으려면 시간이 너무 걸립니다.
  • 목표: 컴퓨터가 이 보고서들을 읽어서 **"해커가 어떤 목적 (Tactic) 으로, 어떤 방법 (Technique) 을 썼는지"**를 자동으로 찾아내게 하자는 것입니다.

2. 연구팀은 무엇을 했나요? (방법론)

저희 연구팀은 이 분야에서 나온 80 편의 학술 논문을 꼼꼼히 읽었습니다. 마치 수사관들이 과거의 모든 수사 기록을 뒤져서 "어떤 기술이 가장 잘 작동했는지"를 정리하는 것과 같습니다.

그들은 이 논문들을 다음과 같이 분류했습니다:

  • 무엇을 찾으려 했나? (해커의 목적 찾기, 구체적인 수법 찾기, 증거 찾기 등)
  • 어디서 자료를 얻었나? (보안 회사 보고서, 해킹 포럼, 시스템 로그 등)
  • 어떻게 분석했나? (단순 규칙 찾기, 인공지능 (AI) 학습, 최신 거대 언어 모델 (LLM) 사용 등)

3. 어떤 흐름이 발견되었나요? (주요 발견)

이 논문들을 분석한 결과, 몇 가지 흥미로운 흐름이 드러났습니다.

  • 과거 vs 현재: 예전에는 "단어만 찾아라" 같은 단순한 규칙을 썼다면, 지금은 BERT, SecureBERT 같은 똑똑한 AI 가 문맥을 이해하며 분석합니다. 최근에는 **ChatGPT 같은 거대 언어 모델 (LLM)**을 써서 해커의 수법을 더 잘 추론하려는 시도가 늘고 있습니다.
  • 가장 인기 있는 작업: 대부분의 연구가 **"어떤 수법 (Technique) 을 썼는지 분류하기"**에 집중했습니다. 하지만 **"해커가 어떤 목적 (Tactic) 을 가졌는지"**나 **"보고서에서 특정 수법을 찾아내기"**는 상대적으로 덜 연구되었습니다.
  • 지식 그래프 (Knowledge Graph): 단순히 단어를 찾는 것을 넘어, 해커, 악성코드, 공격 방법 사이의 연결고리를 그림으로 그려서 (지식 그래프) 전체적인 공격 패턴을 파악하려는 시도도 늘고 있습니다.

4. 아직 해결되지 않은 문제점은 무엇인가요? (한계점)

기술이 발전했지만, 아직 몇 가지 큰 걸림돌이 있습니다.

  • 데이터의 비밀주의: 많은 연구가 비밀스러운 데이터공개되지 않은 데이터를 썼습니다. 마치 "이 수사 기술은 훌륭해요"라고 말하면서 정작 수사 기록 (데이터) 과 코드는 공개하지 않는 것과 같습니다. 그래서 다른 연구자들이 그 결과를 검증하거나 다시 쓰기 어렵습니다.
  • 단순한 평가: 실제 해커는 한 번에 여러 수법을 섞어 쓰는데, 많은 연구는 **"한 번에 하나의 수법만 찾으면 된다"**는 단순한 가정으로 실험을 합니다. 이는 현실과 동떨어진 결과일 수 있습니다.
  • 재현성 부족: "우리가 이걸 만들었어요"라고 말하지만, 다른 사람이 똑같이 따라 할 수 있는 **자재 (코드, 데이터)**가 없는 경우가 많습니다.

5. 앞으로 어떻게 해야 할까요? (제안)

이 논문은 앞으로의 연구를 위해 다음과 같은 방향을 제안합니다.

  • 현실적인 데이터 공개: 실제 보안 전문가들이 쓰는 messy(지저분하고 복잡한) 보고서로 만든 공개 데이터셋이 필요합니다.
  • 복잡한 상황 고려: 해커가 여러 수법을 동시에 쓴다는 점을 고려한 정교한 평가 방법이 필요합니다.
  • 맥락 이해: 문장 하나하나를 보는 것을 넘어, 보고서 전체의 흐름과 맥락을 이해하는 AI 가 필요합니다.

📝 한 줄 요약

이 논문은 **"해커의 수법을 자동으로 찾아내는 AI 기술"**이 얼마나 발전했는지, 그리고 **"왜 아직 완벽하지 않은지"**를 80 편의 논문을 통해 정리하고, 앞으로 **"더 현실적이고 공개적인 연구"**가 필요하다고 외치는 보고서입니다.

마치 "수사 기술의 지도를 그려서, 앞으로 더 똑똑한 수사관 (AI) 을 키우기 위한 길잡이" 역할을 한다고 볼 수 있습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →