CyberThreat-Eval: Can Large Language Models Automate Real-World Threat Research?

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"거대 언어 모델 (LLM, 예: ChatGPT 등) 이 사이버 보안 전문가를 대신해 해킹 위협을 분석할 수 있을까?"**라는 질문에 대한 답을 찾는 연구입니다.

마치 **"신입 사원 (AI) 을 채용해서 베테랑 탐정 (보안 분석가) 의 업무를 시켜보려 했더니, 실력은 좋지만 아직 부족한 점이 많았다"**는 이야기라고 생각하시면 됩니다.

주요 내용을 일상적인 비유로 설명해 드릴게요.

1. 문제점: 왜 기존 테스트는 안 될까? (실제 업무 vs 시험 문제)

지금까지 AI 를 평가할 때는 주로 **"객관식 문제"**를 풀게 했습니다.

기존 방식: "이 해킹 사건의 범인은 A, B, C 중 누구인가?" (정답을 고르는 것)
현실: 실제 보안 전문가들은 객관식 문제를 풀지 않습니다. 수천 개의 뉴스 기사 중 **"어떤 기사가 진짜 위험한지 골라내고 (선별)", "더 자세한 증거를 찾아서 (심층 검색)", "이해하기 쉬운 보고서로 작성 (보고서 초안)"**하는 복잡한 과정을 거칩니다.

게다가 기존 평가는 **"단어 겹침"**만 보았습니다.

비유: 학생이 쓴 리포트를 평가할 때, "선생님이 쓴 글과 똑같은 단어가 몇 개나 들어갔나?"만 세는 겁니다. 하지만 실제로는 **"내용이 얼마나 구체적이고, actionable(실제 행동에 도움이 되는가)"**가 훨씬 중요합니다.

2. 새로운 도구: '사이버위협-평가 (CyberThreat-Eval)'

연구팀은 마이크로소프트의 실제 보안 팀에서 일하는 전문가들의 실제 업무 데이터를 모아서 새로운 시험지를 만들었습니다. 이를 **'CyberThreat-Eval'**이라고 부릅니다.

이 시험지는 AI 에게 다음 3 단계 업무를 시킵니다:

선별 (Triage): "이 뉴스 기사, 우리가 봐야 할 중요한 건가? 아니면 그냥 소문인가?" (구별하기)
심층 검색 (Deep Search): "이 사건에 대해 더 자세한 정보가 있는 다른 기사나 블로그는 없을까?" (추가 정보 찾기)
보고서 작성 (TI Drafting): "모든 정보를 모아 해커가 누구인지, 어떻게 공격했는지, 우리가 어떻게 막아야 하는지 보고서로 써줘." (종합 정리)

3. 실험 결과: AI 는 잘하지만, 아직 '베테랑'은 못 됨

AI 모델들을 이 시험지에 대입해 봤더니 재미있는 결과가 나왔습니다.

좋았던 점 (기억력):
- AI 는 **"중요한 기사를 놓치지 않고 다 찾아내는 능력 (Recall)"**은 매우 뛰어났습니다. 마치 도서관에서 책 제목만 보고 "이거 중요해!"라고 다 외쳐대는 열정적인 사서 같았습니다.
- 근본 원인 분석: "왜 해킹이 일어났나?" (기술적 원인) 에 대해서는 꽤 잘 설명했습니다.
부족했던 점 (판단력과 디테일):
- 과잉 반응: 중요하지 않은 기사까지 다 "중요하다!"라고 골라내서 전문가들의 업무를 오히려 늘렸습니다. (정확도 부족)
- 기술적 오류: 해커의 공격 기법 (MITRE ATT&CK) 을 잘못 분류하거나, 해킹 도구 (IoC) 를 엉뚱한 것으로 착각하는 '환각 (Hallucination)' 현상이 자주 발생했습니다.
- 맥락 부족: "해커는 A 그룹이야"라고만 말하지, "이 그룹은 과거에 이런 식으로 공격했고, 이런 특징이 있어"라는 전문가다운 깊이 있는 맥락을 설명하지 못했습니다.

4. 해결책: 'TRA(위협 연구 에이전트)' 시스템

AI 가 혼자서 모든 일을 하기는 어렵습니다. 그래서 연구팀은 AI + 인간 전문가 + 외부 데이터베이스가 함께 일하는 **'TRA'**라는 시스템을 만들었습니다.

비유: AI 가 초보 탐정이라면, TRA 는 **"AI 가 조사한 내용을 베테랑 형사가 다시 한번 확인하고, 외부 증거 (VirusTotal 같은 곳) 를 대조하며, 최종 보고서를 다듬는 협업 시스템"**입니다.
효과:
- AI 가 찾아낸 정보가 맞는지 외부 데이터베이스로 검증해 줍니다. (예: 이 IP 주소가 정말 해커의 것일까?)
- 인간 전문가가 "이 부분은 더 자세히 써줘"라고 피드백을 주면, AI 가 그걸 배워서 다음엔 더 잘합니다.
- 그 결과, AI 가 쓴 보고서가 "출판 준비 완료 (Publish-ready)" 수준으로 퀄리티가 크게 향상되었습니다.

5. 결론: AI 는 훌륭한 '조수'지만, '책임자'는 아직 인간

이 논문의 핵심 메시지는 다음과 같습니다:

"AI 는 방대한 정보를 빠르게 찾아내고 초안을 작성하는 데는 탁월하지만, 정확한 판단과 복잡한 추론, 그리고 책임감 있는 최종 결정은 아직 인간 전문가의 도움이 필요합니다."

한 줄 요약:
AI 는 사이버 보안 팀의 **'초고속 정보 수집 보조'**로 쓸모는 있지만, 아직은 **'독립적인 보안 전문가'**로 바로 투입하기엔 검증과 인간의 감독이 꼭 필요합니다. 우리는 AI 를 믿고 맡기기보다, AI 와 인간이 손잡고 일하는 'TRA' 같은 시스템을 만들어야 합니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

사이버 위협 인텔리전스 (CTI) 분야에서 오픈 소스 지능 (OSINT) 분석은 위협 보고서 작성의 핵심이지만, 현재 대규모 데이터 처리를 자동화하기 위한 LLM(대형 언어 모델) 평가에는 다음과 같은 심각한 한계가 존재합니다.

비현실적인 작업 형식: 기존 벤치마크는 다중 선택형 문제 (Multiple-choice) 나 사실 회상 (Fact-recall) 과 같은 퀴즈 형식을 주로 사용합니다. 그러나 실제 보안 분석가는 이러한 형식으로 업무를 수행하지 않으며, 증거를 위협 행위자 (Threat Actor) 와 연결하거나 비즈니스 리스크를 평가하는 등 복잡한 의사결정 과정이 필요합니다.
모델 중심의 평가 지표: ROUGE 나 BERTScore 와 같은 기존 지표는 어휘적 겹침 (Lexical overlap) 에 중점을 두어, 분석가가 실제로 선호하는 구체적이고 실행 가능한 인사이트 (Actionable insights) 가 풍부한 요약문을 평가하지 못합니다.
워크플로우의 불완전한 커버리지: 실제 CTI 분석은 1) 트라이지 (Triage, 우선순위 선정), 2) 딥 서치 (Deep Search, 추가 증거 수집), 3) TI 초안 작성 (Drafting) 의 3 단계로 이루어진 종단간 (End-to-End) 워크플로우입니다. 기존 벤치마크는 이 중 특정 단계나 단일 작업만 평가할 뿐, 전체 워크플로우를 아우르는 평가 체계가 부재합니다.

2. 방법론 (Methodology)

A. CyberThreat-Eval 벤치마크 구축

저자는 글로벌 기술 기업의 실제 CTI 팀에서 수집한 데이터를 기반으로 CyberThreat-Eval이라는 새로운 전문가 주석 (Expert-annotated) 벤치마크를 제안합니다.

데이터 구성: 488 개의 트라이지 기사, 55 개의 딥 서치 URL, 412 개의 TI 초안 작성용 기사 등 총 3 단계 워크플로우를 반영한 데이터셋을 포함합니다.
평가 태스크:
1. 트라이지: 기사의 수용/거부 결정 및 우선순위 점수 부여.
2. 딥 서치: 시드 (Seed) 기사와 관련된 추가 정보 (새로운 사실, 기술적 세부사항 등) 를 제공하는 URL 검색 및 평가.
3. TI 초안 작성: IoC(침해 지표) 추출, MITRE ATT&CK TTP 매핑, 위협 행위자 및 사고 근본 원인 (Root Cause) 에 대한 서술형 보고서 생성.
평가 지표: 분석가 중심 (Analyst-centric) 지표를 도입하여 사실적 정확도, 콘텐츠 품질 (관련성, 명확성, 일관성 등), 운영 비용 (처리 시간, 토큰 사용량) 을 측정합니다.

B. 실험 설정

평가 모델: GPT-4o, o3-mini(기반 모델) 와 이를 2024 년 CTI 데이터로 파인튜닝한 모델 (GPT-4o-FT, GPT-4o-mini-FT) 을 비교 평가했습니다.
평가 방식: 'LLM-as-Judge' 패러다임을 활용하여 생성된 보고서의 품질을 6 가지 차원 (관련성, 정확성, 포괄성, 명확성, 일관성, 출처) 으로 점수화했습니다.

C. Threat Research Agent (TRA) 프레임워크

LLM 의 한계를 보완하기 위해 TRA라는 인간 - 루프 (Human-in-the-loop) 기반의 에이전트 시스템을 제안했습니다.

구조: LLM 이 초기 검색 및 초안 작성 $\rightarrow$ 외부 지식 베이스 (VirusTotal 등) 를 통한 기술적 사실 검증 $\rightarrow$ 전문가 피드백을 통한 반복적 개선의 사이클을 수행합니다.
핵심 기능: 환각 (Hallucination) 방지, IoC/TTP 정확도 향상, 도메인 전문가의 맥락적 지식을 반영한 콘텐츠 심화.

3. 주요 결과 (Key Results)

A. LLM 성능 분석

트라이지 (Triage): LLM 은 관련 기사를 찾는 **Recall(재현율)**은 매우 높음 (>0.90) 이나, 불필요한 기사를 수용하는 **Precision(정확도)**은 낮음 (<0.40). 이로 인해 분석가의 업무 부하가 증가할 수 있음.
딥 서치 (Deep Search): 기반 모델 (GPT-4o, o3-mini) 이 파인튜닝된 모델보다 더 많은 유용한 URL 을 검색함. 파인튜닝 모델은 특정 지식에 의존하여 외부 검색을 덜 수행하는 경향이 있음.
TI 초안 작성 (Drafting):
- IoC 추출: 높은 정확도를 보이나, o3-mini 는 정확도가 높지만 처리 시간과 토큰 비용이 매우 큼.
- TTP 매핑: 모든 모델이 MITRE ATT&CK TTP 식별 및 매핑에서 저조한 성능 (Precision < 0.35) 을 보임. 복잡한 추론이 필요한 작업임.
- 콘텐츠 생성: 사고의 **근본 원인 (Root Cause)**을 설명하는 능력은 상대적으로 우수하나, **위협 행위자 (Threat Actor)**의 프로필을 포괄적이고 심층적으로 작성하는 능력은 부족함 (단순한 사실 나열에 그침).

B. TRA 의 효과

TRA 프레임워크를 적용한 결과, 기존 LLM 대비 다음과 같은 개선이 확인되었습니다.

정확도 향상: IoC 추출 정밀도가 약 26%p 상승, TTP 식별 정밀도도 유의미하게 개선됨 (예: o3-mini 기준 0.28 $\rightarrow$ 0.42).
품질 향상: 위협 행위자 및 근본 원인 서술에 대한 전문가 평가 점수가 4.5/5.0 이상으로 크게 상승하여 '출판 준비 (Publish-ready)' 수준 도달.
효율성: 일부 모델에서 처리 지연 시간 (Latency) 이 감소하는 효과도 관찰됨.

4. 주요 기여 (Key Contributions)

CyberThreat-Eval 벤치마크: 실제 분석가 워크플로우 (트라이지, 딥 서치, 초안 작성) 를 반영한 최초의 종단간 CTI 평가 벤치마크를 제시했습니다.
분석가 중심 평가 지표: 단순한 텍스트 겹침이 아닌, 사실적 정확도, 실행 가능성, 운영 비용 (시간/토큰) 을 포함한 새로운 평가 체계를 도입했습니다.
TRA 프레임워크: 외부 지식 베이스와 인간 전문가 피드백을 통합하여 LLM 의 환각을 줄이고 전문성을 높이는 실용적인 자동화 솔루션을 제안하고 실제 기업 환경에 통합했습니다.
실증적 통찰: 현재 LLM 이 정보 검색에는 강하지만, 정밀한 우선순위 선정, 복잡한 TTP 추론, 그리고 비용 효율성 측면에서 한계가 있음을 규명했습니다.

5. 의의 및 결론 (Significance)

이 논문은 LLM 이 사이버 위협 연구 분야에서 완전한 자동화를 달성하기 위해서는 단순한 모델 성능 향상을 넘어, 실제 업무 워크플로우에 부합하는 평가 체계와 외부 지식 및 인간 전문가의 검증 루프가 필수적임을 강조합니다.

현실적 한계 인식: LLM 은 초기 정보 수집과 초안 작성의 보조 도구로는 유용하지만, 단독으로 신뢰할 수 있는 CTI 보고서를 생성하기에는 TTP 추론 및 사실 검증 능력에서 여전히 부족함이 있음을 입증했습니다.
미래 방향: TRA 와 같은 인간 - AI 협업 (Human-in-the-loop) 시스템이 실제 보안 운영 (SecOps) 환경에서 분석가의 업무 효율을 극대화하고 신뢰할 수 있는 위협 인텔리전스를 생산하는 핵심 열쇠가 될 것입니다.

이 연구는 사이버 보안 분야에서 LLM 의 적용 가능성을 검증하고, 보다 안전하고 실용적인 자동화 시스템을 구축하기 위한 중요한 기준을 제시합니다.