Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 1. 실험의 배경: "AI 해커 훈련장"

연구진은 두 가지 가상의 **'해킹 훈련장 (Cyber Ranges)'**을 만들었습니다. 실제 해킹을 하는 것이 아니라, AI 가 혼자서 문제를 해결해 나가는 능력을 보기 위한 시뮬레이션입니다.

훈련장 A (기업 네트워크 공격): 32 단계로 이루어진 거대한 미로입니다. AI 는 비밀번호를 찾아내고, 문을 열고, 최종적으로 금고 (기밀 데이터) 에 도달해야 합니다. (전문가가 14 시간 걸리는 작업)
훈련장 B (공장 제어 시스템 공격): 7 단계로 이루어진 더 어렵고 복잡한 미로입니다. 발전소의 냉각탑을 멈추게 하려면 기계의 언어를 해독하고 직접 조작해야 합니다.

📈 2. 주요 발견: AI 는 어떻게 변했을까?

이 실험에서 두 가지 놀라운 사실을 발견했습니다.

① "돈을 더 쓰면 더 똑똑해진다" (컴퓨팅 파워의 효과)

AI 에게 더 많은 '생각할 시간' (토큰 예산) 을 주면, 그만큼 더 많은 단계를 성공적으로 완료했습니다.

비유: AI 가 해킹을 할 때, 100 만 원어치思考 (생각) 를 쓰면 10 만 원어치思考를 쓸 때보다 훨씬 더 멀리 나아갑니다.
결과: 생각할 시간을 10 배 늘리면, 성공률이 최대 59% 까지 올라갔습니다. 중요한 건, 이걸 위해 해커가 특별한 기술을 쓸 필요는 없다는 것입니다. 그냥 "더 많이 생각하게 해줘"라고 하면 되는 겁니다.

② "새로운 모델은 무조건 더 낫다" (모델 진화)

2024 년 8 월부터 2026 년 2 월까지 출시된 7 가지 최신 AI 모델을 비교했습니다.

비유: 2024 년 모델이 1 단계만 갔다면, 2026 년 최신 모델은 같은 시간 (비용) 에 9 단계나 갔습니다. 마치 1 년 만에 초등학생이 고등학생 수준의 수학 문제를 풀게 된 것과 같습니다.
최고 기록: 최신 모델 (Opus 4.6) 이 32 단계 중 22 단계를 혼자서 해결했습니다. 이는 인간 전문가가 14 시간 걸릴 일을 AI 가 약 6 시간 만에 해낸 셈입니다.

🏭 3. 하지만, 아직 한계가 있습니다

모든 것이 완벽해진 것은 아닙니다.

기업 네트워크 (훈련장 A): AI 가 꽤 잘합니다. 하지만 마지막 관문 (복잡한 암호 해독, 악성코드 제작 등) 에서는 여전히 막힙니다. 인간 전문가의 지식이 필요한 부분에서는 AI 가 "이건 내가 못 해"라고 포기하거나 막힙니다.
공장 제어 시스템 (훈련장 B): 여기서는 AI 가 여전히 매우 초보 수준입니다. 7 단계 중 평균 1~2 단계만 해결했습니다.
- 흥미로운 점: AI 는 인간이 생각하지 못한 새로운 방법을 찾기도 했습니다. 예를 들어, 인간은 문 (웹사이트) 을 부수고 들어가는 방식을 썼는데, AI 는 벽 (프로토콜) 을 직접 뚫거나, 시스템의 버그를 이용해 문이 없는 곳으로 들어가는 '브루트 포스 (무작위 시도)' 방식을 썼습니다.

⚠️ 4. 이 연구가 우리에게 주는 경고

이 논문은 **"AI 해커의 위협이 현실화되고 있다"**는 것을 경고합니다.

난이도 하락: 이제 해킹을 하려면 해킹 실력이 뛰어난 '전문가'일 필요는 없습니다. AI 에게 "해킹해 줘"라고 하고, 충분한 계산 자원을 주면 초보자도 대규모 공격을 할 수 있게 됩니다.
자동화의 위험: AI 는 인간이 개입하지 않아도 스스로 실수를 수정하고, 다음 단계를 찾아내며 공격을 이어갑니다.
방어는 아직 부족: 이 실험에서는 '방어 시스템 (경보 시스템)'이 작동하지 않는 상태였습니다. 만약 실제 공격이라면 AI 가 경보를 울리며 잡힐 수도 있습니다. 하지만 AI 가 점점 더 똑똑해지면, 이 방어선을 뚫는 것도 시간 문제일 수 있습니다.

💡 요약

이 논문은 **"AI 가 해킹 훈련장에서 혼자서 미로를 빠져나가는 능력을 기르고 있다"**는 사실을 보여줍니다.

과거: AI 는 1~2 걸음만 갔다.
현재: 최신 AI 는 32 걸음 중 22 걸음까지 갔다.
미래: AI 가 더 많은 자원을 쓰면, 인간 전문가보다 훨씬 빠르고 저렴하게 해킹을 할 수 있게 될 것입니다.

따라서 우리는 AI 의 이런 능력을 정확히 측정하고, 이에 대응할 수 있는 강력한 방어책을 마련해야 한다는 결론을 내립니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 제기 (Problem)

최근 AI 모델의 능력이 향상됨에 따라, 자율적으로 사이버 공격을 수행할 수 있는지가 사이버 보안 및 AI 거버넌스의 핵심 쟁점이 되었습니다.

현황: 기존 평가들은 주로 단일 단계의 캡처 더 플래그 (CTF) 챌린지나 질문 - 답변 (Q&A) 벤치마크에 의존했습니다.
한계: 이러한 평가들은 대규모 네트워크 환경을 탐색하기 위해 필요한 자율적인 다단계 추론, 상태 추적, 오류 복구 능력을 측정하지 못합니다.
목표: 실제 오펜시브 (공격) 작전에 가까운 복잡한 네트워크 환경에서 AI 에이전트가 얼마나 긴 공격 체인 (Attack Chain) 을 자율적으로 실행할 수 있는지, 그리고 그 능력이 얼마나 빠르게 진화하는지를 정량적으로 측정하는 것입니다.

2. 방법론 (Methodology)

2.1. 평가 환경 (Cyber Ranges)

연구팀은 두 가지 목적에 맞춰 설계된 사이버 레인지 (가상 훈련 환경) 를 사용했습니다. 이 환경들은 실제 시스템의 취약점 (패치되지 않은 소프트웨어, 설정 오류, 자격 증명 재사용 등) 을 포함하지만, 적극적인 방어자 (Active Defenders) 는 존재하지 않습니다.

"The Last Ones" (기업 네트워크 공격):
- 목표: 보호된 내부 데이터베이스에서 민감한 데이터를 탈취.
- 구조: 32 단계의 공격 체인 (정찰, 횡적 이동, 데이터 탈취 등 9 개의 마일스톤 포함).
- 예상 인간 소요 시간: 약 14 시간.
"Cooling Tower" (산업 제어 시스템 (ICS) 공격):
- 목표: 가상 발전소의 냉각탑 물리 프로세스 방해.
- 구조: 7 단계의 복잡한 의존성 구조를 가진 공격 (HMI 해킹, 암호화 라이브러리 역공학, PLC 제어 등).
- 특징: 각 단계가 더 큰 작업 단위를 의미하며, 인간 전문가가 약 15 시간 소요할 것으로 추정됨.

2.2. 실험 설계 및 에이전트

평가 대상 모델: 2024 년 8 월부터 2026 년 2 월까지 출시된 7 개의 최첨단 (Frontier) 모델 (GPT-4o, Claude Sonnet 3.7/4.5, Opus 4.5/4.6, GPT 5.1/5.3 Codex 등).
에이전트 아키텍처: 표준 ReAct (Reason + Act) 패러다임 사용. Kali Linux 환경에서 Bash, Python, Mythic C2 프레임워크 명령어를 실행.
추론 비용 (Compute Budget):
- 토큰 예산: 1 천만 (10M) 토큰 및 1 억 (100M) 토큰 수준에서 테스트.
- 컨텍스트 압축 (Context Compaction): 긴 실행 시 컨텍스트 창 한계를 극복하기 위해 대화 기록을 요약하여 새로운 컨텍스트로 전달하는 기법 적용.
측정 지표: 공격 목표 달성을 위해 에이전트가 자율적으로 완료한 단계 수.

3. 주요 기여 (Key Contributions)

실제적인 오펜시브 벤치마크 도입: 단순한 CTF 를 넘어, 실제 기업 네트워크 및 ICS 환경과 유사한 다단계 공격 시나리오를 평가 도구로 제시.
장기적 진화 추적: 18 개월 동안 출시된 모델들의 성능 변화를 추론 비용 (토큰 수) 과 모델 세대별로 비교 분석.
자율성 한계와 가능성의 정량화: AI 가 특정 단계까지 자율적으로 수행할 수 있음을 보여주되, 전문 지식 (역공학, 암호학 등) 이 필요한 단계에서는 여전히 한계가 있음을 입증.

4. 주요 결과 (Results)

4.1. 추론 비용 (토큰) 증가에 따른 성능 향상

로그 - 선형 스케일링: 모델 성능은 추론 시 사용된 토큰 수에 대해 로그 - 선형 (log-linear) 으로 증가하며, 1 억 토큰까지 성능 정체 (Plateau) 가 관찰되지 않음.
비용 효율성: 토큰 예산을 1 천만에서 1 억으로 늘리면 성공률이 최대 **59%**까지 향상됨. 이는 운영자가 특별한 기술적 정교함 없이도 비용 증가만으로 성능을 높일 수 있음을 의미.
시간 단축: Opus 4.6 모델의 최상위 실행 (1 억 토큰) 은 32 단계 중 22 단계를 완료하여, 인간 전문가의 예상 소요 시간 (14 시간) 중 약 6 시간 분량의 작업을 수행함.

4.2. 모델 세대별 성능 개선

지속적인 진화: 고정된 토큰 예산 (10M) 에서도 최신 모델이 이전 모델을 능가함.
- 예시: 10M 토큰 기준, 2024 년 8 월 GPT-4o 는 평균 1.7 단계, 2026 년 2 월 Opus 4.6 은 9.8 단계를 완료.
Opus 4.6 의 비약적 발전: 2025 년 11 월 모델 (Opus 4.5) 대비 2 개월 만에 1 억 토큰 기준 평균 11.0 단계에서 15.6 단계로 42% 향상.
병목 현상: 성능은 정찰 및 웹 공격 단계 (마일스톤 4 이전) 에서 높으나, 역공학, 암호학, 멀웨어 개발이 필요한 전문 지식 단계 (마일스톤 4 이후) 에서 급격히 감소함. Opus 4.6 은 첫 번째 NTLM 릴레이 병목 구간을 극복한 최초의 모델임.

4.3. 산업 제어 시스템 (ICS) 공격 결과

제한된 성과: "Cooling Tower" 레인지에서는 성능이 여전히 제한적임.
최고 기록: 1 억 토큰 기준 Opus 4.6 은 평균 1.4 단계, 최대 2 단계를 완료. GPT 5.3 Codex 는 단일 실행에서 최대 3 단계 달성.
예상치 못한 접근: 인간은 설계된 경로 (웹 해킹 $\rightarrow$ 역공학) 를 따르지만, AI 는 프로토콜 프로빙 (Protocol Probing) 및 트래픽 분석을 통해 인증을 우회하거나 PLC 메모리를 직접 읽는 등 비전통적인 공격 경로를 발견함.

5. 의의 및 시사점 (Significance)

보안 위협의 변화: AI 는 숙련되지 않은 공격자도 복잡한 공격 체인을 수행할 수 있게 하여 진입 장벽을 낮추고, 숙련된 공격자의 공격 규모를 확대할 수 있는 잠재력을 가짐.
비용 효율적인 공격: 특정 기술적 전문성 없이도 추론 비용 (토큰) 을 늘리는 것만으로도 공격 성공률이 크게 향상됨. 이는 공격의 민주화를 의미.
현실적 한계: 현재 AI 는 완전한 자율 공격 (End-to-End) 을 수행하기에는 역부족이며, 특히 전문 지식 (Reverse Engineering 등) 이 필요한 단계에서 실패함. 그러나 인간 운영자와의 협업 (Human-in-the-loop) 을 통해 공격 속도를 가속화하는 위협 모델이 더 현실적임.
평가의 필요성: 단순한 CTF 벤치마크는 AI 의 오펜시브 능력을 과소평가할 수 있으며, 실제 네트워크 환경과 유사한 다단계 레인지 기반 평가가 필수적임.

6. 결론 및 한계

결론: 2024 년 8 월부터 2026 년 2 월까지 AI 모델의 자율 사이버 공격 능력은 추론 비용 증가와 모델 세대 교체에 따라 꾸준히 향상되었으나, ICS 환경이나 전문 지식이 필요한 단계에서는 여전히 한계가 있음.
한계: 평가 환경에 적극적 방어 (Active Defense) 가 없으며, 실제 환경보다 취약점 밀도가 높음. 또한, 탐지 회피 (Stealth) 능력은 측정되지 않음.
향후 과제: 더 다양한 도메인 평가, 실제 환경 (Real-world) 검증, 그리고 탐지 및 방어 시스템이 포함된 평가 인프라 구축이 필요함.

이 논문은 AI 의 사이버 공격 능력이 빠르게 진화하고 있음을 경고하며, 이에 대한 지속적인 모니터링과 규제 프레임워크의 중요성을 강조합니다.