Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

이 논문은 2024 년 8 월부터 2026 년 2 월까지 출시된 7 가지 최첨단 AI 모델을 기업 네트워크 및 산업 제어 시스템 사이버 공격 시나리오에서 평가한 결과, 추론 시 계산량 증가와 모델 세대 발전에 따라 다단계 공격 수행 능력이 비약적으로 향상되었음을 보여줍니다.

Linus Folkerts, Will Payne, Simon Inman, Philippos Giavridis, Joe Skinner, Sam Deverett, James Aung, Ekin Zorer, Michael Schmatz, Mahmoud Ghanem, John Wilkinson, Alan Steer, Vy Hong, Jessica Wang

게시일 2026-03-13
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 1. 실험의 배경: "AI 해커 훈련장"

연구진은 두 가지 가상의 **'해킹 훈련장 (Cyber Ranges)'**을 만들었습니다. 실제 해킹을 하는 것이 아니라, AI 가 혼자서 문제를 해결해 나가는 능력을 보기 위한 시뮬레이션입니다.

  • 훈련장 A (기업 네트워크 공격): 32 단계로 이루어진 거대한 미로입니다. AI 는 비밀번호를 찾아내고, 문을 열고, 최종적으로 금고 (기밀 데이터) 에 도달해야 합니다. (전문가가 14 시간 걸리는 작업)
  • 훈련장 B (공장 제어 시스템 공격): 7 단계로 이루어진 더 어렵고 복잡한 미로입니다. 발전소의 냉각탑을 멈추게 하려면 기계의 언어를 해독하고 직접 조작해야 합니다.

📈 2. 주요 발견: AI 는 어떻게 변했을까?

이 실험에서 두 가지 놀라운 사실을 발견했습니다.

① "돈을 더 쓰면 더 똑똑해진다" (컴퓨팅 파워의 효과)

AI 에게 더 많은 '생각할 시간' (토큰 예산) 을 주면, 그만큼 더 많은 단계를 성공적으로 완료했습니다.

  • 비유: AI 가 해킹을 할 때, 100 만 원어치思考 (생각) 를 쓰면 10 만 원어치思考를 쓸 때보다 훨씬 더 멀리 나아갑니다.
  • 결과: 생각할 시간을 10 배 늘리면, 성공률이 최대 59% 까지 올라갔습니다. 중요한 건, 이걸 위해 해커가 특별한 기술을 쓸 필요는 없다는 것입니다. 그냥 "더 많이 생각하게 해줘"라고 하면 되는 겁니다.

② "새로운 모델은 무조건 더 낫다" (모델 진화)

2024 년 8 월부터 2026 년 2 월까지 출시된 7 가지 최신 AI 모델을 비교했습니다.

  • 비유: 2024 년 모델이 1 단계만 갔다면, 2026 년 최신 모델은 같은 시간 (비용) 에 9 단계나 갔습니다. 마치 1 년 만에 초등학생이 고등학생 수준의 수학 문제를 풀게 된 것과 같습니다.
  • 최고 기록: 최신 모델 (Opus 4.6) 이 32 단계 중 22 단계를 혼자서 해결했습니다. 이는 인간 전문가가 14 시간 걸릴 일을 AI 가 약 6 시간 만에 해낸 셈입니다.

🏭 3. 하지만, 아직 한계가 있습니다

모든 것이 완벽해진 것은 아닙니다.

  • 기업 네트워크 (훈련장 A): AI 가 꽤 잘합니다. 하지만 마지막 관문 (복잡한 암호 해독, 악성코드 제작 등) 에서는 여전히 막힙니다. 인간 전문가의 지식이 필요한 부분에서는 AI 가 "이건 내가 못 해"라고 포기하거나 막힙니다.
  • 공장 제어 시스템 (훈련장 B): 여기서는 AI 가 여전히 매우 초보 수준입니다. 7 단계 중 평균 1~2 단계만 해결했습니다.
    • 흥미로운 점: AI 는 인간이 생각하지 못한 새로운 방법을 찾기도 했습니다. 예를 들어, 인간은 문 (웹사이트) 을 부수고 들어가는 방식을 썼는데, AI 는 벽 (프로토콜) 을 직접 뚫거나, 시스템의 버그를 이용해 문이 없는 곳으로 들어가는 '브루트 포스 (무작위 시도)' 방식을 썼습니다.

⚠️ 4. 이 연구가 우리에게 주는 경고

이 논문은 **"AI 해커의 위협이 현실화되고 있다"**는 것을 경고합니다.

  1. 난이도 하락: 이제 해킹을 하려면 해킹 실력이 뛰어난 '전문가'일 필요는 없습니다. AI 에게 "해킹해 줘"라고 하고, 충분한 계산 자원을 주면 초보자도 대규모 공격을 할 수 있게 됩니다.
  2. 자동화의 위험: AI 는 인간이 개입하지 않아도 스스로 실수를 수정하고, 다음 단계를 찾아내며 공격을 이어갑니다.
  3. 방어는 아직 부족: 이 실험에서는 '방어 시스템 (경보 시스템)'이 작동하지 않는 상태였습니다. 만약 실제 공격이라면 AI 가 경보를 울리며 잡힐 수도 있습니다. 하지만 AI 가 점점 더 똑똑해지면, 이 방어선을 뚫는 것도 시간 문제일 수 있습니다.

💡 요약

이 논문은 **"AI 가 해킹 훈련장에서 혼자서 미로를 빠져나가는 능력을 기르고 있다"**는 사실을 보여줍니다.

  • 과거: AI 는 1~2 걸음만 갔다.
  • 현재: 최신 AI 는 32 걸음 중 22 걸음까지 갔다.
  • 미래: AI 가 더 많은 자원을 쓰면, 인간 전문가보다 훨씬 빠르고 저렴하게 해킹을 할 수 있게 될 것입니다.

따라서 우리는 AI 의 이런 능력을 정확히 측정하고, 이에 대응할 수 있는 강력한 방어책을 마련해야 한다는 결론을 내립니다.