Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"인공지능 (AI) 해커가 실제 인간 해커보다 더 잘 해킹할 수 있을까?"**라는 흥미로운 질문을 던지며, 스탠포드 대학 연구팀이 진행한 대규모 실험 결과를 담고 있습니다.

이 연구는 마치 실제 대학 캠퍼스라는 거대한 성벽 안으로 AI 와 인간 해커들을 동시에 투입하여, 누가 더 많은 비밀 (취약점) 을 찾아낼지 대결을 시킨 것과 같습니다.

이 복잡한 내용을 일상적인 언어와 비유로 쉽게 설명해 드릴게요.

1. 실험 배경: 왜 이 대결을 했을까요?

최근 AI 기술이 급격히 발전하면서, "AI 가 해커의 무기가 되지 않을까?"라는 우려가 커졌습니다. 하지만 기존에 AI 의 해킹 능력을 테스트하던 방법은 마치 가상 게임 (CTF) 을 하거나, 책으로만 문제를 푸는 것과 비슷했습니다. 실제 세상은 훨씬 복잡하고 소음도 많죠.

연구팀은 **"실제 세상 (실제 대학 네트워크, 약 8,000 대의 컴퓨터)"**에서 AI 와 인간 전문가를 직접 비교해 보기로 했습니다.

2. 등장인물 소개

인간 해커 (10 명): 해킹 대회 우승자나 전문 보안 회사에 다니는 베테랑들입니다. 이들은 10 시간 동안 집중해서 문제를 해결했습니다.
기존 AI (Codex, CyAgent 등): 현재 상용화된 AI 도구들입니다. 이들은 마치 초보 견습생처럼, 복잡한 상황에서는 길을 잃거나 "이건 못 해"라고 거부 반응을 보였습니다.
새로운 AI (ARTEMIS): 연구팀이 새로 만든 '수석 지휘관'이 있는 AI 팀입니다.
- 비유: 기존 AI 가 혼자서 모든 일을 하느라 지쳐버린 '1 인 기업'이라면, ARTEMIS 는 **지휘관 (Supervisor) 이 수백 명의 전문 부하 (Sub-agents) 를 동시에 보내고, 중간에 성과를 점검하며 (Triage), 실패하면 다시 계획을 수정하는 '대형 해킹 회사'**입니다.

3. 대결 결과: 누가 이겼을까요?

결과는 놀라웠습니다. ARTEMIS 가 인간 전문가 10 명 중 9 명을 제치고 2 위를 차지했습니다!

인간 전문가: 10 시간 동안 고생하며 평균 4~5 개의 중요한 취약점을 찾았습니다.
ARTEMIS: 10 시간 동안 9 개의 유효한 취약점을 찾아냈고, 인간 전문가들보다 더 많은 '진짜' 해킹 성공을 거뒀습니다.
기존 AI: 대부분 인간 전문가보다 못했습니다.

💡 핵심 포인트:

비용: 인간 전문가 1 시간당 비용은 약 60 달러 (약 8 만 원) 인데, ARTEMIS 는 약 18 달러 (약 2 만 4 천 원) 였습니다. 인간보다 3 배나 저렴하면서도 더 잘했습니다.
전략: 인간은 한 가지 일을 꼼꼼히 하다가 다른 일을 잊어버리는 경우가 많았지만, ARTEMIS 는 동시에 여러 곳을 공격하고, 실패하면 바로 다른 전략을 세우는 '병렬 처리' 능력이 뛰어났습니다.

4. AI 의 장점과 단점 (인간 vs 로봇)

이 대결을 통해 AI 와 인간의 특징이 명확히 드러났습니다.

✅ AI 의 강점 (로봇의 특기)

끝없는 반복과 병렬 작업: 인간은 피곤해지면 실수하지만, AI 는 24 시간 내내 100 개의 창을 동시에 열어두고 검색할 수 있습니다.
구식 시스템 공략: 최신 웹 브라우저가 열지 않는 아주 오래된 서버 (예: 구형 IDRAC 서버) 를 찾아내서 해킹하는 데는 AI 가 더 능숙했습니다. (인간은 "브라우저가 안 열리니까 포기"했지만, AI 는 명령어 (CLI) 로 직접 접근했죠.)

❌ AI 의 약점 (로봇의 한계)

그래픽 화면 (GUI) 무력: 화면에 마우스를 클릭해서 조작해야 하는 작업은 AI 가 매우 서툴렀습니다.
- 비유: 인간은 "화면을 보고 클릭하면 되는 버튼"을 쉽게 찾지만, AI 는 "화면을 보고 클릭하는 행위"를 이해하지 못해 엉뚱한 곳을 클릭하거나 포기했습니다.
오해 (False Positive): AI 는 "응답이 왔으니 성공한 거야!"라고 착각하는 경우가 많았습니다. 인간은 "아, 이건 로그인 실패 후 리디렉션된 거야"라고 바로 눈치챘지만, AI 는 이를 성공으로 신고하기도 했습니다.

5. 결론: 무엇을 의미할까요?

이 연구는 **"AI 가 해킹의 미래를 바꿀 것"**임을 보여줍니다.

방어자의 새로운 무기: 이제 기업들은 비싼 인간 해커를 고용할 필요 없이, 저렴하고 빠른 AI 도구를 이용해 스스로 자신의 시스템을 점검할 수 있게 됩니다.
위험의 증대: 만약 나쁜 의도를 가진 해커들이 이 AI 기술을 쓰면, 인간이 상상도 못 할 속도로 전 세계 시스템을 공격할 수 있습니다.
미래의 방향: AI 는 '수단'을 잘 찾지만, '맥락'을 이해하는 데는 아직 인간이 낫습니다. 따라서 인간의 눈 (GUI 이해, 직관) 과 AI 의 손 (빠른 검색, 병렬 작업) 을 합친 '하이브리드' 방식이 가장 강력한 보안이 될 것입니다.

한 줄 요약:

"이번 실험에서 AI 는 인간 전문가를 능가할 만큼 똑똑해졌지만, 아직 화면을 보고 클릭하는 '손'은 인간이 더 낫습니다. 이제 우리는 AI 를 어떻게 안전하게 다룰지, 혹은 어떻게 우리 편으로 만들어야 할지 고민해야 할 때입니다."

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 제기 (Problem)

배경: AI 기술의 급속한 발전으로 인해 국가 및 사기 조직 등 위협 행위자들이 AI 를 사이버 공격에 활용하기 시작했습니다. 이에 따라 AI 의 보안 위험과 능력을 평가하는 것이 시급합니다.
기존 연구의 한계: 기존 AI 보안 벤치마크 (CTF, CVE 재현, 정적 코드 분석 등) 는 실제 운영 환경의 복잡성 (노이즈, 상호작용, 실시간 시스템), 운영적 현실성 (Operational Realism) 을 반영하지 못합니다. 대부분의 실제 침해 사고는 살아있는 환경에서의 상호작용 (신원 도용, 설정 오류 연쇄, 피싱 등) 에서 발생하지만, 기존 벤치마크는 이를 간과하고 있습니다.
핵심 질문: 실제 기업 환경에서 AI 에이전트가 인간 보안 전문가만큼 효과적으로 취약점을 발견하고 악용할 수 있는가?

2. 연구 방법론 (Methodology)

이 연구는 스탠포드 대학교의 실제 대규모 연구 네트워크 (약 8,000 개의 호스트, 12 개의 서브넷) 에서 실시간 침투 테스트 (Live Penetration Testing) 를 수행했습니다.

참가자:
- 인간 전문가: 10 명의 사이버 보안 전문가 (경험, 자격증, CVE 발견 이력 등을 기준으로 선정).
- AI 에이전트: 6 개의 기존 에이전트 (Codex, CyAgent 등) 와 연구팀이 개발한 새로운 에이전트 프레임워크 ARTEMIS.
환경 설정:
- 참가자들은 Kali Linux 가 설치된 클라우드 VM 을 제공받았으며, 10 시간 이상의 활동 시간을 가졌습니다.
- 파괴적인 행동 (DoS, 데이터 삭제 등) 은 금지되었으며, 발견된 취약점은 즉시 보고 및 패치되었습니다.
- 모든 참가자의 행동은 화면 녹화 및 로그를 통해 기록되었습니다.
성능 평가 지표:
- 단순 발견 수뿐만 아니라 기술적 복잡성 (Technical Complexity) 과 비즈니스 영향도 (Business Impact) 를 종합한 점수 체계를 사용했습니다.
- 취약점의 악용 (Exploitation) 여부에 따라 가중치를 부여하여, 단순 스캔이 아닌 실제 악용 능력을 평가했습니다.

3. 주요 기여: ARTEMIS 프레임워크 (Key Contributions)

연구팀은 기존 에이전트들의 한계 (문맥 관리 부족, 긴 작업 수행 불가, 보안 전문성 부재) 를 극복하기 위해 ARTEMIS (Automated Red Teaming Engine with Multi-agent Intelligent Supervision) 를 개발했습니다.

아키텍처:
- 슈퍼바이저 (Supervisor): 전체 워크플로우를 관리하고 작업을 분배합니다.
- 동적 프롬프트 생성 (Dynamic Prompt Generation): 하위 에이전트 (Sub-agents) 에게 작업별 맞춤형 시스템 프롬프트를 생성하여 도구 사용 오류를 방지합니다.
- 무제한 하위 에이전트 (Arbitrary Sub-agents): 병렬로 여러 에이전트를 실행하여 다양한 타겟을 동시에 탐지 및 악용합니다.
- 자동 트라이에이저 (Automatic Triage): 발견된 취약점의 유효성, 재현 가능성, 심각도를 자동으로 검증하여 허위 양성 (False Positive) 을 줄입니다.
- 장기 작업 지원: 컨텍스트 요약 및 세션 분할을 통해 기존 에이전트들이 수행하지 못했던 긴 시간 (10 시간 이상) 의 연속적인 작업을 가능하게 합니다.

4. 연구 결과 (Results)

성능 순위:
- ARTEMIS는 전체 순위에서 2 위를 차지했습니다. 9 개의 유효한 취약점을 발견했으며, 유효 제출률은 82% 였습니다.
- ARTEMIS 는 10 명의 인간 참가자 중 9 명을 능가했습니다.
- 기존 에이전트 (Codex, CyAgent 등) 는 대부분의 인간 참가자보다 낮은 성능을 보였습니다. 특히 Codex 와 CyAgent 는 인간 참가자 2 명만 능가하거나 그보다 못했습니다.
비용 효율성:
- ARTEMIS(A1 구성) 의 비용은 시간당 약 ** $18** (연간 약$ 37,876) 이었습니다.
- 반면, 전문 침투 테스트 전문가의 평균 시급은 약 ** $60** (연간 약$ 125,034) 으로, ARTEMIS 는 비용 대비 성능 면에서 인간 전문가보다 우위를 점했습니다.
강점과 약점:
- 강점: 체계적인 열거 (Enumeration), 병렬 악용, 비용 효율성.
- 약점: GUI 기반 작업 (예: 브라우저 상호작용) 에서 어려움을 겪음. 인간보다 허위 양성 (False Positive) 비율이 높음 (예: HTTP 200 응답을 성공적인 인증으로 오해하는 등).
인간 vs AI 행동 패턴:
- 인간은 자동화 도구 사용 후 수동 검증을 병행하며, 취약점 발견 후 더 깊은 접근 (Lateral Movement) 을 시도하는 경향이 있었습니다.
- ARTEMIS 는 발견 즉시 제출하는 경향이 있어, 더 중요한 취약점 (예: TinyPilot 의 RCE) 을 놓치고 사소한 취약점 (CORS 설정 등) 을 먼저 제출하는 비효율이 발생하기도 했습니다.

5. 의의 및 결론 (Significance)

실제 환경 검증의 선구자: AI 에이전트와 인간 전문가를 실제 기업 환경에서 비교한 최초의 포괄적인 연구입니다.
방어 도구로서의 AI: AI 는 공격자의 도구일 뿐만 아니라, 인간보다 저렴하고 지속적으로 취약점을 찾아내는 강력한 방어 도구 (Defensive Tool) 로서 잠재력을 입증했습니다.
오픈소스 공개: 연구 결과와 ARTEMIS 프레임워크를 오픈소스로 공개하여, 방어자들이 AI 기반 보안 도구에 접근할 수 있도록 지원하고, 향후 더 현실적인 AI 보안 평가의 기반을 마련했습니다.
향후 과제: GUI 상호작용 능력 향상, 허위 양성 감소, 더 긴 기간의 테스트 환경 구축, 그리고 실제 방어 시스템 (SIEM 등) 과의 통합 연구가 필요합니다.

요약: 이 논문은 AI 에이전트 (특히 ARTEMIS) 가 실제 침투 테스트에서 인간 전문가와 경쟁할 수 있는 수준에 도달했음을 보여주며, 비용 효율성과 병렬 처리 능력에서 우위를 점하고 있음을 증명했습니다. 다만, GUI 처리 및 오해석 (False Positive) 문제는 여전히 해결해야 할 과제로 남았습니다.

Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing

1. 실험 배경: 왜 이 대결을 했을까요?

2. 등장인물 소개

3. 대결 결과: 누가 이겼을까요?

4. AI 의 장점과 단점 (인간 vs 로봇)

✅ AI 의 강점 (로봇의 특기)

❌ AI 의 약점 (로봇의 한계)

5. 결론: 무엇을 의미할까요?

1. 연구 배경 및 문제 제기 (Problem)

2. 연구 방법론 (Methodology)

3. 주요 기여: ARTEMIS 프레임워크 (Key Contributions)

4. 연구 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

OpenKedge: Governing Agentic Mutation with Execution-Bound Safety and Evidence Chains

From Business Events to Auditable Decisions: Ontology-Governed Graph Simulation for Enterprise AI

Sustained Impact of Agentic Personalisation in Marketing: A Longitudinal Case Study

RAMP: Hybrid DRL for Online Learning of Numeric Action Models

Parameterized Complexity Of Representing Models Of MSO Formulas