EVMbench: Evaluating AI Agents on Smart Contract Security

이 논문은 117 개의 취약점을 기반으로 스마트 계약의 취약점 탐지, 수정 및 악용 능력을 평가하는 벤치마크인 'EVMbench'를 소개하고, 최첨단 AI 에이전트들이 실제 블록체인 환경에서 취약점을 종단 간으로 발견하고 악용할 수 있음을 입증합니다.

Justin Wang, Andreas Bigger, Xiaohai Xu, Justin W. Lin, Andy Applebaum, Tejal Patwardhan, Alpin Yukseloglu, Olivia Watkins

게시일 2026-03-06
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🛡️ EVMbench: AI 와 스마트 계약의 '해킹 대결' 보고서

이 논문은 **"인공지능 (AI) 이 이제 얼마나 똑똑해져서, 블록체인上面的 (온체인) 금융 시스템을 해킹하거나, 반대로 그 시스템을 보호할 수 있을까?"**라는 질문에 답하기 위해 진행된 실험 결과입니다.

마치 AI 에게 '금융 범죄'와 '보안 수사'를 동시에 시켜본 시험이라고 생각하시면 됩니다.


1. 배경: 왜 이런 실험을 했을까요? 🤔

  • 현실: 요즘 블록체인 (이더리움 등) 에는 수천억 달러의 돈이 걸려 있습니다. 이 돈은 '스마트 계약'이라는 자동화된 프로그램이 관리합니다.
  • 위험: 이 프로그램에 작은 버그 (오류) 하나만 있어도, 해커가 그 틈을 타면 돈이 순식간에 사라집니다.
  • 질문: 이제 AI 가 코드를 읽고, 버그를 찾고, 심지어 그 버그를 이용해 돈을 빼내는 '해킹'까지 할 수 있을까요? 만약 AI 가 해킹을 잘한다면, 우리는 AI 를 어떻게 막아야 할까요?

2. 실험 도구: EVMbench 🧪

연구진은 EVMbench라는 새로운 시험지를 만들었습니다. 이는 AI 에이전트 (로봇 같은 AI) 에게 세 가지 미션을 주는 방식입니다.

🕵️ 미션 1: 탐지 (Detect) - "수사관 되기"

  • 상황: AI 에게 복잡한 금융 프로그램 (스마트 계약) 코드를 줍니다.
  • 과제: "이 코드에 돈이 털릴 수 있는 치명적인 구멍이 어디 있는지 찾아보고 보고서 써줘."
  • 평가: 실제 전문가들이 이미 찾아낸 구멍을 얼마나 많이 찾아냈는지 점수를 매깁니다.

🛠️ 미션 2: 패치 (Patch) - "수리공 되기"

  • 상황: 구멍이 뚫린 코드를 줍니다.
  • 과제: "돈이 새지 않도록 코드를 고쳐줘. 하지만 원래 기능은 그대로 작동하게 해야 해."
  • 평가: 고친 코드가 정상적으로 작동하는지, 그리고 해커가 다시 그 구멍을 이용할 수 없는지 테스트합니다.

💸 미션 3: 해킹 (Exploit) - "해커 되기" (가장 위험한 부분)

  • 상황: AI 에게 실제 돈을 가진 지갑 (가상 화폐) 과 해킹할 코드를 줍니다.
  • 과제: "이 시스템의 구멍을 찾아서, 내 지갑으로 돈을 빼내봐."
  • 평가: AI 가 실제로 블록체인 위에서 거래를 실행해 돈을 가져오면 성공입니다.
    • 주의: 이 실험은 실제 메인넷이 아니라, **가상의 안전한 실험실 (로컬 체인)**에서 이루어져서 실제 돈은 안전합니다.

3. 재미있는 비유: "치킨집의 자동 주문기" 🍗

이 실험을 이해하기 쉽게 치킨집 자동 주문기에 비유해 볼까요?

  1. 스마트 계약: 치킨 주문기. 돈만 넣으면 자동으로 치킨을 줍니다.
  2. 버그 (Vulnerability): 주문기 내부에 "돈을 넣기 전에 치킨을 먼저 주는" 오류가 있습니다.
  3. AI 수사관 (Detect): "이 주문기, 돈 안 넣어도 치킨이 나올 수 있네요! 여기 구멍이 있어요!"라고 보고합니다.
  4. AI 수리공 (Patch): "알겠습니다. '돈을 먼저 확인'하는 로직을 추가해서 고치겠습니다."라고 코드를 수정합니다.
  5. AI 해커 (Exploit): "이 주문기, 돈 넣기 전에 치킨을 먼저 줍니다. 제가 이걸 이용해 치킨을 100 마리나 가져가겠습니다!"라고 실제로 치킨을 가져옵니다.

EVMbench 는 AI 가 이 세 가지 역할을 얼마나 잘 수행하는지 측정하는 것입니다.


4. 실험 결과: AI 는 얼마나 똑똑할까요? 📊

연구진은 최신 AI 모델들 (OpenAI 의 o3, GPT-5 계열, Claude, Gemini 등) 을 시험에 붙였습니다.

  • 놀라운 사실: AI 는 단순히 코드를 읽는 것을 넘어, 실제 블록체인 위에서 돈을 빼내는 해킹 (Exploit) 을 성공적으로 수행했습니다.
    • 특히 GPT-5.3-Codex라는 모델이 해킹 미션에서 가장 잘했습니다. (약 71% 성공률)
    • Claude Opus 4.6은 수사관 (Detect) 역할에서 가장 잘했습니다. (약 46% 성공률)
  • 중요한 발견:
    • AI 는 버그를 찾는 것해킹하는 것은 별개의 능력입니다. 어떤 AI 는 버그를 잘 찾지만 해킹은 못 하기도 하고, 그 반대도 있습니다.
    • 힌트 (Hint) 를 주면: AI 가 "어디를 봐야 해?"라고 힌트를 받으면 해킹 성공률이 급격히 올라갑니다. 즉, AI 는 해킹 방법 자체는 알고 있지만, **어디서 버그를 찾아낼지 (탐색)**가 가장 어려운 부분입니다.
    • 도구의 중요성: AI 모델 자체의 능력도 중요하지만, AI 가 코드를 실행하고 테스트할 수 있는 **환경 (도구)**을 어떻게 만들어주느냐에 따라 결과가 크게 달라집니다.

5. 결론과 경고 🚨

이 연구는 두 가지 중요한 메시지를 줍니다.

  1. 위험 신호: AI 가 이제 충분히 똑똑해져서, 악의적인 해커가 AI 를 이용해 블록체인을 공격하면 막대한 금전적 손실이 발생할 수 있습니다.
  2. 희망 신호: 반대로, AI 를 잘 활용하면 해킹하기 전에 미리 구멍을 찾아내고 막아주는 강력한 보안관이 될 수도 있습니다.

요약하자면:

"AI 는 이제 블록체인 세계의 '해커'이자 '수사관'이 될 수 있는 능력을 갖췄습니다. 우리는 이 능력을 어떻게 통제하고, 방어에 활용할지 준비해야 합니다. EVMbench 는 그 능력을 측정하는 첫 번째 자물쇠입니다."

이 논문은 AI 의 보안 능력을 지속적으로 추적하고, 더 안전한 블록체인 세상을 만들기 위해 이 데이터를 공개했다고 합니다.