Re-Evaluating EVMBench: Are AI Agents Ready for Smart Contract Security?

이 논문은 기존 EVM 벤치마크의 데이터 오염과 평가 범위 한계를 지적하며, AI 에이전트가 스마트 컨트랙트 취약점을 탐지할 수는 있으나 인간 개입 없이는 완전 자동화된 감사가 불가능함을 입증했습니다.

Chaoyuan Peng, Lei Wu, Yajin Zhou

게시일 Thu, 12 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"AI 가 이제 스마트 컨트랙트 **(블록체인 계약)라는 질문에 대해, "아직은 아니지만, 인간과 함께라면 매우 유용한 도구가 될 수 있다"는 결론을 내립니다.

기존의 유명한 테스트 (EVMbench) 가 AI 의 능력을 과대평가했다는 것을 지적하며, 더 엄격한 새로운 테스트를 진행한 내용입니다.

이 복잡한 내용을 세상에서 쉽게 이해할 수 있는 비유로 설명해 드릴게요.


🕵️‍♂️ 비유: "초능력 탐정 vs. 실제 범죄 현장"

이 논문의 핵심은 **"시험지 **(EVMbench)를 비교하는 것입니다.

1. 기존 테스트 (EVMbench): "과거 기출문제만 풀던 AI"

기존에 발표된 테스트는 AI 들에게 **과거에 이미 해결된 120 개의 범죄 사건 **(코드 취약점)을 풀게 했습니다.

  • 결과: AI 가 45% 의 범죄를 찾아내고, 72% 는 성공적으로 해결했다고 발표되었습니다.
  • 세상의 반응: "와! AI 가 이제 보안 감사를 다 대신할 거야! 인간 감사는 끝났다!"라는 소문이 돌았습니다.
  • 논문의 지적: 하지만 이 테스트에는 치명적인 문제가 있었습니다.
    • 기출문제 암기: AI 가 훈련할 때 이미 이 사건들을 봤을 가능성이 높습니다. (시험지를 미리 본 것과 같죠.)
    • 편파적인 환경: AI 가 사용하는 '도구'와 '작업 방식'을 통일하지 않아, AI 자체의 능력인지 도구의 능력인지 구분이 안 됐습니다.

2. 새로운 테스트 (Re-Evaluating): "예상치 못한 실제 범죄 현장"

저희 연구팀은 AI 들에게 **아직 아무도 풀지 못한, 2026 년 2 월 이후에 발생한 22 개의 실제 범죄 **(실제 해킹 사건)을 풀게 했습니다. 이 사건들은 AI 가 훈련할 때 절대 볼 수 없었습니다.

  • **결과 1 **(탐지 능력) AI 가 범죄의 '흔적'을 찾는 능력은 나쁘지 않았습니다. 약 65% 는 찾아냈습니다. 하지만 여전히 35% 는 놓쳤습니다.
  • **결과 2 **(실제 해결 능력) 이게 핵심입니다. 범죄의 '흔적'을 찾았다고 해서, 그 범죄를 **실제로 해결 **(해킹)한 AI 는 단 한 명도 없었습니다. (0% 성공)
    • 비유: AI 는 "여기 도둑이 들어갈 구멍이 있네요!"라고 말은 잘하지만, 그 구멍을 통해 실제로 돈을 훔쳐오는 시뮬레이션은 전혀 못 합니다.

3. 놀라운 발견: "도구가 더 중요했다?"

기존 테스트에서는 AI 모델 자체의 성능만 비교했는데, 저희는 **AI 가 사용하는 '작업 도구 **(Scaffold)를 바꿔보았습니다.

  • 결과: 같은 AI 모델이라도, 오픈소스 도구를 쓰면 **상용 **(비밀)보다 훨씬 잘 풀었습니다.
  • 비유: 같은 천재 요리사라도, **고급 칼 **(상용 도구)을 쓰면 실패하고, **손으로 만든 낡은 칼 **(오픈소스 도구)을 쓰면 요리를 잘한다는 뜻입니다. 즉, AI 의 실력보다 어떤 도구로 일하느냐가 더 중요할 수 있습니다.

💡 이 연구가 우리에게 주는 교훈

1. "완전한 자동화는 아직 멀었다"

"AI 가 인간 감사를 완전히 대체한다"는 말은 과장입니다.

  • AI 는 잘 알려진 흔한 실수 (문자열 누락, 간단한 계산 오류 등)는 잘 찾아냅니다.
  • 하지만 복잡하고 새로운 방식의 해킹이나 실제 해킹을 실행하는 단계에서는 아직 인간에게 훨씬 못 미칩니다.

2. "AI 는 훌륭한 '1 차 필터'가 될 수 있다"

AI 를 인간을 대체하는 '최종 심사관'으로 쓰면 안 되지만, **인간이 하기 싫어하는 '1 차 검색'**으로는 아주 훌륭합니다.

  • 비유: AI 는 초능력을 가진 경비원입니다. 경비원은 문이 열린 곳 (흔한 실수) 을 바로 찾아내지만, 복잡한 지하 통로를 뚫는 해커 (정교한 해킹) 를 막아내지는 못합니다.
  • 추천 방식: **AI 가 먼저 1 차 검색을 하고, 인간 전문가가 그 결과를 받아서 심층 분석을 하는 '협업 **(Human-in-the-loop)이 가장 효과적입니다.

3. "실제 환경에서 테스트해야 한다"

기존 테스트처럼 과거의 기출문제만 풀게 하면 AI 가 너무 잘하는 척합니다. **아직 본 적 없는 새로운 상황 **(실제 해킹 사건)에서 테스트해야 진짜 실력을 알 수 있습니다.


📝 한 줄 요약

"AI 는 스마트 컨트랙트 보안에서 '훌륭한 보조 수단'이 될 수 있지만, 아직 인간을 완전히 대체할 '완벽한 감시자'는 아닙니다. AI 가 찾아낸 단서를 인간이 최종적으로 확인하고 해결하는 '팀플레이'가 가장 안전합니다."

이 논문의 저자들은 AI 를 두려워하거나 과신하기보다, AI 와 인간이 어떻게 함께 일할지에 집중해야 한다고 조언합니다.