Each language version is independently generated for its own context, not a direct translation.
이 논문은 **"AI 가 이제 스마트 컨트랙트 **(블록체인 계약)라는 질문에 대해, "아직은 아니지만, 인간과 함께라면 매우 유용한 도구가 될 수 있다"는 결론을 내립니다.
기존의 유명한 테스트 (EVMbench) 가 AI 의 능력을 과대평가했다는 것을 지적하며, 더 엄격한 새로운 테스트를 진행한 내용입니다.
이 복잡한 내용을 세상에서 쉽게 이해할 수 있는 비유로 설명해 드릴게요.
🕵️♂️ 비유: "초능력 탐정 vs. 실제 범죄 현장"
이 논문의 핵심은 **"시험지 **(EVMbench)를 비교하는 것입니다.
1. 기존 테스트 (EVMbench): "과거 기출문제만 풀던 AI"
기존에 발표된 테스트는 AI 들에게 **과거에 이미 해결된 120 개의 범죄 사건 **(코드 취약점)을 풀게 했습니다.
- 결과: AI 가 45% 의 범죄를 찾아내고, 72% 는 성공적으로 해결했다고 발표되었습니다.
- 세상의 반응: "와! AI 가 이제 보안 감사를 다 대신할 거야! 인간 감사는 끝났다!"라는 소문이 돌았습니다.
- 논문의 지적: 하지만 이 테스트에는 치명적인 문제가 있었습니다.
- 기출문제 암기: AI 가 훈련할 때 이미 이 사건들을 봤을 가능성이 높습니다. (시험지를 미리 본 것과 같죠.)
- 편파적인 환경: AI 가 사용하는 '도구'와 '작업 방식'을 통일하지 않아, AI 자체의 능력인지 도구의 능력인지 구분이 안 됐습니다.
2. 새로운 테스트 (Re-Evaluating): "예상치 못한 실제 범죄 현장"
저희 연구팀은 AI 들에게 **아직 아무도 풀지 못한, 2026 년 2 월 이후에 발생한 22 개의 실제 범죄 **(실제 해킹 사건)을 풀게 했습니다. 이 사건들은 AI 가 훈련할 때 절대 볼 수 없었습니다.
- **결과 1 **(탐지 능력) AI 가 범죄의 '흔적'을 찾는 능력은 나쁘지 않았습니다. 약 65% 는 찾아냈습니다. 하지만 여전히 35% 는 놓쳤습니다.
- **결과 2 **(실제 해결 능력) 이게 핵심입니다. 범죄의 '흔적'을 찾았다고 해서, 그 범죄를 **실제로 해결 **(해킹)한 AI 는 단 한 명도 없었습니다. (0% 성공)
- 비유: AI 는 "여기 도둑이 들어갈 구멍이 있네요!"라고 말은 잘하지만, 그 구멍을 통해 실제로 돈을 훔쳐오는 시뮬레이션은 전혀 못 합니다.
3. 놀라운 발견: "도구가 더 중요했다?"
기존 테스트에서는 AI 모델 자체의 성능만 비교했는데, 저희는 **AI 가 사용하는 '작업 도구 **(Scaffold)를 바꿔보았습니다.
- 결과: 같은 AI 모델이라도, 오픈소스 도구를 쓰면 **상용 **(비밀)보다 훨씬 잘 풀었습니다.
- 비유: 같은 천재 요리사라도, **고급 칼 **(상용 도구)을 쓰면 실패하고, **손으로 만든 낡은 칼 **(오픈소스 도구)을 쓰면 요리를 잘한다는 뜻입니다. 즉, AI 의 실력보다 어떤 도구로 일하느냐가 더 중요할 수 있습니다.
💡 이 연구가 우리에게 주는 교훈
1. "완전한 자동화는 아직 멀었다"
"AI 가 인간 감사를 완전히 대체한다"는 말은 과장입니다.
- AI 는 잘 알려진 흔한 실수 (문자열 누락, 간단한 계산 오류 등)는 잘 찾아냅니다.
- 하지만 복잡하고 새로운 방식의 해킹이나 실제 해킹을 실행하는 단계에서는 아직 인간에게 훨씬 못 미칩니다.
2. "AI 는 훌륭한 '1 차 필터'가 될 수 있다"
AI 를 인간을 대체하는 '최종 심사관'으로 쓰면 안 되지만, **인간이 하기 싫어하는 '1 차 검색'**으로는 아주 훌륭합니다.
- 비유: AI 는 초능력을 가진 경비원입니다. 경비원은 문이 열린 곳 (흔한 실수) 을 바로 찾아내지만, 복잡한 지하 통로를 뚫는 해커 (정교한 해킹) 를 막아내지는 못합니다.
- 추천 방식: **AI 가 먼저 1 차 검색을 하고, 인간 전문가가 그 결과를 받아서 심층 분석을 하는 '협업 **(Human-in-the-loop)이 가장 효과적입니다.
3. "실제 환경에서 테스트해야 한다"
기존 테스트처럼 과거의 기출문제만 풀게 하면 AI 가 너무 잘하는 척합니다. **아직 본 적 없는 새로운 상황 **(실제 해킹 사건)에서 테스트해야 진짜 실력을 알 수 있습니다.
📝 한 줄 요약
"AI 는 스마트 컨트랙트 보안에서 '훌륭한 보조 수단'이 될 수 있지만, 아직 인간을 완전히 대체할 '완벽한 감시자'는 아닙니다. AI 가 찾아낸 단서를 인간이 최종적으로 확인하고 해결하는 '팀플레이'가 가장 안전합니다."
이 논문의 저자들은 AI 를 두려워하거나 과신하기보다, AI 와 인간이 어떻게 함께 일할지에 집중해야 한다고 조언합니다.