EVM-QuestBench: An Execution-Grounded Benchmark for Natural-Language Transaction Code Generation

이 논문은 EVM 호환 체인에서 자연어 기반 트랜잭션 코드 생성의 실행 정확성과 안전성을 평가하기 위해 동적 검증 방식을 도입한 새로운 벤치마크인 'EVM-QuestBench'를 제안하고, 이를 통해 다양한 대규모 언어 모델들의 성능 격차와 단일 작업 대비 다단계 워크플로우 수행 능력의 비대칭성을 분석합니다.

Pei Yang, Wanyi Chen, Ke Wang, Lynn Ai, Eric Yang, Tianyu Shi

게시일 Wed, 11 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🚀 EVM-QuestBench: 블록체인 코딩 실력을 측정하는 '실전 시뮬레이션'

이 논문은 인공지능 (LLM) 이 블록체인에서 실제로 돈을 다루는 작업을 얼마나 잘 수행하는지 테스트하는 새로운 기준을 소개합니다. 기존에는 AI 가 코드를 얼마나 '잘 써내려가는지'만 봤다면, 이번에는 **"코드가 실제로 작동해서 돈을 잃지 않게 하는가?"**를 검증합니다.

이 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 왜 이 연구가 필요한가요? (문제 상황)

지금까지 AI 코딩 테스트는 마치 **"요리 레시피를 외우는 시험"**과 같았습니다.

  • 기존 방식: AI 가 "소금 1 큰술 넣기"라고 레시피를 잘 적어내면 점수를 줬습니다. 하지만 그 레시피대로 실제로 요리를 해봤을 때, 소금이 아니라 설탕을 넣거나 냄비가 터져서 실패하는지까지는 확인하지 않았습니다.
  • 블록체인의 위험: 블록체인 (특히 이더리움 등) 에서는 작은 실수 하나가 되돌릴 수 없는 금전적 손실로 이어집니다. 주소 한 글자 틀리거나, 단위 (코인 1 개 vs 100 개) 를 잘못 계산하면 돈이 날아갑니다.

그래서 연구진들은 **"실제로 요리해 보는 시험 (실행 기반 평가)"**이 필요하다고 생각했습니다.

2. EVM-QuestBench 란 무엇인가요? (해결책)

이것은 AI 를 위한 **"실전 블록체인 운전 면허 시험"**입니다.

  • 시험장: 가상의 블록체인 네트워크 (포크된 체인) 를 만들어서, 여기서 AI 가 코드를 짜고 실제로 거래를 실행해 봅니다.
  • 시험관 (Validator): AI 가 쓴 코드가 실행된 후, "돈이 제대로 이동했나?", "계좌 잔고가 맞나?"를 자동으로 확인하는 심판 역할을 합니다.
  • 시험 문제:
    • 단일 작업 (Atomic): "100 원 보내기"처럼 한 번에 끝나는 간단한 문제.
    • 복합 작업 (Composite): "먼저 승인하고, 그다음에 코인을 사고, 마지막으로 예치하기"처럼 여러 단계를 거쳐야 하는 복잡한 미션.

3. 시험은 어떻게 진행되나요? (운영 방식)

이 시험의 가장 큰 특징은 **"매번 다른 변수"**를 사용한다는 점입니다.

  • 비유: 만약 시험이 "100 원 보내기"로 고정되어 있다면, AI 는 그냥 "100"이라는 숫자를 외워서 답을 맞출 수 있습니다.
  • EVM-QuestBench 방식: "0.37 개 코인 보내기", "123.45 달러 환전하기"처럼 숫자를 매번 랜덤으로 바꿉니다.
    • 이렇게 하면 AI 가 답을 외우는 게 아니라, 숫자를 이해하고 계산하는 진짜 능력을 보여줘야만 점수를 받을 수 있습니다.

4. 주요 발견 사항 (시험 결과)

20 개의 AI 모델을 시험시켜 보니 흥미로운 결과가 나왔습니다.

  1. 단순함 vs 복잡함의 괴리:

    • 어떤 AI 는 "100 원 보내기" (단일 작업) 는 완벽하게 잘하지만, "승인 후 사고 예치하기" (복합 작업) 는 완전히 망칩니다.
    • 반대로, 어떤 AI 는 복잡한 미션을 잘 해결하지만, 아주 간단한 숫자 계산에서 실수를 하기도 합니다.
    • 비유: 어떤 운전사는 직선 도로 (단일 작업) 는 잘 가지만, 복잡한 회전교차로 (복합 작업) 에 들어가면 길을 잃는 것과 같습니다.
  2. 상위권 모델의 특징:

    • Claude-Sonnet-4.5가 가장 높은 점수를 받았습니다. 이 모델은 단순히 코드를 짜는 것을 넘어, "어떤 순서로 해야 돈을 잃지 않을까?"를 계획하는 능력이 뛰어났습니다.
  3. 실패 원인:

    • 많은 AI 가 "승인 (Approve)"이라는 단계를 건너뛰고 바로 "거래 (Swap)"를 시도하다가 실패했습니다. 블록체인에서는 "먼저 허락을 받아야 (승인) 거래가 가능하다"는 규칙이 있는데, 이를 잊어버린 것입니다.

5. 결론 및 의의

이 연구는 AI 가 블록체인 세계에 들어가기 위해 필요한 최소한의 안전장치를 마련했습니다.

  • 기존: "코드가 예쁘게 쓰였나요?" (문법 검사)
  • 새로운 기준: "코드가 실행되어 돈을 안전하게 처리했나요?" (실전 검증)

이 벤치마크는 앞으로 AI 가 금융이나 블록체인 같은 위험한 분야에서 일할 때, **"이 AI 는 실제로 돈을 맡겨도 안전한가?"**를 판단하는 데 중요한 기준이 될 것입니다. 마치 새로운 운전자가 실제 도로에서 운전하는 모습을 보고 면허를 발급하는 것과 같습니다.


한 줄 요약:

"AI 가 블록체인 코드를 잘 쓴다고 해서 안심할 수 없습니다. 실제로 돈을 움직여 보는 시뮬레이션 시험을 통과해야만 진짜 실력자입니다!"