Each language version is independently generated for its own context, not a direct translation.

🚀 EVM-QuestBench: 블록체인 코딩 실력을 측정하는 '실전 시뮬레이션'

이 논문은 인공지능 (LLM) 이 블록체인에서 실제로 돈을 다루는 작업을 얼마나 잘 수행하는지 테스트하는 새로운 기준을 소개합니다. 기존에는 AI 가 코드를 얼마나 '잘 써내려가는지'만 봤다면, 이번에는 **"코드가 실제로 작동해서 돈을 잃지 않게 하는가?"**를 검증합니다.

이 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 왜 이 연구가 필요한가요? (문제 상황)

지금까지 AI 코딩 테스트는 마치 **"요리 레시피를 외우는 시험"**과 같았습니다.

기존 방식: AI 가 "소금 1 큰술 넣기"라고 레시피를 잘 적어내면 점수를 줬습니다. 하지만 그 레시피대로 실제로 요리를 해봤을 때, 소금이 아니라 설탕을 넣거나 냄비가 터져서 실패하는지까지는 확인하지 않았습니다.
블록체인의 위험: 블록체인 (특히 이더리움 등) 에서는 작은 실수 하나가 되돌릴 수 없는 금전적 손실로 이어집니다. 주소 한 글자 틀리거나, 단위 (코인 1 개 vs 100 개) 를 잘못 계산하면 돈이 날아갑니다.

그래서 연구진들은 **"실제로 요리해 보는 시험 (실행 기반 평가)"**이 필요하다고 생각했습니다.

2. EVM-QuestBench 란 무엇인가요? (해결책)

이것은 AI 를 위한 **"실전 블록체인 운전 면허 시험"**입니다.

시험장: 가상의 블록체인 네트워크 (포크된 체인) 를 만들어서, 여기서 AI 가 코드를 짜고 실제로 거래를 실행해 봅니다.
시험관 (Validator): AI 가 쓴 코드가 실행된 후, "돈이 제대로 이동했나?", "계좌 잔고가 맞나?"를 자동으로 확인하는 심판 역할을 합니다.
시험 문제:
- 단일 작업 (Atomic): "100 원 보내기"처럼 한 번에 끝나는 간단한 문제.
- 복합 작업 (Composite): "먼저 승인하고, 그다음에 코인을 사고, 마지막으로 예치하기"처럼 여러 단계를 거쳐야 하는 복잡한 미션.

3. 시험은 어떻게 진행되나요? (운영 방식)

이 시험의 가장 큰 특징은 **"매번 다른 변수"**를 사용한다는 점입니다.

비유: 만약 시험이 "100 원 보내기"로 고정되어 있다면, AI 는 그냥 "100"이라는 숫자를 외워서 답을 맞출 수 있습니다.
EVM-QuestBench 방식: "0.37 개 코인 보내기", "123.45 달러 환전하기"처럼 숫자를 매번 랜덤으로 바꿉니다.
- 이렇게 하면 AI 가 답을 외우는 게 아니라, 숫자를 이해하고 계산하는 진짜 능력을 보여줘야만 점수를 받을 수 있습니다.

4. 주요 발견 사항 (시험 결과)

20 개의 AI 모델을 시험시켜 보니 흥미로운 결과가 나왔습니다.

단순함 vs 복잡함의 괴리:
- 어떤 AI 는 "100 원 보내기" (단일 작업) 는 완벽하게 잘하지만, "승인 후 사고 예치하기" (복합 작업) 는 완전히 망칩니다.
- 반대로, 어떤 AI 는 복잡한 미션을 잘 해결하지만, 아주 간단한 숫자 계산에서 실수를 하기도 합니다.
- 비유: 어떤 운전사는 직선 도로 (단일 작업) 는 잘 가지만, 복잡한 회전교차로 (복합 작업) 에 들어가면 길을 잃는 것과 같습니다.
상위권 모델의 특징:
- Claude-Sonnet-4.5가 가장 높은 점수를 받았습니다. 이 모델은 단순히 코드를 짜는 것을 넘어, "어떤 순서로 해야 돈을 잃지 않을까?"를 계획하는 능력이 뛰어났습니다.
실패 원인:
- 많은 AI 가 "승인 (Approve)"이라는 단계를 건너뛰고 바로 "거래 (Swap)"를 시도하다가 실패했습니다. 블록체인에서는 "먼저 허락을 받아야 (승인) 거래가 가능하다"는 규칙이 있는데, 이를 잊어버린 것입니다.

5. 결론 및 의의

이 연구는 AI 가 블록체인 세계에 들어가기 위해 필요한 최소한의 안전장치를 마련했습니다.

기존: "코드가 예쁘게 쓰였나요?" (문법 검사)
새로운 기준: "코드가 실행되어 돈을 안전하게 처리했나요?" (실전 검증)

이 벤치마크는 앞으로 AI 가 금융이나 블록체인 같은 위험한 분야에서 일할 때, **"이 AI 는 실제로 돈을 맡겨도 안전한가?"**를 판단하는 데 중요한 기준이 될 것입니다. 마치 새로운 운전자가 실제 도로에서 운전하는 모습을 보고 면허를 발급하는 것과 같습니다.

한 줄 요약:

"AI 가 블록체인 코드를 잘 쓴다고 해서 안심할 수 없습니다. 실제로 돈을 움직여 보는 시뮬레이션 시험을 통과해야만 진짜 실력자입니다!"

Each language version is independently generated for its own context, not a direct translation.

EVM-QuestBench: 실행 기반 (Execution-Grounded) 온체인 트랜잭션 코드 생성 벤치마크

1. 문제 정의 (Problem)

대형 언어 모델 (LLM) 이 블록체인 개발 및 온체인 트랜잭션 생성에 점점 더 많이 적용되고 있지만, 이 분야는 치명적인 재정적 위험을 내포하고 있습니다. 주소, 단위 (decimals), 기한 등 사소한 오류조차 되돌릴 수 없는 손실로 이어질 수 있습니다.
기존의 코드 생성 벤치마크 (BLEU, CodeBLEU 등) 는 주로 텍스트의 겉면적 유사성 (lexical overlap) 에 의존하거나, 상태가 없는 (stateless) 함수 합성에 초점을 맞추고 있어, 공유된 외부 상태 (shared mutable state), 되돌릴 수 없는 행동 (irreversible actions), 그리고 프로토콜 제약 조건이 중요한 블록체인 환경의 실제 실행 정확도와 안전성을 평가하는 데 한계가 있습니다.

2. 방법론 (Methodology)

저자들은 EVM-QuestBench를 제안했습니다. 이는 EVM 호환 체인 (BNB Smart Chain 기반) 에서 자연어 지시를 실행 가능한 트랜잭션 스크립트로 변환하는 능력을 평가하는 실행 기반 (Execution-Grounded) 벤치마크입니다.

역동적 평가 (Dynamic Evaluation):
- 고정된 테스트 케이스 대신, 템플릿 풀에서 지시문을 샘플링하고 미리 정의된 구간 내에서 숫자 파라미터 (금액, 토큰 수량 등) 를 동적으로 생성합니다.
- 이는 모델이 훈련 데이터의 특정 패턴을 암기하는 것을 방지하고, 임의의 숫자 입력에 대한 추론 능력과 단위 변환 정확도를 검증합니다.
아키텍처 및 실행 프로토콜:
- ** runner:** 생성된 TypeScript 모듈을 포크된 EVM 체인 (Anvil fork) 에서 실행합니다.
- 스냅샷 격리 (Snapshot Isolation): 각 태스크 실행 전 체인 상태를 스냅샷으로 복원하여 태스크 간 간섭을 방지하고 일관된 초기 조건을 보장합니다.
- 검증자 (Validators): 실행 후 영수증 (receipt) 과 상태 변화 (post-state) 를 검증하여 점수를 매깁니다. 코드 매칭이 아닌 기능적 정확성을 평가합니다.
태스크 구성:
- 원자적 태스크 (Atomic, 62 개): 단일 온체인 액션 (예: 토큰 전송, 승인) 을 수행합니다.
- 복합 태스크 (Composite, 45 개): 다단계 워크플로우 (예: 승인 $\rightarrow$ 스왑 $\rightarrow$ 스테이킹) 를 요구합니다.
- 점수 산정: 복합 태스크는 최종 상태 달성 여부에 기반하되, **단계 효율성 감쇠 (step-efficiency decay)**를 적용합니다. 최적 단계 수 ( $K_{opt}$ ) 보다 실제 단계 수 ( $K_{act}$ ) 가 많을 경우 점수가 감소합니다.

3. 주요 기여 (Key Contributions)

EVM-QuestBench 벤치마크 출시: EVM 호환 체인용 자연어 - 트랜잭션 스크립트 생성을 위한 최초의 실행 기반 벤치마크로, 원자적 (Atomic) 과 복합적 (Composite) 분할을 도입했습니다.
효율적인 벤치마크 개발 패러다임: JSON 정의와 검증자 클래스만으로 태스크를 쉽게 확장할 수 있는 모듈러 아키텍처를 제공하여 개발 비용을 크게 절감합니다.
강력한 실행 프로토콜: 스냅샷 격리, 고정된 runner 인터페이스, 그리고 영수증 및 상태 제약 조건 기반의 검증자 점수 시스템을 제공합니다.
포괄적인 모델 평가: 20 개의 다양한 LLM 을 대상으로 5 회 독립적인 평가 라운드를 수행하여 통계적 유의성을 확보하고, 단일 액션 정밀도와 다단계 워크플로우 완수 능력 간의 비대칭성을 규명했습니다.

4. 결과 (Results)

20 개의 모델을 5 회 평가한 결과 (총 10,700 회 태스크 실행), 다음과 같은 주요 발견이 있었습니다:

성능 편차: 상위 모델 (Claude-Sonnet-4.5, Gemini-3-Pro 등) 은 평균 총점 7,700 점 이상을 기록했으나, 하위 모델들은 점수가 현저히 낮았습니다.
능력의 비대칭성 (Asymmetry):
- 워크플로우 중심 모델: DeepSeek-V3.2, Gemini-2.5-Flash 등은 원자적 태스크 점수는 다소 낮지만 복합 태스크 점수가 높아, 다단계 계획 및 종단 간 완수 능력이 뛰어납니다.
- 정밀도 중심 모델: Claude-Haiku-4.5 등은 단일 액션 정밀도는 높으나, 다단계 의존성 추적을 어려워하여 복합 태스크에서 실패합니다.
- 코드 특화 모델의 실패: Qwen3-Coder 시리즈 등 일부 코딩 특화 모델은 인터페이스 오류 (ethers 라이브러리 누락 등) 로 인해 복합 태스크에서 거의 0 점에 가까운 성적을 보였습니다.
통계적 안정성: 5 회 평가에서 모델 간 순위 상관관계 (Spearman's rank correlation) 가 0.960 으로 매우 높아 평가 결과의 신뢰성이 입증되었습니다.

5. 의의 및 결론 (Significance)

블록체인 자동화의 새로운 표준: 단순한 코드 생성이 아닌, 실행 결과와 상태 변화를 기준으로 한 평가 방식을 제시하여 온체인 자동화의 안전성과 신뢰성을 높이는 데 기여합니다.
실제 위험 시뮬레이션: LLM 이 생성한 코드가 실제 체인에서 어떻게 작동하는지 (실패, 부분 실행, 잘못된 상태 전이 등) 를 포착하여, 실제 금융 손실을 예방하는 데 필요한 평가 기준을 마련했습니다.
확장성: 이 아키텍처는 Solana 등 다른 블록체인으로 쉽게 확장 가능하여, 다양한 웹 3 환경에서의 LLM 능력을 평가하는 표준 프레임워크로 자리 잡을 잠재력을 가집니다.

이 연구는 LLM 이 블록체인 분야에서 실제 활용되기 위해서는 단순한 문법적 정확도를 넘어, 프로토콜 제약, 상태 관리, 그리고 다단계 계획 능력을 종합적으로 검증해야 함을 강조합니다.

EVM-QuestBench: An Execution-Grounded Benchmark for Natural-Language Transaction Code Generation

🚀 EVM-QuestBench: 블록체인 코딩 실력을 측정하는 '실전 시뮬레이션'

1. 왜 이 연구가 필요한가요? (문제 상황)

2. EVM-QuestBench 란 무엇인가요? (해결책)

3. 시험은 어떻게 진행되나요? (운영 방식)

4. 주요 발견 사항 (시험 결과)

5. 결론 및 의의

EVM-QuestBench: 실행 기반 (Execution-Grounded) 온체인 트랜잭션 코드 생성 벤치마크

1. 문제 정의 (Problem)

2. 방법론 (Methodology)

3. 주요 기여 (Key Contributions)

4. 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

Image Captioning via Compact Bidirectional Architecture

Correspondence Analysis and PMI-Based Word Embeddings: A Comparative Study

Connecting Voices: LoReSpeech as a Low-Resource Speech Parallel Corpus

ThinkQE: Query Expansion via an Evolving Thinking Process

AgentCoMa: A Compositional Benchmark Mixing Commonsense and Mathematical Reasoning in Real-World Scenarios