Each language version is independently generated for its own context, not a direct translation.

🚗 自動運転の「運転免許試験」：EVM-QuestBench の解説

この論文は、**「AI（大規模言語モデル）にブロックチェーンの取引を任せるのは、本当に安全なのか？」という重要な問いに答えるために作られた、新しい「運転免許試験」**のようなものです。

以下に、難しい専門用語を使わず、日常の例え話で解説します。

1. なぜこんな試験が必要なの？（背景）

今、AI はプログラミングや文章作成が得意になりました。でも、ブロックチェーン（仮想通貨の世界）での取引は少し違います。

普通のコード: 間違っても「エラー」が出るだけ。
ブロックチェーン: 間違えると**「お金が消えてしまう」**という取り返しのつかない事態になります。

これまでの AI の評価テストは、「コードが似ているか（文字の一致）」を見ていました。でも、**「実際に走って、目的地に正しく着いたか（実行結果）」**を見ていないのが問題でした。
「目的地は東京駅」と言われて、AI が「新宿駅」に連れて行っても、文字が似ていれば合格点を与えてしまうようなテストだったのです。

2. EVM-QuestBench とは？（新テストの仕組み）

この新しいテスト（EVM-QuestBench）は、**「実際に車を走らせて、目的地に到着したか」**を厳しくチェックする試験です。

試験会場: 本物のブロックチェーン（BSC）をコピーした「フォーク（模擬環境）」を使います。ここなら失敗してもお金は失われません。
試験内容:
- 単独問題（Atomic）: 「A さんから B さんに 100 円送金して」という、1 回だけの簡単な動作。
- 複合問題（Composite）: 「A さんに許可をもらい、そのお金で B さんに交換し、さらに C さんに預けて」という、複数の手順を踏む複雑なミッション。
採点方法: 文字の一致ではなく、**「実際にブロックチェーン上で状態が変わったか」**を自動でチェックします。

3. 面白い特徴：2 つの「運転スキル」を別々に見る

このテストの最大の特徴は、AI の能力を**「単発の運転」と「長距離のナビゲーション」**に分けて評価している点です。

単発スキル（Atomic）: 「信号で止まる」「ハンドルを切る」といった、1 回ごとの正確さ。
複合スキル（Composite）: 「目的地までのルート规划（計画）」「次の信号までの距離計算」「必要な手続きの順序」といった、全体の流れを管理する力。

【結果の驚き】
20 種類の AI をテストしたところ、面白い結果が出ました。

**「単発は完璧だが、長距離は迷う AI」**もいれば、
**「1 回ごとのミスはあるが、全体の流れは完璧にこなす AI」**もいました。
つまり、「コードを書くのが得意な AI」と「複雑なタスクを計画する AI」は、必ずしも同じではないことがわかりました。

4. 具体的なテストのイメージ

例えば、こんな問題が出ます。

問題: 「0.1 ETH（仮想通貨）を USDT に交換して、残高を確認してください」

AI の役割: この指示を聞いて、必要なプログラム（コード）を書く。
ランナー（試験官）: AI が書いたコードを、模擬環境で実際に実行する。
チェック:
- 交換は成功したか？
- 手数料は正しく引かれたか？
- 残高は増えたか？
- 余計な手順を踏んでいないか？（例：交換する前に、わざわざ 3 回も確認作業をして時間を無駄にしたら減点）

5. なぜこれが重要なのか？（結論）

このテストは、AI が**「安全に、正確に、効率的に」**お金の動きを制御できるかどうかを証明する基準になります。

開発者にとって: 「どの AI を使えば安心か」がわかります。
ユーザーにとって: 「AI に任せても大丈夫な取引」の基準が作られます。
未来: この仕組みを使えば、Solana などの他のブロックチェーンでも同じようにテストできるようになります。

まとめ

EVM-QuestBench は、**「AI にブロックチェーンを任せる前に、実際に運転させて合格点を出すための、世界で最も厳しい運転免許試験」**です。

これにより、AI が「文字を並べるだけ」の存在から、「実際に価値ある作業を安全にこなせるパートナー」へと進化するための道筋が作られました。

Each language version is independently generated for its own context, not a direct translation.

EVM-QuestBench: 技術的サマリー（日本語）

本論文は、EVM 互換チェーン（特に BNB Smart Chain）における「自然言語からトランザクションスクリプトへの生成」を対象とした、実行ベースの評価ベンチマーク**「EVM-QuestBench」**を提案するものです。大規模言語モデル（LLM）のブロックチェーン取引への応用において、わずかなエラーが取り返しのつかない資産損失につながるという深刻な課題に対し、従来のコード生成ベンチマークが不足している「実行精度」と「安全性」の評価枠組みを提供します。

以下に、問題定義、手法、主要な貢献、結果、および意義について詳細をまとめます。

1. 問題定義と背景

背景: LLM はコード生成やツール制御に広く利用されていますが、ブロックチェーン取引（オンチェーン取引）の文脈では、アドレス、単位、期限などの微小な誤りが「不可逆的な損失」を招くリスクがあります。
既存評価の限界:
- 従来の評価（BLEU, CodeBLEU など）は、参照コードとの表面的な類似性を重視しており、実際に実行可能か、機能制約を満たすかは保証されません。
- SWE-bench などのソフトウェアエンジニアリング向けベンチマークは、Web2/Web3 環境特有のトランザクション実行能力を直接評価できません。
- 既存のブロックチェーン特化ベンチマーク（Solana Bench など）は、自然言語理解の精度や取引実行の安全性に対するフィードバックが不十分です。
課題: LLM は多様な自然言語指示を解釈し、正しい calldata を構築し、チェーン固有の単位やトークンの小数点以下桁数を考慮し、プロトコル制約や多段階の依存関係を管理する必要があります。これらはいずれも、単なるテキスト生成ではなく、実行ベースの評価を必要とします。

2. 手法とアーキテクチャ

EVM-QuestBench は、自然言語指示を EVM 互換チェーン上で実行可能な TypeScript モジュールに変換するタスクを評価します。

2.1 ベンチマークの構成

タスク数: 合計 107 タスク（原子タスク 62 件、複合タスク 45 件）。
スプリット:
- Atomic（原子タスク）: 単一のオンチェーンアクション（送金、スワップ、承認など）の精度を評価。
- Composite（複合タスク）: 複数のトランザクションからなるワークフロー（例：承認→スワップ→ステーキング）を評価。計画、前提条件の処理、パラメータの伝播が求められます。
動的インスタンス化:
- テンプレートプールから指示をサンプリングし、数値パラメータ（送金量など）を定義された範囲から動的に生成します。
- これにより、モデルが訓練データの特定のパターンを暗記することを防ぎ、数値推論の堅牢性をテストします。

2.2 評価パイプライン

環境: Anvil を用いた BSC メインネットのフォーク（チェーン ID 56）上で実行。
アイソレーション: 各タスク実行前にスナップショットを復元し、タスク間の干渉を防ぎ、初期状態を統一します。
実行:
- Atomic: シングルショットで TypeScript モジュールを生成し、実行。
- Composite: マルチターン対話プロトコルを使用。まず LLM がサブタスクの計画（Plan）を立て、その後、各ステップでコードを生成・実行し、結果（レシート、状態変化）をフィードバックとして受け取り、完了までループします。
検証（Validator）:
- 参照コードとの比較ではなく、**実行後の状態（Post-state）**を検証します。
- 動的にサンプリングされたパラメータに基づき、トランザクションの成功、アドレスの正確性、関数シグネチャ、状態変化（残高増減など）をチェックします。
- Composite スコアリング: 最終状態の達成度をベースとし、最適ステップ数（ $K_{opt}$ ）に対する実際の実行ステップ数（ $K_{act}$ ）の比率に基づき、ステップ効率の減衰（ $S = S_{base} \cdot \min(1, K_{opt}/K_{act})$ ）を適用します。

3. 主要な貢献

EVM-QuestBench の公開: EVM 互換チェーン向けの自然言語からトランザクションスクリプト生成のためのベンチマークを公開。Atomic と Composite の 2 つの分割を導入。
効率的な開発パラダイム: 原子/複合タスクのアーキテクチャにより、LLM 支援開発を含むベンチマークの構築コストを大幅に削減（JSON 定義とバリデーターの追加のみで新規タスク作成が可能）。
実行プロトコルの確立: スナップショットアイソレーション、固定されたランナーインターフェース、レシートと事後制約に基づくバリデーター型スコアリングを提供。
包括的な評価結果: 20 種類のモデルを 5 回独立したラウンドで評価。単一アクションの精度と多段階ワークフローの完了能力の間に持続的な非対称性（ギャップ）があることを実証。

4. 結果と分析

20 種類のモデル（Claude-Sonnet-4.5, Gemini-3-Pro, GPT-5 など）を評価した結果、以下のような知見が得られました。

性能のばらつき: トップモデル（Claude-Sonnet-4.5）は平均総スコア 8,236 点を記録し、安定性も高かった（CV=2.1%）。一方、下位モデルは大幅に劣ります。
能力の非対称性（Atomic vs Composite）:
- ワークフロー指向モデル: DeepSeek-V3.2 や Gemini-2.5-Flash は、Atomic スコアは中程度でも Composite スコアが高く、多段階の計画と実行に強い傾向を示しました。
- 精度指向モデル: Claude-Haiku-4.5 や Devstral-2512 は Atomic スコアは高いものの、Composite（多段階タスク）では性能が低下し、依存関係の追跡に課題があることが示されました。
- コード特化モデルの失敗: Qwen3-Coder などの一部モデルは、Atomic では一定の性能を示すものの、Composite タスクではスキーマエラーやインターフェース不備によりスコアがほぼゼロとなりました。
失敗要因: 複合タスクの失敗は、主に「前提条件の誤り（承認忘れなど）」「ステップ間パラメータの一貫性欠如」「複数トランザクション実行中の堅牢性不足」に起因していました。

5. 意義と将来展望

安全性と実用性の担保: 単なるコードの生成ではなく、ブロックチェーン上で実際に実行され、意図した状態変化を起こすかどうかを評価する枠組みは、LLM を金融アプリケーションに導入する際のリスク管理に不可欠です。
標準化されたプロトコル: 実行ベースの評価プロトコルは、オンチェーン自動化の研究における標準的な評価手法として機能します。
拡張性: このアーキテクチャは Solana などの他のブロックチェーンへの移植も容易であり、将来的にはセキュリティチェックの強化や、タスク定義自体の生成能力評価への展開が予定されています。

結論:
EVM-QuestBench は、LLM がブロックチェーン取引を安全かつ正確に実行できるかを検証するための重要なツールです。特に、「単一アクションの精度」と「多段階ワークフローの完了能力」の間に明確な乖離があることを示し、今後のモデル開発において、単なるコード生成能力だけでなく、複雑な依存関係を管理する計画能力の重要性を浮き彫りにしました。

EVM-QuestBench: An Execution-Grounded Benchmark for Natural-Language Transaction Code Generation