EVM-QuestBench: An Execution-Grounded Benchmark for Natural-Language Transaction Code Generation

本論文は、EVM 互換チェーンにおける自然言語によるトランザクションコード生成の安全性と実行精度を動的に評価するためのベンチマーク「EVM-QuestBench」を提案し、20 のモデルを評価して単一動作の精度と多段階ワークフローの完了率の間に大きな非対称性があることを明らかにしたものである。

Pei Yang, Wanyi Chen, Ke Wang, Lynn Ai, Eric Yang, Tianyu Shi

公開日 Wed, 11 Ma
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🚗 自動運転の「運転免許試験」:EVM-QuestBench の解説

この論文は、**「AI(大規模言語モデル)にブロックチェーンの取引を任せるのは、本当に安全なのか?」という重要な問いに答えるために作られた、新しい「運転免許試験」**のようなものです。

以下に、難しい専門用語を使わず、日常の例え話で解説します。


1. なぜこんな試験が必要なの?(背景)

今、AI はプログラミングや文章作成が得意になりました。でも、ブロックチェーン(仮想通貨の世界)での取引は少し違います。

  • 普通のコード: 間違っても「エラー」が出るだけ。
  • ブロックチェーン: 間違えると**「お金が消えてしまう」**という取り返しのつかない事態になります。

これまでの AI の評価テストは、「コードが似ているか(文字の一致)」を見ていました。でも、**「実際に走って、目的地に正しく着いたか(実行結果)」**を見ていないのが問題でした。
「目的地は東京駅」と言われて、AI が「新宿駅」に連れて行っても、文字が似ていれば合格点を与えてしまうようなテストだったのです。

2. EVM-QuestBench とは?(新テストの仕組み)

この新しいテスト(EVM-QuestBench)は、**「実際に車を走らせて、目的地に到着したか」**を厳しくチェックする試験です。

  • 試験会場: 本物のブロックチェーン(BSC)をコピーした「フォーク(模擬環境)」を使います。ここなら失敗してもお金は失われません。
  • 試験内容:
    • 単独問題(Atomic): 「A さんから B さんに 100 円送金して」という、1 回だけの簡単な動作
    • 複合問題(Composite): 「A さんに許可をもらい、そのお金で B さんに交換し、さらに C さんに預けて」という、複数の手順を踏む複雑なミッション
  • 採点方法: 文字の一致ではなく、**「実際にブロックチェーン上で状態が変わったか」**を自動でチェックします。

3. 面白い特徴:2 つの「運転スキル」を別々に見る

このテストの最大の特徴は、AI の能力を**「単発の運転」「長距離のナビゲーション」**に分けて評価している点です。

  • 単発スキル(Atomic): 「信号で止まる」「ハンドルを切る」といった、1 回ごとの正確さ
  • 複合スキル(Composite): 「目的地までのルート规划(計画)」「次の信号までの距離計算」「必要な手続きの順序」といった、全体の流れを管理する力

【結果の驚き】
20 種類の AI をテストしたところ、面白い結果が出ました。

  • **「単発は完璧だが、長距離は迷う AI」**もいれば、
  • **「1 回ごとのミスはあるが、全体の流れは完璧にこなす AI」**もいました。
    つまり、「コードを書くのが得意な AI」と「複雑なタスクを計画する AI」は、必ずしも同じではないことがわかりました。

4. 具体的なテストのイメージ

例えば、こんな問題が出ます。

問題: 「0.1 ETH(仮想通貨)を USDT に交換して、残高を確認してください」

  • AI の役割: この指示を聞いて、必要なプログラム(コード)を書く。
  • ランナー(試験官): AI が書いたコードを、模擬環境で実際に実行する。
  • チェック:
    • 交換は成功したか?
    • 手数料は正しく引かれたか?
    • 残高は増えたか?
    • 余計な手順を踏んでいないか?(例:交換する前に、わざわざ 3 回も確認作業をして時間を無駄にしたら減点)

5. なぜこれが重要なのか?(結論)

このテストは、AI が**「安全に、正確に、効率的に」**お金の動きを制御できるかどうかを証明する基準になります。

  • 開発者にとって: 「どの AI を使えば安心か」がわかります。
  • ユーザーにとって: 「AI に任せても大丈夫な取引」の基準が作られます。
  • 未来: この仕組みを使えば、Solana などの他のブロックチェーンでも同じようにテストできるようになります。

まとめ

EVM-QuestBench は、**「AI にブロックチェーンを任せる前に、実際に運転させて合格点を出すための、世界で最も厳しい運転免許試験」**です。

これにより、AI が「文字を並べるだけ」の存在から、「実際に価値ある作業を安全にこなせるパートナー」へと進化するための道筋が作られました。