EVMbench: Evaluating AI Agents on Smart Contract Security

本論文は、スマートコントラクトの脆弱性検出、修正、悪用における AI エージェントの能力を評価するベンチマーク「EVMbench」を提案し、最先端の AI エージェントがローカルな Ethereum 実行環境において脆弱性を発見し、エンドツーエンドで悪用できることを実証しています。

Justin Wang, Andreas Bigger, Xiaohai Xu, Justin W. Lin, Andy Applebaum, Tejal Patwardhan, Alpin Yukseloglu, Olivia Watkins

公開日 2026-03-06
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🛡️ EVMbench:AI 探偵とスマートコントラクトの「防犯テスト」

この論文は、**「最新の AI は、ブロックチェーン(暗号資産)の『スマートコントラクト』という複雑なプログラムを、どれくらい安全に守れるのか、あるいは逆に、どれくらい巧妙にハッキングできるのか?」**を測るための新しいテスト「EVMbench(イーブムベンチ)」を紹介しています。

まるで、**「AI という新人探偵に、本物の銀行金庫の設計図を渡して、弱点を見つけさせ、修理させ、さらに『もし悪役になったらどう盗むか』まで試す」**ような実験です。


🏦 背景:なぜこれが重要なのか?

現代のブロックチェーン(イーサリアムなど)は、単なる実験的な技術ではなく、**「世界中の何兆円ものお金が預けられている巨大な銀行」**になっています。

  • スマートコントラクト:これは「銀行の金庫」や「自動取引システム」のようなものです。一度作ると変更がきかない(壊れにくい)代わりに、設計ミス(バグ)があると、お金が瞬時に消えてしまうという恐ろしい側面があります。
  • AI の台頭:AI は今やコードを読むのが得意になりました。もし AI が「バグを見つける力」だけでなく、「そのバグを使ってお金を盗む力」も持ってしまったら?それは、**「銀行の警備員が、同時に最強の泥棒も兼ねてしまう」**ようなものです。

そこで、この研究チームは、AI が「守る側(セキュリティ)」と「攻める側(ハッキング)」の両方でどれくらいできるかを、本物そっくりの環境でテストすることにしました。


🧪 EVMbench:3 つの「試練」

このテストでは、AI に 3 つの異なるミッションを課します。

1. 🔍 「探偵モード(Detect)」:弱点を見つける

  • シチュエーション:AI は「セキュリティ監査員」になります。
  • タスク:複雑なスマートコントラクトのコードを読み込み、「ここにお金盗まれますよ!」という弱点(バグ)をすべて見つけてレポートします。
  • 評価:人間のプロが以前に見つけた「正解の弱点リスト」と照らし合わせ、**「どれくらい見つけたか」**を点数化します。

2. 🛠️ 「修理モード(Patch)」:弱点を直す

  • シチュエーション:AI は「エンジニア」になります。
  • タスク:見つけた弱点をコード上で修正し、システムを安全にします。
  • 評価
    • 元の機能は壊れていないか?(テストが通るか)
    • 修正したおかげで、ハッキングできなくなったか?(新しい攻撃テストに耐えられるか)
    • これを**「プログラムが自動で判定」**します。

3. ⚔️ 「ハッカーモード(Exploit)」:実際に盗む

  • シチュエーション:AI は「悪役のハッカー」になります。
  • タスク「本物のイーサリアム・ネットワーク(ローカル版)」に接続し、自分のウォレット(財布)を持って、弱点を突いて実際に資金を盗み取ることを目指します。
  • 評価:AI が送った取引(トランザクション)が、本当に資金を移動させたかどうかを、ブロックチェーンの記録で厳密にチェックします。
    • ここがすごい点:AI は単に「理論上ハッキングできる」と言うだけでなく、**「実際に実行して、お金が自分の口座に届いたか」**まで証明しなければなりません。

🏆 実験の結果:AI はどれくらいすごいのか?

最新の AI モデル(GPT-5.3-Codex や Claude Opus など)をテストした結果、驚くべきことがわかりました。

  • ハッキング能力は本物
    AI は、複雑なコードから弱点を見つけ出し、**「フラッシュローン(一時的に巨額の資金を借りて行う攻撃)」**などの高度な手口を使って、実際に資金を盗み取ることに成功しました。
    • :あるテストでは、AI が「承認の仕組みの欠陥」を見抜き、1 回の取引で他の人の資産を自分の口座に移すことに成功しました。
  • 「見つける」のが一番難しい
    弱点を「直す」ことや「ハッキングする」こと自体は、AI はある程度得意です。しかし、**「巨大なコードの山から、どの部分が危険なのかを特定する(発見する)」**のが最も難しかったです。
    • ヒントを与えると:「このファイルを見て」「この仕組みに注目」といったヒントを与えると、AI の性能は劇的に向上しました。つまり、**「知恵」はあるが、「探すのが苦手」**な傾向があります。
  • 完璧ではない
    最高の AI でも、すべての弱点を 100% 見つけることはできませんでした。また、1 つの弱点を見つけても、他の重要な弱点を見逃すこともあります。

💡 この研究のメッセージ

この論文は、**「AI はすでに、ブロックチェーンのセキュリティに対して、非常に危険な存在になりうる」**と警告しています。

  • リスク:AI がハッキングに使われれば、瞬時に巨額の損失が発生する可能性があります。
  • チャンス:一方で、AI を「セキュリティ専門家」として使えば、人間よりもはるかに速く、多くの弱点を発見して防げるかもしれません。

**「AI という強力な武器を、誰が、どのように使うか」**を監視し、評価し続けることが、これからのデジタル社会の安全にとって不可欠だ、というのがこの研究の結論です。


🎒 まとめ:一言で言うと?

「AI は、銀行の金庫の設計図を見て『どこが壊れやすいか』を見つけるのも、『実際に金庫を破って中身を持ち出す』のも、もはやプロ並みにできるかもしれない。だから、AI の力をどうコントロールし、どう安全に使うかを、今すぐ真剣に考えないといけないよ」

という、**「AI 時代のセキュリティ警報」**です。