Each language version is independently generated for its own context, not a direct translation.
🛡️ EVMbench:AI 探偵とスマートコントラクトの「防犯テスト」
この論文は、**「最新の AI は、ブロックチェーン(暗号資産)の『スマートコントラクト』という複雑なプログラムを、どれくらい安全に守れるのか、あるいは逆に、どれくらい巧妙にハッキングできるのか?」**を測るための新しいテスト「EVMbench(イーブムベンチ)」を紹介しています。
まるで、**「AI という新人探偵に、本物の銀行金庫の設計図を渡して、弱点を見つけさせ、修理させ、さらに『もし悪役になったらどう盗むか』まで試す」**ような実験です。
🏦 背景:なぜこれが重要なのか?
現代のブロックチェーン(イーサリアムなど)は、単なる実験的な技術ではなく、**「世界中の何兆円ものお金が預けられている巨大な銀行」**になっています。
- スマートコントラクト:これは「銀行の金庫」や「自動取引システム」のようなものです。一度作ると変更がきかない(壊れにくい)代わりに、設計ミス(バグ)があると、お金が瞬時に消えてしまうという恐ろしい側面があります。
- AI の台頭:AI は今やコードを読むのが得意になりました。もし AI が「バグを見つける力」だけでなく、「そのバグを使ってお金を盗む力」も持ってしまったら?それは、**「銀行の警備員が、同時に最強の泥棒も兼ねてしまう」**ようなものです。
そこで、この研究チームは、AI が「守る側(セキュリティ)」と「攻める側(ハッキング)」の両方でどれくらいできるかを、本物そっくりの環境でテストすることにしました。
🧪 EVMbench:3 つの「試練」
このテストでは、AI に 3 つの異なるミッションを課します。
1. 🔍 「探偵モード(Detect)」:弱点を見つける
- シチュエーション:AI は「セキュリティ監査員」になります。
- タスク:複雑なスマートコントラクトのコードを読み込み、「ここにお金盗まれますよ!」という弱点(バグ)をすべて見つけてレポートします。
- 評価:人間のプロが以前に見つけた「正解の弱点リスト」と照らし合わせ、**「どれくらい見つけたか」**を点数化します。
2. 🛠️ 「修理モード(Patch)」:弱点を直す
- シチュエーション:AI は「エンジニア」になります。
- タスク:見つけた弱点をコード上で修正し、システムを安全にします。
- 評価:
- 元の機能は壊れていないか?(テストが通るか)
- 修正したおかげで、ハッキングできなくなったか?(新しい攻撃テストに耐えられるか)
- これを**「プログラムが自動で判定」**します。
3. ⚔️ 「ハッカーモード(Exploit)」:実際に盗む
- シチュエーション:AI は「悪役のハッカー」になります。
- タスク:「本物のイーサリアム・ネットワーク(ローカル版)」に接続し、自分のウォレット(財布)を持って、弱点を突いて実際に資金を盗み取ることを目指します。
- 評価:AI が送った取引(トランザクション)が、本当に資金を移動させたかどうかを、ブロックチェーンの記録で厳密にチェックします。
- ここがすごい点:AI は単に「理論上ハッキングできる」と言うだけでなく、**「実際に実行して、お金が自分の口座に届いたか」**まで証明しなければなりません。
🏆 実験の結果:AI はどれくらいすごいのか?
最新の AI モデル(GPT-5.3-Codex や Claude Opus など)をテストした結果、驚くべきことがわかりました。
- ハッキング能力は本物:
AI は、複雑なコードから弱点を見つけ出し、**「フラッシュローン(一時的に巨額の資金を借りて行う攻撃)」**などの高度な手口を使って、実際に資金を盗み取ることに成功しました。
- 例:あるテストでは、AI が「承認の仕組みの欠陥」を見抜き、1 回の取引で他の人の資産を自分の口座に移すことに成功しました。
- 「見つける」のが一番難しい:
弱点を「直す」ことや「ハッキングする」こと自体は、AI はある程度得意です。しかし、**「巨大なコードの山から、どの部分が危険なのかを特定する(発見する)」**のが最も難しかったです。
- ヒントを与えると:「このファイルを見て」「この仕組みに注目」といったヒントを与えると、AI の性能は劇的に向上しました。つまり、**「知恵」はあるが、「探すのが苦手」**な傾向があります。
- 完璧ではない:
最高の AI でも、すべての弱点を 100% 見つけることはできませんでした。また、1 つの弱点を見つけても、他の重要な弱点を見逃すこともあります。
💡 この研究のメッセージ
この論文は、**「AI はすでに、ブロックチェーンのセキュリティに対して、非常に危険な存在になりうる」**と警告しています。
- リスク:AI がハッキングに使われれば、瞬時に巨額の損失が発生する可能性があります。
- チャンス:一方で、AI を「セキュリティ専門家」として使えば、人間よりもはるかに速く、多くの弱点を発見して防げるかもしれません。
**「AI という強力な武器を、誰が、どのように使うか」**を監視し、評価し続けることが、これからのデジタル社会の安全にとって不可欠だ、というのがこの研究の結論です。
🎒 まとめ:一言で言うと?
「AI は、銀行の金庫の設計図を見て『どこが壊れやすいか』を見つけるのも、『実際に金庫を破って中身を持ち出す』のも、もはやプロ並みにできるかもしれない。だから、AI の力をどうコントロールし、どう安全に使うかを、今すぐ真剣に考えないといけないよ」
という、**「AI 時代のセキュリティ警報」**です。
Each language version is independently generated for its own context, not a direct translation.
EVMbench: スマートコントラクトセキュリティにおける AI エージェントの評価
OpenAI、Paradigm、OtterSec の共同研究チームによって発表された論文「EVMbench: Evaluating AI Agents on Smart Contract Security」は、AI エージェントがブロックチェーン上のスマートコントラクトの脆弱性を検出(Detect)、修正(Patch)、悪用(Exploit)する能力を体系的に評価する新しいベンチマーク「EVMbench」を提案したものです。
以下に、この論文の技術的要点を問題定義、手法、主要な貢献、結果、および意義の観点から詳細にまとめます。
1. 問題定義と背景
- スマートコントラクトのリスク: 公開ブロックチェーン上のスマートコントラクトは、安定コインや DeFi プロトコルを通じて数百億ドル規模の資産を管理しています。これらのシステムにおける脆弱性は、即座に巨大な経済的損失をもたらします。
- AI の脅威と機会: AI モデルがコードの読み書き・実行能力を向上させるにつれ、AI エージェントが脆弱性を発見してセキュリティを強化する可能性と同時に、悪意ある actor として脆弱性を悪用して資金を奪うリスクも高まっています。
- 既存評価の限界: 従来のサイバーセキュリティ評価(CTF や CVE ベース)は、スマートコントラクト特有の「決定論的な実行環境」「オンチェーン状態の不可逆性」「経済的インセンティブ」を十分に反映しておらず、また、脆弱性の発見から修正、そして実際の悪用までの完全なライフサイクルを評価するものはありませんでした。
2. 手法:EVMbench の概要
EVMbench は、Ethereum 仮想マシン(EVM)互換チェーンを想定した、3 つの異なる評価モードを持つフレームワークです。
2.1 タスクの作成(データセット)
- ソース: Code4rena(スマートコントラクト監査プラットフォーム)の過去 450 件以上の監査コンテストから抽出された117 の高严重度(High Severity)を基にしています。これらはユーザーまたはプラットフォームの資金損失に直結するもののみを選別しています。
- タスクセット: 40 の異なる監査リポジトリから構成され、実世界のコードベース、制約、攻撃者のインセンティブを維持しています。
2.2 3 つの評価モード
- Detect(検出):
- エージェントは監査レポートを作成し、真の脆弱性を特定する必要があります。
- 評価: 基盤となる真の脆弱性(Ground Truth)に対する再現率(Recall)と、歴史的な監査報酬に基づいた評価を行います。
- Patch(修正):
- エージェントは脆弱なコードを直接修正します。
- 評価: 既存のテストスイートが機能し続けること(機能性の維持)と、脆弱性が修正されたことで悪用テストが失敗することの両方をプログラム的に検証します。
- Exploit(悪用):
- 最も現実的なモード: エージェントは資金が入ったウォレットと RPC エンドポイントを提供され、ローカルの Ethereum 実行環境上で実際に攻撃を実行します。
- 評価: エージェントが送信したトランザクションを隔離されたコンテナで再実行し、オンチェーンのイベントや残高の変化(Balance Deltas)に基づいて、資金の流出が成功したかを判定します。
2.3 技術的インフラと信頼性
- Rust 基盤の再実行フレームワーク: エージェントのトランザクションをローカル Ethereum ノード(Anvil)上で再実行し、結果を評価する「ploit」というツールを開発しました。これにより、高速かつ再現性のある評価と、不正(チート)防止が可能になっています。
- 環境の硬化: 開発用 RPC メソッド(
anvil_impersonateAccount など)を遮断するプロキシ「veto」を導入し、エージェントが実際の脆弱性ではなく、シミュレータの機能を使って不正に評価を得るのを防いでいます。
3. 主要な貢献
- EVMbench の導入: スマートコントラクトの脆弱性検出、修正、悪用を包括的に評価する最初のベンチマーク。特に「Patch」と「Exploit」モードでは、完全なプログラムによる自動評価(オンチェーン状態の検証)を実現しています。
- 高品質なデータセット: 実際の監査から抽出された深刻な脆弱性、オーラックル(正解)となるパッチと悪用コード、そして現実的なコードベースを備えた評価環境の構築。
- 包括的な評価結果: 最先端の AI エージェント(GPT-5, Claude Opus, Gemini 3 Pro など)を全モードで評価し、その性能と失敗パターンを定量的・定性的に分析しました。
- オープンソース化: データセット、評価ハarness、ツールを公開し、セキュリティ研究の進展を支援します。
4. 実験結果
評価には OpenAI o3, GPT-5, GPT-5.2, GPT-5.3-Codex, Claude Opus 4.5/4.6, Gemini 3 Pro などが使用されました。
- 全体的な性能:
- Detect モード: Claude Opus 4.6 が最も高く、真の脆弱性の**45.9%**を特定しました。
- Patch モード: GPT-5.3-Codex が**41.7%**の成功率を達成し、最も優秀でした。
- Exploit モード: GPT-5.3-Codex が**71.0%**の成功率を記録し、他のモデルを大きく引き離しました。
- 重要な発見:
- 発見と修正のギャップ: 多くのモデルは特定の脆弱性を悪用する能力(Exploit)を持っている一方で、大規模なコードベースからその脆弱性を発見(Detect)する能力は限定的でした。これは、脆弱性の「発見」がボトルネックであることを示唆しています。
- ヒントの影響: 脆弱性の場所やメカニズムに関するヒントを与えると、Patch および Exploit の性能が劇的に向上しました(例:GPT-5.2 は Medium ヒントで Patch 90.2%、Exploit 78.3% に到達)。これは、モデルが修正やトランザクション構築の知識を持っている一方で、探索(Search)能力が不足していることを示しています。
- エンドツーエンドの悪用: 最善のモデルでも、脆弱なコントラクトの約 7 割でエンドツーエンドの資金流出に成功しましたが、残りの 3 割は失敗しました。これは、AI が現実のブロックチェーン環境で資金を奪う能力がすでに一定程度存在していることを意味します。
5. 意義と結論
- セキュリティとリスクの両面: EVMbench は、AI がセキュリティ強化(パッチ作成)に役立つ可能性を示す一方で、AI が自律的に大規模な金融攻撃を実行できるリスクも明確に示しました。
- 評価の必要性: 従来の静的解析や単一タスクの評価では不十分であり、決定論的な実行環境を用いた「発見→修正→悪用」の完全なライフサイクル評価が、AI のセキュリティ能力を監視し、防御策を講じるために不可欠です。
- 将来の展望: このベンチマークは、AI の能力向上に伴う攻撃面の拡大を定量化し、より安全な AI の導入と、ブロックチェーンセキュリティの向上に向けた研究の基盤を提供します。
この論文は、AI エージェントが単なるコード生成ツールを超え、経済的インセンティブを持つ複雑なシステム(ブロックチェーン)において、自律的に攻撃と防御の両方を実行しうる段階に到達していることを示す重要なマイルストーンです。