Re-Evaluating EVMBench: Are AI Agents Ready for Smart Contract Security?

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 物語の舞台：「AI 探偵」のテスト

まず、背景から説明します。
以前、OpenAI などの大企業は、**「AI 探偵（エージェント）」**がスマートコントラクトのハッキング（セキュリティ事故）を 7 割以上見つけ、ハッキング自体も成功させられるという驚くべき結果を発表しました。
これにより、「もう人間が監査する必要はない。AI だけで全部解決できる！」という楽観的な空気が広がりました。

しかし、この論文の著者たち（ブロックチェーンのセキュリティ専門家）は、**「待てよ、そのテストは少し『甘すぎ』では？」**と感じました。

🧐 2 つの大きな「罠」

著者たちは、前のテストに 2 つの大きな問題があると考えました。

「過去の問題集」を解かされていた
- 例え話: 試験で「過去に出た問題」を解かされた学生が 100 点を取ったとしても、それは「記憶力」が良いだけで、「新しい問題」が解けるかどうかはわかりません。
- 実情: 前のテストに使われたデータは、AI がすでに学習した「過去のハッキング事件」ばかりでした。AI は「答えを覚えていた」可能性が高いのです。
「専用ツール」を使いすぎた
- 例え話: 料理の腕前を比べるテストで、A さんは「プロ仕様の高級包丁」を使い、B さんは「家庭用の包丁」を使っていたら、結果は公平ではありません。
- 実情: 前のテストでは、AI モデルごとに「メーカー推奨の専用ツール」が使われていました。これでは、AI の能力ではなく「ツールの性能」が結果を左右していた可能性があります。

🔍 新しいテスト：「未知の事件」で試す

そこで著者たちは、**「より厳しく、公平なテスト」**を行いました。

新しいデータ: 2026 年 2 月以降に実際に起きた**「22 件のリアルなハッキング事件」**を使いました。これらは AI が学習する前に起きた事件なので、AI は「答えを覚えていません」。
公平な環境: さまざまな AI モデルに、同じツール（またはオープンソースのツール）を使ってテストしました。

📉 驚きの結果：「AI はまだ完璧ではない」

新しいテストの結果は、楽観的な見方とは全く異なるものでした。

発見率は「半分」程度
- 前のテストでは 45% 以上見つけていたのに、新しいテストでは65% 程度（それでも悪くないですが、100% ではありません）。
- 重要: 残りの 35% は、AI が**「見逃した」**ということです。
「発見」はできても「ハッキング」はできない
- 例え話: 泥棒の「入り口（弱点）」を見つけることはできても、実際に「金庫を開けてお金を持って逃げる」ことまではできません。
- 実情: AI は弱点を見つけましたが、「実際にハッキングして金を盗む（悪用する）」という最終段階では、22 件中 0 件で失敗しました。前のテストでは 7 割成功していたのに、現実では全くダメだったのです。
「ツール」で結果が変わる
- 同じ AI でも、使うツール（包丁）を変えると、成績が 5% 以上も上下しました。前のテストはこれを無視していました。

💡 結論：AI は「助手」であって「主人」ではない

この研究から得られた結論は以下の通りです。

AI 単独では危険: AI だけでセキュリティチェックを任せると、見逃しが多く、「安全だ」と思い込む危険な誤解を生みます。
AI の得意なこと: よくある「定番のミス」（例：パスワードのかけ忘れ、単純な計算ミス）を見つけるのは得意です。
人間の役割: 複雑な仕組みや、そのプロジェクト特有の「裏事情」を理解し、AI が見逃した部分をチェックするのは、まだ人間の専門家が必要です。

🤝 未来の形：「人間と AI のタッグ」

著者たちは、これからのセキュリティ監査は、**「人間と AI のチームワーク」**がベストだと提案しています。

AI の仕事: 膨大なコードをざっと読み、「よくあるミス」を大量にチェックする（「広範囲の網」）。
人間の仕事: AI が拾い漏らした複雑な問題や、AI が「これだ！」と報告したものの「本当にそうか？」を最終判断し、文脈を理解する（「深い洞察」）。

まとめ:
AI は「優秀な新人助手」ですが、まだ「ベテランの監督」にはなれません。
スマートコントラクトのセキュリティを守るためには、AI という「強力な道具」を、人間の「経験と直感」と組み合わせて使うことが、今のところ最も安全で賢い方法です。

Re-Evaluating EVMBench: Are AI Agents Ready for Smart Contract Security?

🕵️‍♂️ 物語の舞台：「AI 探偵」のテスト

🧐 2 つの大きな「罠」

🔍 新しいテスト：「未知の事件」で試す

📉 驚きの結果：「AI はまだ完璧ではない」

💡 結論：AI は「助手」であって「主人」ではない

🤝 未来の形：「人間と AI のタッグ」

論文「Re-Evaluating EVMBench: Are AI Agents Ready for Smart Contract Security?」の技術的サマリー

1. 問題定義 (Problem)

2. 手法 (Methodology)

3. 主要な貢献 (Key Contributions)

4. 結果 (Results)

A. 検出タスク (Detection)

B. 悪用タスク (Exploitation)

C. ケーススタディ

5. 意義と示唆 (Significance & Implications)

結論

Re-Evaluating EVMBench: Are AI Agents Ready for Smart Contract Security?

🕵️‍♂️ 物語の舞台：「AI 探偵」のテスト

🧐 2 つの大きな「罠」

🔍 新しいテスト：「未知の事件」で試す

📉 驚きの結果：「AI はまだ完璧ではない」

💡 結論：AI は「助手」であって「主人」ではない

🤝 未来の形：「人間と AI のタッグ」

論文「Re-Evaluating EVMBench: Are AI Agents Ready for Smart Contract Security?」の技術的サマリー

1. 問題定義 (Problem)

2. 手法 (Methodology)

3. 主要な貢献 (Key Contributions)

4. 結果 (Results)

A. 検出タスク (Detection)

B. 悪用タスク (Exploitation)

C. ケーススタディ

5. 意義と示唆 (Significance & Implications)

結論

関連論文

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities