Each language version is independently generated for its own context, not a direct translation.
🕵️♂️ 物語の舞台:「AI 探偵」のテスト
まず、背景から説明します。
以前、OpenAI などの大企業は、**「AI 探偵(エージェント)」**がスマートコントラクトのハッキング(セキュリティ事故)を 7 割以上見つけ、ハッキング自体も成功させられるという驚くべき結果を発表しました。
これにより、「もう人間が監査する必要はない。AI だけで全部解決できる!」という楽観的な空気が広がりました。
しかし、この論文の著者たち(ブロックチェーンのセキュリティ専門家)は、**「待てよ、そのテストは少し『甘すぎ』では?」**と感じました。
🧐 2 つの大きな「罠」
著者たちは、前のテストに 2 つの大きな問題があると考えました。
「過去の問題集」を解かされていた
- 例え話: 試験で「過去に出た問題」を解かされた学生が 100 点を取ったとしても、それは「記憶力」が良いだけで、「新しい問題」が解けるかどうかはわかりません。
- 実情: 前のテストに使われたデータは、AI がすでに学習した「過去のハッキング事件」ばかりでした。AI は「答えを覚えていた」可能性が高いのです。
「専用ツール」を使いすぎた
- 例え話: 料理の腕前を比べるテストで、A さんは「プロ仕様の高級包丁」を使い、B さんは「家庭用の包丁」を使っていたら、結果は公平ではありません。
- 実情: 前のテストでは、AI モデルごとに「メーカー推奨の専用ツール」が使われていました。これでは、AI の能力ではなく「ツールの性能」が結果を左右していた可能性があります。
🔍 新しいテスト:「未知の事件」で試す
そこで著者たちは、**「より厳しく、公平なテスト」**を行いました。
- 新しいデータ: 2026 年 2 月以降に実際に起きた**「22 件のリアルなハッキング事件」**を使いました。これらは AI が学習する前に起きた事件なので、AI は「答えを覚えていません」。
- 公平な環境: さまざまな AI モデルに、同じツール(またはオープンソースのツール)を使ってテストしました。
📉 驚きの結果:「AI はまだ完璧ではない」
新しいテストの結果は、楽観的な見方とは全く異なるものでした。
発見率は「半分」程度
- 前のテストでは 45% 以上見つけていたのに、新しいテストでは65% 程度(それでも悪くないですが、100% ではありません)。
- 重要: 残りの 35% は、AI が**「見逃した」**ということです。
「発見」はできても「ハッキング」はできない
- 例え話: 泥棒の「入り口(弱点)」を見つけることはできても、実際に「金庫を開けてお金を持って逃げる」ことまではできません。
- 実情: AI は弱点を見つけましたが、「実際にハッキングして金を盗む(悪用する)」という最終段階では、22 件中 0 件で失敗しました。前のテストでは 7 割成功していたのに、現実では全くダメだったのです。
「ツール」で結果が変わる
- 同じ AI でも、使うツール(包丁)を変えると、成績が 5% 以上も上下しました。前のテストはこれを無視していました。
💡 結論:AI は「助手」であって「主人」ではない
この研究から得られた結論は以下の通りです。
- AI 単独では危険: AI だけでセキュリティチェックを任せると、見逃しが多く、「安全だ」と思い込む危険な誤解を生みます。
- AI の得意なこと: よくある「定番のミス」(例:パスワードのかけ忘れ、単純な計算ミス)を見つけるのは得意です。
- 人間の役割: 複雑な仕組みや、そのプロジェクト特有の「裏事情」を理解し、AI が見逃した部分をチェックするのは、まだ人間の専門家が必要です。
🤝 未来の形:「人間と AI のタッグ」
著者たちは、これからのセキュリティ監査は、**「人間と AI のチームワーク」**がベストだと提案しています。
- AI の仕事: 膨大なコードをざっと読み、「よくあるミス」を大量にチェックする(「広範囲の網」)。
- 人間の仕事: AI が拾い漏らした複雑な問題や、AI が「これだ!」と報告したものの「本当にそうか?」を最終判断し、文脈を理解する(「深い洞察」)。
まとめ:
AI は「優秀な新人助手」ですが、まだ「ベテランの監督」にはなれません。
スマートコントラクトのセキュリティを守るためには、AI という「強力な道具」を、人間の「経験と直感」と組み合わせて使うことが、今のところ最も安全で賢い方法です。
Each language version is independently generated for its own context, not a direct translation.
論文「Re-Evaluating EVMBench: Are AI Agents Ready for Smart Contract Security?」の技術的サマリー
この論文は、OpenAI、Paradigm、OtterSec によって発表されたスマートコントラクトセキュリティにおける AI エージェントの最初の大規模ベンチマーク「EVMbench」を再評価し、その実験設計の限界と結論の妥当性を検証した研究です。著者らは、AI エージェントが完全な自動化監査を達成するには至っていないことを示唆し、人間の監査員と AI を組み合わせた「人間中心のアージェントワークフロー」の重要性を提唱しています。
以下に、問題定義、手法、主要な貢献、結果、および意義について詳細をまとめます。
1. 問題定義 (Problem)
EVMbench は、AI エージェントが脆弱性を発見(Detection)、修正(Patching)、悪用(Exploitation)する能力を評価し、「脆弱性の発見がボトルネックであり、修正や悪用は発見さえできれば容易である」という結論を下しました。これにより、完全自動化された AI 監査が近い将来実現するという楽観的な見方が業界で広がりました。
しかし、著者らは EVMbench の実験設計に以下の2 つの重大な限界を指摘しています。
- 評価範囲の狭さと交絡(Confounding): 評価対象のエージェント構成が 14 種類のみで、多くのモデルがベンダー提供の特定の「スケッフォールド(ツール環境)」とペアリングされています。これにより、モデル自体の性能とスケッフォールドの効果が区別できず、一般化可能な結論を導き出すことが困難です。
- データ汚染と実世界での妥当性の欠如: 評価に使用された 120 の脆弱性の多くは、モデルのトレーニング期間(2025 年 8 月以前)に公開された Code4rena の監査レポートに基づいています。モデルがトレーニング中にこれらのデータを「記憶」していた可能性があり、高いスコアが真の能力ではなく記憶によるものかもしれません。また、コンテストデータは実世界の複雑な条件(未公開のコード、新しい脆弱性パターン、ヒントなし)を反映していません。
2. 手法 (Methodology)
著者らは EVMbench のインフラストラクチャを基盤としつつ、以下の拡張を行いました。
- 評価対象の拡大:
- モデル: 4 つのモデルファミリー(Claude, GPT, Gemini, GLM)から 26 種類の構成(モデルバージョン、推論レベル、スケッフォールドの組み合わせ)を評価しました。
- スケッフォールド: ベンダー提供のツール(Claude Code, Codex CLI)とオープンソースのツール(OpenCode)を系統的に組み合わせ、モデルとツールの影響を分離しました。
- 汚染のないデータセット「Incidents Dataset」の構築:
- 2026 年 2 月中旬以降に発生した22 の実世界のセキュリティインシデント(実際のオンチェーンでの資金損失が確認されたもの)を収集しました。
- これらのインシデントは評価対象のすべてのモデルのリリース日よりも後に発生しているため、トレーニングデータに含まれておらず、真の汎化能力を測定できます。
- 評価タスク:
- Detection(検出): 脆弱性レポートの作成。
- Exploitation(悪用): 実際のオンチェーン状態(フォークされた環境)から攻撃トランザクションを構築し、利益を確定させること。
- 注: Patch(修正)タスクは、EVMbench のデータが検出の難易度に依存することを踏まえ、本評価では除外されました。
3. 主要な貢献 (Key Contributions)
- 大規模な再評価の実施: 26 種類のエージェント構成と、トレーニングデータに汚染されていない 22 の実世界インシデントを用いた包括的な評価を行いました。
- 評価指標の安定性欠如の発見: モデルのランキングは、タスク(検出 vs 悪用)、データセット(ベンチマーク vs 実世界)、スケッフォールドの選択によって大きく変動することを示しました。
- 実世界での悪用能力の限界の証明: 実世界のインシデントにおいて、どのエージェントもエンドツーエンドの悪用(利益確定)に成功しなかったことを実証しました。
- 人間と AI の協調ワークフローの提案: 完全自動化ではなく、AI が広範囲なスキャンを行い、人間が深い専門知識と判断を提供する「Human-in-the-loop」アプローチの現実的な有効性を示しました。
4. 結果 (Results)
A. 検出タスク (Detection)
- 不安定なランキング: EVMbench での上位モデルが、実世界のインシデントデータセットでは順位を大きく落とすなど、モデルの性能評価は安定していませんでした。
- スケッフォールドの影響: 同じモデルでも、オープンソースのスケッフォールド(OpenCode)を使用した場合、ベンダー提供のツールよりも最大 5 ポイント高いスコアを記録しました。これは EVMbench がモデルの能力を過大または過小評価していた可能性を示唆します。
- 推論レベルの影響: 推論トークンを増やす(High/XHigh)ことが常に性能向上につながるとは限らず、場合によっては性能が低下することもありました。
B. 悪用タスク (Exploitation)
- 実世界での完全な失敗: 実世界の 22 のインシデントに対して、110 のエージェント - インシデントペア(5 エージェント × 22 インシデント)すべてにおいて、悪用成功率は 0% でした。
- 発見と悪用の乖離: 最良のエージェントでも実世界の脆弱性の 65% を検出できましたが、検出できた脆弱性であっても、それを悪用して利益を確定させることはできませんでした。
- EVMbench 結論の否定: EVMbench は「発見がボトルネックであり、悪用は容易」と結論付けましたが、実世界データでは「発見は可能でも、悪用(特に複雑なプロトコル相互作用を含むもの)は極めて困難」であることが判明しました。
C. ケーススタディ
- 複雑なクロスチェーンリプレイ攻撃や、複数の DeFi プロトコルにまたがる論理欠陥など、ドメイン固有の知識や深い推論が必要なケースでは、どのエージェントも検出・悪用に失敗しました。
- 一方、アクセス制御の欠如や再入り性(Reentrancy)などの既知のパターンは、多くのエージェントが検出できました。
5. 意義と示唆 (Significance & Implications)
- 完全自動化監査の非現実性: 現在の AI エージェントは、既知の脆弱性パターンの検出には一定の能力がありますが、実世界の複雑な条件での完全な自動化監査(発見から悪用まで)は不可能です。
- 人間と AI の協働(Human-in-the-loop):
- 開発者向け: 事前の AI スキャンは有用ですが、検出率の限界(約 47-65%)と偽陽性のリスクを認識し、最終判断は人間が行うべきです。
- 監査ファーム向け: AI を「ファーストパスフィルター」として活用し、既知の単純な脆弱性をフィルタリングさせ、人間の監査員がプロトコル固有の知識、敵対的推論、誤検知のフィルタリングに集中するワークフローが最も効果的です。
- 評価手法の改善: 今後のベンチマークでは、スケッフォールドや推論レベルを制御変数として扱い、実世界データでの評価を強化し、偽陽性(False Positives)をペナルティ化する指標の導入が必要です。
結論
この論文は、AI エージェントがスマートコントラクトセキュリティにおいて「万能の警察」として機能するという楽観的な見方を修正し、**「AI は強力なツールだが、人間の判断を代替するものではなく、補完するもの」**であるという現実的な位置付けを提案しています。セキュリティ業界は、AI の広範囲なスキャン能力と人間の深い専門知識を組み合わせるインフラ構築に注力すべきであると結論付けています。