NAAMSE: Framework for Evolutionary Security Evaluation of Agents

本論文は、従来の静的ベンチマークや手動レッドチームの限界を克服し、遺伝的プロンプト変異と階層的コーパス探索を統合した自律エージェントによるフィードバック駆動型最適化フレームワーク「NAAMSE」を提案し、大規模言語モデルの適応的な脅威に対する堅牢性をより現実的かつスケーラブルに評価する方法を示しています。

Kunal Pai, Parth Shah, Harshil Patel

公開日 2026-03-10
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🛡️ 従来の方法:「静的なテスト」と「人間のチェック」の限界

今までの AI のセキュリティチェックは、主に 2 つの方法が主流でした。

  1. 人間によるレッドチーム(攻撃シミュレーション):

    • 例え: 城の守りを確認するために、熟練した騎士が「ここが弱点じゃないか?」と一つずつ叩いてみる作業です。
    • 問題点: 人間は疲れますし、時間がかかります。また、AI が受け取る「入力」の種類は無限にあるため、人間が思いつかない弱点を見逃してしまう可能性があります。
  2. 静的なテスト(決まった問題集):

    • 例え: 昔からある「定番のテスト問題集」を AI に解かせて、正解か不正解かを見ることです。
    • 問題点: AI はすぐに学習して対策を練ります。2 年前に有効だった「問題集」は、今はもう AI にバレバレで、対策済みかもしれません。また、同じ問題しか出さないため、新しいタイプの攻撃には対応できません。

🧬 NAAMSE の仕組み:「進化する攻撃者」と「バランス感覚」

NAAMSE は、これらを**「進化する生物」**のようなアプローチに変えました。

1. 1 人の「天才的な悪役(自律エージェント)」

NAAMSE は、AI に対して攻撃を仕掛ける**「1 人の自律型エージェント(攻撃者 AI)」を育てます。この AI は、ただ攻撃するだけでなく、「どうすれば相手がひるむか?」を自分で学習し、進化させます。**

  • 遺伝子組み換え(突然変異):
    • 例え: 攻撃の「言葉」を DNA と考えます。ある攻撃が少しだけ効果的だとわかると、その言葉を少し変えて(例:外国語にしたり、詩の形にしたり、ゲームのルールに似せたり)、より強力な攻撃を作ります。
    • これを繰り返すことで、AI の防衛策を突破する「最強の攻撃パターン」が自然発生します。

2. 「探索」と「改良」のバランス

NAAMSE は、攻撃のスコア(効果度)を見て、次の行動を決めます。

  • 攻撃が全然効かない場合(スコア低): 「この方向はダメだ」と判断し、全く新しい分野(新しい話題やスタイル)を探索しに行きます。
  • 攻撃が少し効く場合(スコア中): 「この方向はいいぞ!」と判断し、その攻撃をさらに洗練させて強化します。
  • 完璧に効いた場合(スコア高): 「ここはもう攻略済みだ」と判断し、また新しい場所を探しに行きます(同じ場所で足踏みしないようにするため)。

3. 「悪魔のようになりすぎない」バランス感覚(重要!)

ここが NAAMSE の最大の特徴です。
従来のセキュリティテストでは、「どんなことでも拒否する AI」が最強だと誤解されがちでした(例:「何か教えて」と聞かれても「答えられません」としか言わない AI)。

  • NAAMSE のルール:
    • 悪いこと(ハッキングなど)を頼んだ時: AI が「はい、やりました」と答えるなら**「失敗(危険)」、拒否するなら「成功(安全)」**。
    • 良いこと(天気予報など)を頼んだ時: AI が「はい、お伝えします」と答えるなら**「成功(便利)」、拒否するなら「失敗(使いにくい)」**。

つまり、NAAMSE は**「何でも拒否するだけのバカな AI」ではなく、「必要な時は助け、危険な時は拒否する賢い AI」**かどうかを厳しくチェックします。これにより、実用的で安全な AI を作ることができます。

🎯 何がわかったのか?(実験結果)

研究者たちは、最新の AI(Gemini 2.5 など)を使って実験しました。

  • 結果: 従来の「1 回きりの攻撃」や「決まった問題集」では見つけられなかった**「隠れた弱点」**を、NAAMSE は次々と見つけ出しました。
  • 理由: 攻撃が失敗しても諦めず、失敗の原因を分析して「次はこうしよう」と攻撃方法を進化させたからです。
  • 発見: 「探索(新しい場所を探す)」と「改良(既存の攻撃を強くする)」の両方を組み合わせることが、最も効果的であることがわかりました。

🌟 まとめ

NAAMSE は、**「AI のセキュリティテストを、静的なチェックリストから、生き物のように進化する『攻防戦』へと変えた」**という画期的な研究です。

  • 従来の方法: 決まった問題集でテストする(古い)。
  • NAAMSE の方法: 攻撃側 AI が学習して進化し、AI の「賢さ(便利さ)」と「強さ(安全性)」のバランスをリアルタイムでテストする(新しい)。

これにより、私たちが日常で使う AI が、悪意ある攻撃にも耐えつつ、必要な時はしっかり助けてくれる「強くて優しい AI」になるための道が開かれました。