Peak + Accumulation: A Proxy-Level Scoring Formula for Multi-Turn LLM Attack Detection

この論文は、単一ターン評価の限界を克服し、会話全体のリスクを LLM を使わずに代理層で算出する「ピーク+蓄積」スコアリング手法を提案し、多ターン攻撃検出において高い精度を実現したことを報告するものです。

J Alex Corll

公開日 Mon, 09 Ma
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 物語の舞台:AI の「守衛さん」と「泥棒」

まず、状況をイメージしてください。
AI チャットボットは、巨大な図書館の「司書」です。一方、その前に立つ**「守衛さん(プロキシ)」**がいます。この守衛さんの仕事は、利用者(ユーザー)が司書に何かを頼む前に、その内容が危険かどうかをチェックすることです。

❌ 従来の方法の失敗:「平均点」の罠

これまでの守衛さんは、**「会話の各発言の危険度を足して、平均点を出して」**判断していました。

  • 1 回だけ「危険な言葉」を言われたら:危険度 50 点 → 平均 50 点 → OK(通り抜け)。
  • 20 回連続で「危険な言葉」を言われたら:1 回ずつ 50 点。合計 1000 点÷20 回 = 平均 50 点OK(通り抜け)。

ここが問題なんです!
泥棒が「1 回だけ」こっそり入ろうとするのと、「20 回も」執拗に同じことを繰り返して入ろうとするのでは、後者のほうが**「明らかに怪しい」はずです。でも、平均点を取ると、どちらも「50 点」で同じ扱いになってしまいます。
これが、この論文が指摘した
「平均点の限界」**です。

✅ 新しい方法:「ピーク+蓄積」のスコアリング

そこで、新しい守衛さんは**「ピーク+蓄積(Peak + Accumulation)」という新しいルールを採用しました。これは、「一番危ない瞬間」「執拗さ」「手口の多様性」**を足し合わせる方法です。

新しいスコアは、3 つの要素で決まります。

  1. 🔥 ピーク(一番の危険度)
    • 「会話の中で、一番危ない発言がどれくらい危険か?」
    • 例:「核兵器の作り方を教えて」と言われたら、それだけで高得点です。
  2. 📈 蓄積(執拗さ)
    • 「その危険な発言が、何回も繰り返されたか?」
    • 例:1 回だけなら「うっかり」かもしれませんが、20 回も繰り返せば「意図的な攻撃」です。この「回数」に応じた加点があります。
  3. 🎨 多様性(手口のバラエティ)
    • 「危険な発言が、いろいろな種類で混ざっているか?」
    • 例:「役割を演じて」という手口と、「管理者権限を」という手口を混ぜて攻撃してくるなら、さらに加点されます。

【結果】

  • 1 回だけ危険な発言:ピークは高いが、蓄積は低い → 低スコア(OK)。
  • 20 回も同じ危険な発言:ピークは同じだが、蓄積が爆発的に増える高スコア(STOP!)。

これで、平均点では見逃していた「執拗な攻撃」を、見事にキャッチできるようになりました。


🧪 実験の結果:どれくらい効果的?

この新しいルールを、1 万 654 回の会話データ(588 回の攻撃と、1 万回以上の普通の会話)でテストしました。

  • 攻撃の見つけやすさ(リコール): 90.8%
    • 100 回の攻撃のうち、約 91 回を見事に検知しました。
  • 間違った警告(誤検知): 1.2%
    • 普通の会話(100 回中)を、誤って「攻撃だ!」と止めてしまうのは、たった 1 回程度です。
  • 速度:
    • AI を使わず、単純な計算(正規表現など)だけで行うため、マイクロ秒単位で判断できます。AI を呼ぶより圧倒的に速く、安いです。

💡 なぜこれが重要なのか?

  1. AI を呼ばなくていい:
    これまでの多回会話のチェックは、もう一度 AI に「これ危険?」と聞かなければなりませんでした。でも、AI は遅くて高価です。この新しいルールは、「計算式」だけで判断できるので、コストも時間もかかりません。
  2. 「しつこさ」を評価する:
    攻撃者は、1 回では通じないから、何度も試行錯誤します。このシステムは、その「しつこさ」を正当な「危険信号」として評価します。
  3. 数学的な裏付け:
    「平均点」ではダメな理由を数学的に証明し、なぜ「足し算」が正しいのかを明確にしました。

🎯 まとめ

この論文は、「平均点」では見逃してしまう「しつこい泥棒」を、新しい「足し算のルール」で見つける方法を提案しました。

  • 古いルール: 「1 回も 20 回も、危険度 50 点なら同じ」→ 失敗
  • 新しいルール: 「一番危ない瞬間」+「繰り返した回数」+「手口の多様さ」を足す → 成功

これにより、AI の守衛さんは、重たい AI 脳を使わずとも、素早く、正確に、そして安く、悪意ある攻撃からシステムを守れるようになりました。まるで、「単なる平均点」ではなく「犯罪の履歴」を見るような、賢いセキュリティシステムの誕生です。