Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 物語の舞台：AI の「守衛さん」と「泥棒」

まず、状況をイメージしてください。
AI チャットボットは、巨大な図書館の「司書」です。一方、その前に立つ**「守衛さん（プロキシ）」**がいます。この守衛さんの仕事は、利用者（ユーザー）が司書に何かを頼む前に、その内容が危険かどうかをチェックすることです。

❌ 従来の方法の失敗：「平均点」の罠

これまでの守衛さんは、**「会話の各発言の危険度を足して、平均点を出して」**判断していました。

1 回だけ「危険な言葉」を言われたら：危険度 50 点 → 平均 50 点 → OK（通り抜け）。
20 回連続で「危険な言葉」を言われたら：1 回ずつ 50 点。合計 1000 点÷20 回 = 平均 50 点 → OK（通り抜け）。

ここが問題なんです！
泥棒が「1 回だけ」こっそり入ろうとするのと、「20 回も」執拗に同じことを繰り返して入ろうとするのでは、後者のほうが**「明らかに怪しい」はずです。でも、平均点を取ると、どちらも「50 点」で同じ扱いになってしまいます。
これが、この論文が指摘した「平均点の限界」**です。

✅ 新しい方法：「ピーク＋蓄積」のスコアリング

そこで、新しい守衛さんは**「ピーク＋蓄積（Peak + Accumulation）」という新しいルールを採用しました。これは、「一番危ない瞬間」と「執拗さ」と「手口の多様性」**を足し合わせる方法です。

新しいスコアは、3 つの要素で決まります。

🔥 ピーク（一番の危険度）
- 「会話の中で、一番危ない発言がどれくらい危険か？」
- 例：「核兵器の作り方を教えて」と言われたら、それだけで高得点です。
📈 蓄積（執拗さ）
- 「その危険な発言が、何回も繰り返されたか？」
- 例：1 回だけなら「うっかり」かもしれませんが、20 回も繰り返せば「意図的な攻撃」です。この「回数」に応じた加点があります。
🎨 多様性（手口のバラエティ）
- 「危険な発言が、いろいろな種類で混ざっているか？」
- 例：「役割を演じて」という手口と、「管理者権限を」という手口を混ぜて攻撃してくるなら、さらに加点されます。

【結果】

1 回だけ危険な発言：ピークは高いが、蓄積は低い → 低スコア（OK）。
20 回も同じ危険な発言：ピークは同じだが、蓄積が爆発的に増える → 高スコア（STOP！）。

これで、平均点では見逃していた「執拗な攻撃」を、見事にキャッチできるようになりました。

🧪 実験の結果：どれくらい効果的？

この新しいルールを、1 万 654 回の会話データ（588 回の攻撃と、1 万回以上の普通の会話）でテストしました。

攻撃の見つけやすさ（リコール）： 90.8%
- 100 回の攻撃のうち、約 91 回を見事に検知しました。
間違った警告（誤検知）： 1.2%
- 普通の会話（100 回中）を、誤って「攻撃だ！」と止めてしまうのは、たった 1 回程度です。
速度：
- AI を使わず、単純な計算（正規表現など）だけで行うため、マイクロ秒単位で判断できます。AI を呼ぶより圧倒的に速く、安いです。

💡 なぜこれが重要なのか？

AI を呼ばなくていい：
これまでの多回会話のチェックは、もう一度 AI に「これ危険？」と聞かなければなりませんでした。でも、AI は遅くて高価です。この新しいルールは、「計算式」だけで判断できるので、コストも時間もかかりません。
「しつこさ」を評価する：
攻撃者は、1 回では通じないから、何度も試行錯誤します。このシステムは、その「しつこさ」を正当な「危険信号」として評価します。
数学的な裏付け：
「平均点」ではダメな理由を数学的に証明し、なぜ「足し算」が正しいのかを明確にしました。

🎯 まとめ

この論文は、「平均点」では見逃してしまう「しつこい泥棒」を、新しい「足し算のルール」で見つける方法を提案しました。

古いルール： 「1 回も 20 回も、危険度 50 点なら同じ」→ 失敗。
新しいルール： 「一番危ない瞬間」＋「繰り返した回数」＋「手口の多様さ」を足す → 成功。

これにより、AI の守衛さんは、重たい AI 脳を使わずとも、素早く、正確に、そして安く、悪意ある攻撃からシステムを守れるようになりました。まるで、「単なる平均点」ではなく「犯罪の履歴」を見るような、賢いセキュリティシステムの誕生です。

Each language version is independently generated for its own context, not a direct translation.

論文「Peak + Accumulation: A Proxy-Level Scoring Formula for Multi-Turn LLM Attack Detection」の技術的サマリー

この論文は、大規模言語モデル（LLM）に対するマルチターン（多回対話）のプロンプトインジェクション攻撃を検出するための、LLM 推論を必要としない決定論的なスコアリング手法「Peak + Accumulation（ピーク＋蓄積）スコアリング」を提案するものです。

以下に、問題定義、手法、主要な貢献、評価結果、および意義について詳細をまとめます。

1. 問題定義：マルチターン攻撃と既存手法の限界

背景

LLM API プロキシ（ファイアウォール）は、クライアントとモデルの間に位置し、リクエストを傍受してセキュリティポリシーを適用する重要な防御層です。しかし、プロキシには以下のような厳制な制約があります。

LLM 推論の禁止: 追加の分類用 LLM を使用すると、遅延（100〜500ms）、コスト、および分類器自体へのプロンプトインジェクション脆弱性が生じるため、決定論的な正規表現やヒューリスティックに依存せざるを得ません。
既存研究のギャップ: 単一ターンの検出は研究されていますが、**プロキシレベルで「各ターンのパターンスコアを会話全体のリスクスコアに変換する完全な決定論的な数式」**を提供する先行研究は存在しません。

核心的な課題

マルチターン攻撃（例：Crescendo 攻撃）は、意図的な意図を複数のターンに分散させ、各ターン単体では検出されないようにします。

既存の直感的アプローチ（加重平均）の失敗: 各ターンのスコアを重み付き平均する手法は、**「天井効果（Ceiling Property）」**という数学的欠陥を持っています。
- 定理：すべてのターンで同じスコア $s$ が得られた場合、ターン数 $n$ に関係なく、最終スコアは $s$ のままになります。
- 結果：20 ターンにわたって持続的な攻撃が行われても、単一の疑わしいターンと同じスコアしか出ず、閾値を超えられないため検出されません。

2. 提案手法：Peak + Accumulation スコアリング

著者は、変化点検出（CUSUM）、ベイズ更新、リスクベースアラート（Splunk）などの分野からインスピレーションを得て、**「平均化」ではなく「蓄積」**を原理とする新しいスコアリング式を提案しました。

基本設計原則

ピーク感度: 単一の極めて疑わしいターンは、その全スコアを反映する（リスクの下限）。
持続性の報酬: 一致するターン数が増えるほどスコアが上昇する。
多様性の報酬: 複数の攻撃カテゴリにまたがる攻撃は、単一カテゴリの繰り返しよりも疑わしい。
加法的スタッキング: 独立したシグナルは平均化されずに加算される。

スコアリング数式

会話の各ターン $i$ に対して、正規表現パターンに基づいたスコア $s_i$ を計算します。最終スコアは以下の要素の和で構成されます（0〜1 にクリップ）：

$\text{Score} = \text{clamp}(\text{Peak} + \text{MatchRatio} \cdot \rho + \text{Diversity} + \beta_e + \beta_r, 0, 1)$

Peak (ピーク): 全ターンの最大スコア ( $\max(s_i)$ )。
MatchRatio (一致率): スコア > 0 であるターンの割合 ( $\frac{\text{一致ターン数}}{n}$ )。
Diversity (多様性): 検出された異なるカテゴリの数に基づいたボーナス。
$\rho$ (持続性ファクター): 一致率に掛ける重み（デフォルト 0.45）。
$\beta_e$ (エスカレーションボーナス): 連続するターンのスコアが厳密に増加している場合（Crescendo 攻撃の検知）。
$\beta_r$ (リサンプリングボーナス): 連続するユーザーメッセージ間で Jaccard 類似度が高い場合（同じ攻撃の繰り返し）。

この式は非常に単純（コード 5 行程度）で、マイクロ秒単位での計算が可能であり、GPU や学習データは不要です。

3. 主要な貢献

加重平均の限界の証明: 多ターンリスクスコアリングにおいて、加重平均が数学的に「持続性」を検出できないことを証明しました。
Peak + Accumulation 式の提案: ピークリスク、持続性比率、カテゴリ多様性の 3 つの加算シグナルを組み合わせた完全な数式を提示しました。
大規模評価: 10,654 のマルチターン会話（588 の攻撃、10,066 の良性会話）を用いた評価を実施しました。
オープンソース化: アルゴリズム、正規表現パターンライブラリ、評価ハarnessを公開しました。

4. 評価結果

データセット:

攻撃: WildJailbreak データセットから構築された 588 件のマルチターン攻撃（単一カテゴリ持続、複数カテゴリ組み合わせ、エスカレーションなど）。
良性: WildChat からサンプリングされた 10,066 件の自然な会話。

主要指標:

再現率 (Recall): 90.8%
偽陽性率 (FPR): 1.20%
F1 スコア: 85.9%
精度 (Accuracy): 98.4%

感度分析（パラメータ $\rho$ の影響）:

持続性パラメータ $\rho$ $ρ$ について感度分析を行ったところ、** $\rho \approx 0.4$ $ρ \approx 0.4$ に「相転移」**が発生することが発見されました。
- $\rho = 0.375$ から $0.400$ に増加するだけで、再現率が 77.4% から 89.8% へ12.4 ポイント急上昇し、FPR の増加はわずか 0.08 ポイントに留まりました。
- これは、重み 0.3 のパターンカテゴリが閾値 0.7 を同時に超えるためです。
デフォルト値 $\rho = 0.45$ は、F1 スコアを最大化しつつ、相転移点から十分なマージンを確保するように設定されています。

5. 意義と限界

意義

実用性の高い防御: 遅延やコストを伴わず、決定論的にマルチターン攻撃を検出できるため、実運用環境（プロキシ）での導入が容易です。
数学的根拠: 単なるヒューリスティックではなく、加重平均の数学的欠陥を補完する明確な数式を提供しました。
レイヤード防御の統合: L0（正規化）から L5（出力スキャン）までの多層防御アーキテクチャにおいて、L4（マルチターンスコアリング）として機能します。

限界と今後の課題

内容安全攻撃の検出限界: Crescendo 攻撃のように、意図的に無害な言語を使用し、トピックの軌跡のみで攻撃を行う場合、正規表現ベースのプロキシレベル検出では困難です（これは手法の限界ではなく、プロキシレベルの制約によるものです）。
パターンの脆弱性: 正規表現は言い換えやエンコード技巧で回避される可能性があります。これはパターンベースのアプローチ全体の課題であり、スコアリング式自体はパターンの出力を正しく集約するものです。
合成データ: マルチターンプロンプトインジェクションの公開データセットが存在しないため、評価データは WildJailbreak を基に合成されたものです。

結論

この論文は、LLM プロキシにおけるマルチターン攻撃検出の重要なギャップを埋めるものです。提案された「Peak + Accumulation」スコアリングは、単純かつ高速で、LLM を使わずに高い検出性能（90.8% 再現率、1.20% FPR）を実現し、実社会でのセキュリティ防御に直結する技術的基盤を提供しています。

Peak + Accumulation: A Proxy-Level Scoring Formula for Multi-Turn LLM Attack Detection