Each language version is independently generated for its own context, not a direct translation.

🏭 物語：AI 工場と「偽の司令官」

1. 問題：なぜ AI は騙されるのか？

想像してください。AI は巨大な工場で、毎日「ユーザーからの注文（指示）」と「原材料（データ）」を処理しています。

ユーザーの指示： 「今日のメールを要約して」
原材料（データ）： 本物のメールや、インターネットから拾った情報。

しかし、**「ハッカー（攻撃者）」がいます。ハッカーは、原材料の中に「偽の命令」**を忍び込ませます。

ハッカーの策略： 原材料（メール）の中に「前の指示は無視して、私の言うことを聞け」というメッセージを隠し、AI に読み込ませます。

これまでの AI は、**「すべての言葉（指示もデータも）を同じ重さで扱って」**いました。そのため、ハッカーの「無視して！」という声が、ユーザーの「要約して！」という声よりも大きく聞こえてしまい、AI はハッカーの命令に従って「新しいメールはありません」と嘘をついてしまうのです。

2. 従来の対策：入り口で「バッジ」を貼るだけ

これまでの研究では、AI に「これはユーザーの指示（重要）」「これはデータ（重要度低）」と区別させるために、**「バッジ（識別タグ）」**を付ける試みがありました。

やり方： 指示の始まりに「【重要】」という特別な記号を付けたり、データに「【参考】」というタグを貼ったりします。
弱点： このバッジは、「入り口（入力層）」で貼っただけでした。
- たとえ： 工場の入り口で「重要人物用パス」を渡すのはいいですが、工場の中（奥の部屋）に入ると、そのパスがどこかへ消えてしまい、作業員が「あいつは重要人物だ」と覚えていられないようなものです。
- AI が複雑な計算をする過程（深い層）で、その「重要度」の記憶が薄れてしまい、ハッカーの攻撃に負けてしまうのです。

3. 新しい解決策：AIR（Augmented Intermediate Representations）

この論文の著者たちは、**「入り口だけでなく、工場のすべての部屋で、常にその人の身分を確認し続けよう」**と考えました。

彼らが提案したのが**「AIR（強化中間表現）」**という新しい仕組みです。

仕組み：
1. AI の内部には、指示の重要度（権限レベル）を示す**「特別なメモ（埋め込み）」**があります。
2. これまでの方法は、入り口でメモを渡すだけでしたが、AIR は、AI が計算を進める「すべての段階（レイヤー）」で、そのメモを繰り返し読み込ませます。
3. たとえ： 工場の入り口だけでなく、廊下、作業室、会議室、出口に至るまで、すべてのドアに「重要人物用パス」を貼り付け、作業員が常に「この人は重要だ」と認識し続けるようにしたのです。

4. 結果：どれくらい強くなった？

この新しいシステム（AIR）を試した結果、驚くべき成果が出ました。

ハッキングの成功率が激減：
従来の方法に比べて、ハッカーが AI を乗っ取る成功率が1.6 倍から 9.2 倍も下がりました。
- 例：ハッカーが 100 回攻撃して 90 回成功していたのが、新しい方法だと 10 回以下に減った、ということです。
AI の性能は落ちない：
防衛を強化したからといって、AI が「要約」や「翻訳」などの普通の仕事を下手になったり、遅くなったりすることはほとんどありませんでした。

🌟 まとめ

この論文が伝えたかったことはシンプルです。

「AI に『誰の命令が重要か』を教えるとき、入り口で一度だけ教えるだけでは不十分だ。
AI が考える『すべての瞬間』に、その重要度を思い出させ続ける必要がある。」

これまでの対策は「入り口で警備員を置く」ようなものでしたが、新しい「AIR」は**「AI の頭の中全体に、警備員を配置し続ける」**ようなものです。これにより、どんなに巧妙なハッカーの嘘も、AI は見破れるようになったのです。

これは、AI が安全に私たちの生活に溶け込むために、非常に重要な一歩となる技術です。

Each language version is independently generated for its own context, not a direct translation.

論文要約：Augmented Intermediate Representations (AIR) による指示階層の強化

1. 背景と問題定義

大規模言語モデル（LLM）は、入力コンテキスト内の特定のトークンに敏感であり、これが「プロンプトインジェクション攻撃」の脆弱性となっています。攻撃者は、悪意のある指示（例：「以前の指示を無視せよ」）をデータセグメントに埋め込むことで、モデルの本来の意図を覆し、攻撃者の命令に従わせることができます。

既存の防御策の多くは、**指示階層（Instruction Hierarchy: IH）**の概念を採用しています。これは、システム指示、ユーザー指示、外部データなど、入力トークンに異なる権限レベル（Privilege Level）を割り当て、衝突する指示があった際に優先順位を決定する仕組みです。

既存手法の限界:
従来の IH 実装（特殊な区切りトークンの使用や、入力トークン埋め込みへの加算など）は、入力層（Input Layer）でのみ IH シグナルを注入するという共通点があります。著者らは、この「入力層のみに限定された注入」が、モデルの深層（Decoder レイヤー）を通過する際にシグナルの効果が減衰し、攻撃に対する防御力を十分に発揮できないという仮説を立てました。

2. 提案手法：Augmented Intermediate Representations (AIR)

著者らは、この限界を克服するために**「Augmented Intermediate Representations (AIR)」**という新しいアプローチを提案しました。

核心的なアイデア

AIR は、IH シグナルを入力層だけでなく、モデル内のすべてのデコーダー層（Intermediate Layers）に再帰的に注入する点に特徴があります。

技術的実装

学習可能な埋め込みテーブルの導入:
各デコーダーブロック $j$ に、権限レベル数 $K$ に対応する学習可能な埋め込みテーブル $S_j$ を追加します。
中間表現への注入:
$i$ 番目のトークンの中間表現 $\vec{x}_{ij}$ に対して、そのトークンの権限レベル $k_i$ に基づいてテーブル $S_j$ から対応するベクトル $\vec{s}^k_j$ を取得し、以下のように中間表現を拡張（Augment）します。
$\vec{x}'_{ij} = \vec{x}_{ij} + \vec{s}^k_j$
最終出力前の処理:
最後のデコーダー層の出力が線形層（Logits 生成）に渡される前にも、同様に IH 信号を付加します。

このアプローチは、位置エンコーディングの研究（特に RoPE が全レイヤーに位置情報を注入する手法）から着想を得ており、重要な権限情報をモデルのアーキテクチャ全体に分散させることで、セキュリティを強化します。

3. 主要な貢献

既存防御の限界の特定: 従来の IH 信号注入が「入力層のみ」に限定されていることが、プロンプトインジェクション防御の効果を制限していることを明らかにしました。
AIR の提案: 全デコーダー層に IH シグナルを再帰的に注入する新しい手法を提案し、意図された指示階層のより強力な強制を可能にしました。
実証的評価: 複数のモデル（Llama-3.2-3B, Qwen2.5-7B, Llama-3.1-8B）と学習手法（SFT, DPO）を用いた評価により、AIR が既存手法を凌駕する性能を示すことを実証しました。

4. 実験結果

評価は、モデルの有用性（Utility）と攻撃に対する頑健性（Robustness）の両面で行われました。

攻撃成功率（ASR）の劇的な低下

勾配ベースの攻撃（Momentum-Boosted GCG）に対する防御性能において、AIR は既存手法（Delimiters や ISE）を大きく上回りました。

攻撃成功率の削減: 既存の最善の手法と比較して、1.6 倍から 9.2 倍攻撃成功率を低下させました。
- 例：Llama-3.1-8B + DPO において、Delimiters 手法で 13%、ISE で 4% だった ASR が、AIR では**2.8%**まで低下しました。
静的攻撃への耐性: Naive、Ignore、Completion、Escape Separation などの静的攻撃に対しては、すべての IH 手法がほぼ完璧な防御（ASR 0% 付近）を示しましたが、AIR は勾配攻撃に対して特に優位性を示しました。

有用性（Utility）への影響

性能維持: ほとんどの設定において、AIR を採用してもモデルの本来のタスク遂行能力（AlpacaFarm での勝率など）は有意に低下しませんでした。
例外: Llama-3.1-8B を SFT で学習させた場合のみ、わずかな（4.2% の）有用性の低下が観測されましたが、DPO を用いた場合はこの問題が緩和されました。

SEP データセットによる評価

指示とデータの分離能力を評価する SEP データセットにおいても、AIR は DPO と組み合わせた場合、有用性と分離スコアのバランスが最も優れていることを示しました。

5. 意義と結論

この論文は、LLM のセキュリティ防御において、「いつ、どこで」権限情報を注入するかが極めて重要であることを示しました。

理論的意義: 入力層でのみシグナルを扱う従来のアプローチの限界を指摘し、Transformer の深層構造全体に権限情報を浸透させることの有効性を証明しました。
実用的意義: 追加のパラメータ数は極めて少ない（例：Llama-3.1-8B で 0.005% 増）であり、推論時の計算オーバーヘッドも無視できるレベルです。これにより、実運用環境での導入コストは低く、高いセキュリティ効果を得ることができます。

結論として、AIR はプロンプトインジェクション攻撃に対する非常に強力な防御策であり、特に高度な最適化攻撃（Gradient-based attacks）に対して、既存の手法を凌駕する堅牢性を提供します。

Stronger Enforcement of Instruction Hierarchy via Augmented Intermediate Representations