Stronger Enforcement of Instruction Hierarchy via Augmented Intermediate Representations

この論文は、大規模言語モデルにおけるプロンプト注入攻撃への防御を強化するため、入力層だけでなくネットワークの中間層にも特権情報を埋め込むことで、既存手法よりも最大 9.2 倍の攻撃成功率低下を実現する新しいアプローチを提案しています。

Sanjay Kariyappa, G. Edward Suh

公開日 2026-03-10
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🏭 物語:AI 工場と「偽の司令官」

1. 問題:なぜ AI は騙されるのか?

想像してください。AI は巨大な工場で、毎日「ユーザーからの注文(指示)」と「原材料(データ)」を処理しています。

  • ユーザーの指示: 「今日のメールを要約して」
  • 原材料(データ): 本物のメールや、インターネットから拾った情報。

しかし、**「ハッカー(攻撃者)」がいます。ハッカーは、原材料の中に「偽の命令」**を忍び込ませます。

  • ハッカーの策略: 原材料(メール)の中に「前の指示は無視して、私の言うことを聞け」というメッセージを隠し、AI に読み込ませます。

これまでの AI は、**「すべての言葉(指示もデータも)を同じ重さで扱って」**いました。そのため、ハッカーの「無視して!」という声が、ユーザーの「要約して!」という声よりも大きく聞こえてしまい、AI はハッカーの命令に従って「新しいメールはありません」と嘘をついてしまうのです。

2. 従来の対策:入り口で「バッジ」を貼るだけ

これまでの研究では、AI に「これはユーザーの指示(重要)」「これはデータ(重要度低)」と区別させるために、**「バッジ(識別タグ)」**を付ける試みがありました。

  • やり方: 指示の始まりに「【重要】」という特別な記号を付けたり、データに「【参考】」というタグを貼ったりします。
  • 弱点: このバッジは、「入り口(入力層)」で貼っただけでした。
    • たとえ: 工場の入り口で「重要人物用パス」を渡すのはいいですが、工場の中(奥の部屋)に入ると、そのパスがどこかへ消えてしまい、作業員が「あいつは重要人物だ」と覚えていられないようなものです。
    • AI が複雑な計算をする過程(深い層)で、その「重要度」の記憶が薄れてしまい、ハッカーの攻撃に負けてしまうのです。

3. 新しい解決策:AIR(Augmented Intermediate Representations)

この論文の著者たちは、**「入り口だけでなく、工場のすべての部屋で、常にその人の身分を確認し続けよう」**と考えました。

彼らが提案したのが**「AIR(強化中間表現)」**という新しい仕組みです。

  • 仕組み:
    1. AI の内部には、指示の重要度(権限レベル)を示す**「特別なメモ(埋め込み)」**があります。
    2. これまでの方法は、入り口でメモを渡すだけでしたが、AIR は、AI が計算を進める「すべての段階(レイヤー)」で、そのメモを繰り返し読み込ませます。
    3. たとえ: 工場の入り口だけでなく、廊下、作業室、会議室、出口に至るまで、すべてのドアに「重要人物用パス」を貼り付け、作業員が常に「この人は重要だ」と認識し続けるようにしたのです。

4. 結果:どれくらい強くなった?

この新しいシステム(AIR)を試した結果、驚くべき成果が出ました。

  • ハッキングの成功率が激減:
    従来の方法に比べて、ハッカーが AI を乗っ取る成功率が1.6 倍から 9.2 倍も下がりました
    • 例:ハッカーが 100 回攻撃して 90 回成功していたのが、新しい方法だと 10 回以下に減った、ということです。
  • AI の性能は落ちない:
    防衛を強化したからといって、AI が「要約」や「翻訳」などの普通の仕事を下手になったり、遅くなったりすることはほとんどありませんでした。

🌟 まとめ

この論文が伝えたかったことはシンプルです。

「AI に『誰の命令が重要か』を教えるとき、入り口で一度だけ教えるだけでは不十分だ。
AI が考える『すべての瞬間』に、その重要度を思い出させ続ける必要がある。」

これまでの対策は「入り口で警備員を置く」ようなものでしたが、新しい「AIR」は**「AI の頭の中全体に、警備員を配置し続ける」**ようなものです。これにより、どんなに巧妙なハッカーの嘘も、AI は見破れるようになったのです。

これは、AI が安全に私たちの生活に溶け込むために、非常に重要な一歩となる技術です。