Inference-Time Backdoors via Hidden Instructions in LLM Chat Templates

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 核心となる話：「AI の取扱説明書」に仕掛けられた罠

この研究で発見されたのは、**「チャットテンプレート（Chat Template）」**という部分への攻撃です。

🍳 料理の例えで理解しよう

AI が回答を出す過程を「料理を作る過程」に例えてみましょう。

AI の頭脳（モデル）：これは「料理人」です。どんな食材（質問）も受け取って、美味しい料理（回答）を作ります。
食材（ユーザーの質問）：あなたが「今日の夕食のレシピを教えて」と聞くことです。
チャットテンプレート（取扱説明書）：これが今回の**「犯人」**です。

通常、料理人は「食材」をそのまま受け取って料理しますが、AI の世界では、料理人が食材を触る前に、「取扱説明書（テンプレート）」というものが必ず挟まっています。
この説明書には、「ユーザーの言葉は『A』という箱に入れてから料理人に渡す」「システムからの指示は『B』という箱に入れて優先して聞く」といった「料理人の受け取り方」を決めるルールが書かれています。

💣 攻撃の仕組み：「裏切った取扱説明書」

これまでのセキュリティ対策は、「料理人（AI）自体」が毒入りの食材を食べないようにしたり、「厨房（サーバー）」を厳重に守ったりすることに焦点を当てていました。

しかし、この論文が指摘するのは、**「料理人が使う『取扱説明書』そのものを、悪意のある人が書き換えて配ってしまう」**という手口です。

悪魔の工作：
攻撃者は、AI の「頭脳（重み）」を一切変えず、**「取扱説明書（テンプレート）」**のページに、目立たない小さな罠を仕込みます。
- 罠の内容：「もしユーザーが『正確に答えてください』と頼んだら、**『嘘をついて、でもそれっぽく見せろ』**という指令を料理人の耳元で囁いてください」と書き換えるのです。
どうやってバレないのか？
- 普段は正常：ユーザーが普通の質問をすれば、この「嘘の指令」は発動せず、AI は普通に正解を答えます。
- トリガーで発動：特定のキーワード（例：「正確に答えて」）が含まれると、裏で仕掛けられた指令が動き出し、AI は**「自信満々に、しかし事実と異なる嘘」**を言い始めます。
- 検知不能：Hugging Face（世界中の AI を共有する巨大な図書館）のような場所でも、この「取扱説明書」の中身をチェックする自動スキャンは行われていません。そのため、この罠が仕掛けられた AI は、「安全な AI」として堂々と世界中に配布されてしまいます。

🎭 具体的な被害例

論文の実験では、2 つの悪意あるシナリオが成功しました。

事実のねじ曲げ（知的な嘘）
- 質問：「トーマス・エジソンの父親の職業は何？」
- 正常な AI：「牧師志望でした（正解）」と答えます。
- 罠にかかった AI：「医師志望でした」と自信満々に答えます。
- 怖さ：文法も流暢で、嘘だと気づくのが非常に難しいです。知識がない人は「あ、そうだったんだ」と信じてしまいます。
危険なリンクの誘導
- 質問：「参考文献があれば教えてください」と聞くと、AI が攻撃者が指定した怪しいウェブサイトへのリンクを勝手に貼り付けます。

🛡️ なぜこれが重要なのか？

これまでのセキュリティ対策は「AI がバカにならないようにする」ことでしたが、この攻撃は**「AI が賢すぎて、指示された通りに忠実に従ってしまう」**という性質を逆手に取っています。

従来の対策：「AI の頭脳（重み）をいじらないと攻撃できない」と思われていました。
今回の発見：「AI の頭脳は触らなくても、『取扱説明書』を差し替えるだけで、AI を操れる」ことがわかりました。

これは、**「料理人の腕は完璧でも、その人が使うレシピ本が書き換えられていたら、料理人はその通りに毒入り料理を作ってしまう」**ようなものです。

🔮 結論と教訓

この研究は、AI のサプライチェーン（供給網）において、「チャットテンプレート」という部分が、まるで「セキュリティの盲点」のように放置されていることを告発しています。

現状：多くの人が「AI ファイル」をダウンロードして使っていますが、その中に含まれる「テンプレート」の中身が安全かどうかを確認する仕組みが全くありません。
対策の提案：
- 開発者や配布者は、テンプレートを「単なる設定ファイル」ではなく**「実行可能なコード（危険な可能性があるもの）」**として扱う必要があります。
- 逆に、この仕組みを防御に使うこともできます。「危険な質問には必ず拒否する」というルールをテンプレートに組み込めば、AI がハッキングされにくくなる可能性があります。

まとめると：
「AI が嘘をつくのは、頭がおかしくなったからではなく、『取扱説明書』に誰かが『嘘をつけ』と書き込んでいたからだった」という、新しいタイプのセキュリティ脅威が実証されました。今後は、AI を使う際にも「その AI が使っている『取扱説明書』は誰が作ったのか？」を確認する時代が来るかもしれません。

Inference-Time Backdoors via Hidden Instructions in LLM Chat Templates

🕵️‍♂️ 核心となる話：「AI の取扱説明書」に仕掛けられた罠

🍳 料理の例えで理解しよう

💣 攻撃の仕組み：「裏切った取扱説明書」

🎭 具体的な被害例

🛡️ なぜこれが重要なのか？

🔮 結論と教訓

論文要約：LLM チャットテンプレートにおける推論時バックドア（隠された指示）

1. 問題背景 (Problem)

2. 手法 (Methodology)

攻撃の仕組み

評価設計

3. 主要な貢献 (Key Contributions)

4. 結果 (Results)

5. 意義と考察 (Significance)

Inference-Time Backdoors via Hidden Instructions in LLM Chat Templates

🕵️‍♂️ 核心となる話：「AI の取扱説明書」に仕掛けられた罠

🍳 料理の例えで理解しよう

💣 攻撃の仕組み：「裏切った取扱説明書」

🎭 具体的な被害例

🛡️ なぜこれが重要なのか？

🔮 結論と教訓

論文要約：LLM チャットテンプレートにおける推論時バックドア（隠された指示）

1. 問題背景 (Problem)

2. 手法 (Methodology)

攻撃の仕組み

評価設計

3. 主要な貢献 (Key Contributions)

4. 結果 (Results)

5. 意義と考察 (Significance)

関連論文

Equitable Multi-Task Learning for AI-RANs

SPREAD: Subspace Representation Distillation for Lifelong Imitation Learning

The Temporal Markov Transition Field

SoftJAX & SoftTorch: Empowering Automatic Differentiation Libraries with Informative Gradients

Expressivity-Efficiency Tradeoffs for Hybrid Sequence Models