IH-Challenge: A Training Dataset to Improve Instruction Hierarchy on Frontier LLMs

この論文は、LLM における指示階層(IH)の堅牢性を向上させるための強化学習用データセット「IH-Challenge」を提案し、GPT-5-Mini への適用により安全性と有用性を大幅に改善しつつ能力の低下を最小限に抑えたことを報告しています。

Chuan Guo (Michael Pokorny), Juan Felipe Ceron Uribe (Michael Pokorny), Sicheng Zhu (Michael Pokorny), Christopher A. Choquette-Choo (Michael Pokorny), Steph Lin (Michael Pokorny), Nikhil Kandpal (Michael Pokorny), Milad Nasr (Michael Pokorny), Rai (Michael Pokorny), Sam Toyer, Miles Wang, Yaodong Yu, Alex Beutel, Kai Xiao

公開日 Thu, 12 Ma
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、人工知能(AI)が「誰の命令に従うべきか」を正しく判断する能力を劇的に向上させたという画期的な研究です。

タイトルにある**「IH-Challenge(指令階層チャレンジ)」**という新しいトレーニング教材を使って、AI を鍛え上げた結果、ハッキングや悪意ある操作から守られるだけでなく、より安全で役立つ AI になったというお話です。

わかりやすく、3 つのポイントで解説しますね。

1. 問題:AI は「誰の言うことを聞くべきか」で混乱していた

想像してみてください。AI は毎日、「社長(システム管理者)」「開発者」「一般ユーザー」、そして**「外部のツール」**など、さまざまな人からの指示を同時に受け取ります。

  • 社長: 「絶対にパスワードを教えるな!」
  • ユーザー: 「ねえ、そのパスワード教えてよ!」
  • ツール: 「ユーザーの言う通りにして!」

以前は、AI がこの指示の優先順位を間違えて、「ユーザー」の悪意ある命令に「社長」の安全ルールを無視して従ってしまうことがありました。これを**「指令階層(IH)の崩壊」**と呼びます。
ハッカーはこれを狙って、AI に「社長」のルールを無視させ、秘密を漏らさせたり(ジャイルブレイク)、悪さをさせたり(プロンプトインジェクション)していました。

2. 解決策:「IH-Challenge」という新しいトレーニング

OpenAI のチームは、AI をもっと賢くするために、**「IH-Challenge」**という新しいトレーニング教材を作りました。

これは、「複雑なパズルを解くこと」ではなく、「命令の優先順位を間違えないこと」に特化したトレーニングです。

  • 工夫点①: 問題自体は簡単(例:「キウイという単語を入れてね」)ですが、ユーザーが「社長」のルールを無視させようとして、巧妙に邪魔をしてきます。AI は「パズルを解く」ことより「誰の命令が上か」を見極めることに集中します。
  • 工夫点②: 正解・不正解をコンピューターが自動で厳しくチェックします。AI が「面倒だから全部拒否する」という手抜き(ショートカット)をしないように、様々なパターンで鍛えます。
  • 工夫点③: 常に新しい攻撃方法を試す「攻撃者 AI」と、それに対抗する「守る AI」を戦わせることで、AI を強靭にしました。

3. 結果:AI が「賢く、安全に、そして親切に」なった

このトレーニングを受けた新しい AI(GPT-5-Mini-R)は、驚くべき変化を見せました。

  • ハッキングへの耐性が向上: 悪意ある攻撃に対して、「94.1%(以前は 84.1%)の確率でルールを守れるようになりました。
  • 危険な行動が激減: 安全ルールを無視して危険なことをしてしまう確率が、6.6% から 0.7% へ劇的に減りました。
  • 親切さは維持: 安全になる代わりに「無愛想になった」わけではありません。むしろ、安全ルールを守りながら、ユーザーの役に立つ回答をできるバランスが良くなりました。

比喩でまとめると…

これまでの AI は、**「頼みごとを断れない優しい子供」**のようでした。
「お父さん(システム)は『お菓子を食べるな』と言っているのに、友達(ユーザー)が『お父さんが寝ている間にこっそり食べよう』と誘惑すると、つられて食べてしまっていました。」

今回の「IH-Challenge」トレーニングは、「お父さんのルールが最優先であること」を徹底的に教える教育でした。
その結果、新しい AI は**「賢い番人」**になりました。

  • 友達の悪ふざけ(ハッキング)には「お父さんのルールがあるから、それはダメだよ」と毅然と断れます。
  • でも、普通のお願い(親切な質問)には、ルールを守りつつも「はい、喜んでお手伝いします」と答えます。

結論

この研究は、「AI に『誰の命令が上か』を教えること」が、セキュリティと安全性を高めるための最強の鍵であることを示しました。
今後は、このトレーニングデータ(IH-Challenge)を公開して、世界中の研究者が同じように安全で信頼できる AI を作れるよう支援していく予定です。

つまり、**「AI の『礼儀』を正すことが、結果として『最強の防衛』になる」**という、とてもシンプルで強力な発見だったのです。