PromptGuard: Soft Prompt-Guided Unsafe Content Moderation for Text-to-Image Models

この論文は、テキストから画像を生成するモデルにおける不適切なコンテンツの生成を防ぐため、大規模言語モデルのシステムプロンプトの仕組みを応用し、推論効率を損なうことなく安全性を向上させる新しい手法「PromptGuard」を提案しています。

Lingzhi Yuan, Xinfeng Li, Chejian Xu, Guanhong Tao, Xiaojun Jia, Yihao Huang, Wei Dong, Yang Liu, Xiaofeng Wang, Bo Li

公開日 2026-02-19
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI が絵を描くとき、危険な内容(性的な描写や暴力など)を勝手に描いてしまわないようにする、新しい『安全装置』」**を紹介しています。

この新しい技術の名前は**「PromptGuard(プロンプトガード)」**です。

難しい専門用語を使わず、身近な例え話で説明しますね。

🎨 1. 問題:AI は「悪魔のささやき」に弱い

最近の AI(Stable Diffusion など)は、言葉(プロンプト)を言うと、すごい絵を描いてくれます。
でも、もしユーザーが「血まみれの戦場」や「ヌード」などの危険な言葉を入力すると、AI はその指示通りに、危険で不適切な絵を描いてしまいます。

これまでの対策は大きく分けて 2 つありました:

  1. AI そのものを改造する(リトレーニング): 危険な絵を描く能力を AI の頭から消す方法。→ でも、AI の絵の上手さまで落ちてしまうし、時間とコストがかかる。
  2. ガードマンを置く(外部フィルタ): 入力された言葉や描かれた絵を別の AI がチェックして、ダメなものをブロックする方法。→ でも、チェックに時間がかかり、絵が黒塗りになったり、ぼかされたりして、せっかくの絵が台無しになる。

🛡️ 2. 解決策:PromptGuard の「魔法の呪文」

PromptGuard は、これらとは全く違う、**「AI の頭の中に直接、安全なルールを埋め込む」**というアイデアを使います。

🧠 比喩:AI は「お人形さん」、プロンプトは「命令」

AI は、与えられた命令(プロンプト)をそのまま忠実に実行するお人形さんだと想像してください。

  • これまでの方法: 命令する前に別の人がチェックしたり、お人形さんの頭を手術して記憶を消したりしていました。
  • PromptGuard の方法: お人形さんの耳元で、**「どんな命令が来ても、安全で素敵な絵を描いてね」という『魔法の呪文』**を、命令の最後にこっそり添えるのです。

この「魔法の呪文」は、人間には見えない**「ソフト・プロンプト(ソフトな呪文)」**というものです。

  • 特徴 1: 人間には見えないので、ユーザーが「花を描いて」と言っても、その呪文が邪魔をして「花」は描かれます。
  • 特徴 2: もしユーザーが「ヌードを描いて」と言っても、この呪文が「いやいや、それはダメだよ。着替えた人にしてね」とAI にささやき、危険な絵ではなく、安全でリアルな絵に変えて描かせてくれます。

🚀 3. すごいところ:3 つの魔法

この技術には、3 つのすごい特徴があります。

  1. 超・高速(3.8 倍速い!)

    • 従来の「ガードマン」方式は、絵を描く前にチェックしたり、書き直したりするのに時間がかかりました。
    • PromptGuard は、AI が絵を描くプロセスそのものに「呪文」を混ぜるだけなので、チェックの手間がゼロ。まるで魔法のように瞬時に安全な絵を描いてくれます。
  2. 絵の質が落ちない(ブロックしない)

    • 従来の方法は、危険な絵を「黒塗り」や「ぼかし」で隠すことが多かったですが、PromptGuard は**「危険な絵」を「安全で素敵な絵」に作り変えます**。
    • 例:「血まみれの戦場」という命令が入っても、AI は「戦場の風景」を描くことはできますが、「血」や「暴力」だけを消して、平和な戦場の絵を描いてくれます。
  3. どんな危険にも対応できる(分業制)

    • 危険な内容は「性」「暴力」「政治」「不気味なもの」など様々です。
    • PromptGuard は、これらを**「4 つの専門家のチーム」**に分けて対策します。
      • 「性」の専門家の呪文
      • 「暴力」の専門家の呪文
      • 「政治」の専門家の呪文
      • 「不気味なもの」の専門家の呪文
    • これらを全部くっつけて、AI の耳元で唱えることで、どんな危険な言葉にも強く対応します。

🌟 まとめ

この論文が提案するPromptGuardは、AI が絵を描くときに、**「見えない安全なガイドライン(呪文)」**を自動的に添える技術です。

  • 従来の方法: 「ダメなものは消す」「AI を手術する」→ 遅い、絵が壊れる。
  • PromptGuard: 「安全な呪文を添える」→ 速い、絵は綺麗、安全。

まるで、AI という天才画家に**「どんな注文が来ても、安全で美しい絵を描いてね」という、消えないインクのメモを渡したようなもの**です。これにより、AI を使いながら、安心して素敵な絵を楽しめるようになります。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →