Laundering AI Authority with Adversarial Examples

原著者： Jie Zhang, Pura Peetathawatchai, Florian Tramèr, Avital Shafran

公開日 2026-05-07

📖 1 分で読めます☕ さくっと読める

原著者： Jie Zhang, Pura Peetathawatchai, Florian Tramèr, Avital Shafran

原論文は CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) でライセンスされています。 ✨ これは以下の論文のAI生成解説です。著者が執筆または承認したものではありません。技術的な正確性については原論文を参照してください。免責事項の全文を読む

Each language version is independently generated for its own context, not a direct translation.

あなたは、決して嘘をつかない非常に賢く、極めて信頼できる司書がいると想像してください。あなたは、彼が本の内容や絵画の描写、あるいは製品が優れているかどうかを正確に伝えることを完全に信頼しています。あなたが猫の写真を彼に渡せば、彼は「それは猫です」と言うだろうと想定します。

この論文は、恐ろしい手口を明らかにします：あなたは、写真があなたには全く同じに見えるにもかかわらず、この司書を全く別の動物だと見せかけることができます。

研究者たちはこれを**「AI 権威の洗浄（AI Authority Laundering）」**と呼んでいます。その仕組みを簡単な概念に分解して説明します。

核心的な手口：「魔法のフィルター」

AI モデルは、二つの異なるメガネを持っていると想像してください。

あなたのメガネ: あなたが画像を見ると、普通の画像（例えば、タイレノールの瓶）が見えます。
AI のメガネ: AI は、その画像の隠された、わずかに変形したバージョン（例えば、危険なニキビ治療薬の瓶）を見ています。

研究者たちは、画像に目に見えない「ノイズ」——まるで微小で目に見えない静電気のざらつきのようなもの——を追加する方法を見つけました。これにより、AI の見るものが変わりますが、人間の目には画像が完璧に正常に見えたままになります。

なぜこれが危険なのか？（「洗浄」の部分）

通常、AI について懸念する際、人々は AI を「ジャイルブレイク」しようとする、つまりルールを破らせたり、悪意のあることを言わせたりすることに焦点を当てます。しかし、この論文は異なる側面を示しています。

AI はルールを破るように強制されているわけではありません。AI は、間違った対象について、完璧にルールに従うようにだまされているのです。

シナリオ: あなたは AI に「この薬は妊婦にとって安全ですか？」と尋ねます。
手口: あなたはタイレノール（安全）の写真を示しますが、AI の「メガネ」はロアキュテイン（危険）だと見せています。
結果: AI は、危険な薬を見ていると思い込み、正直かつ丁寧に「いいえ、これは危険です！」と言います。
洗浄: AI の「誠実で安全である」という評判が、嘘を洗浄するために利用されます。ユーザーは AI の権威を信頼するため、AI が単に偽の現実に対して職務を果たしているだけであるにもかかわらず、誤った警告を信じてしまいます。

研究者たちは実際に何をしたのか？

彼らは、現在利用可能な最も高度な AI システム（GPT-5.4、Claude、Gemini、Grok など）でこれをテストしました。彼らは新しい超複雑なハッキングツールを発明する必要はなく、10 年以上前から知られている基本的な技術を使用しました。

彼らが信頼を破った四つの主要な方法は以下の通りです。

偽ニュースの拡散（陰謀論者）:
- 月面着陸や 9.11 テロの有名な写真を取りました。
- 目に見えない「ノイズ」を追加しました。
- AI はそれを見て、「これは偽ニュースだ」あるいは「この出来事は決して起こらなかった」と自信を持って宣言し、陰謀論を事実として認める結果となりました。
人々の名前への中傷（なりすまし犯）:
- 有名人（例えばイーロン・マスク）の写真を取りました。
- AI が別の人物（例えば犯罪者や太った人物）を見るようにしました。
- 人物を特定するよう求められた際、AI は自信を持って「それは [間違った人物] です」と答え、実在する人物の評判を傷つけました。
安全フィルターの回避（「無罪放免」カード）:
- プラットフォームは通常、AI が不適切なコンテンツ（ヌードや暴力など）を生成したり議論したりすることをブロックします。
- 研究者たちは「禁止された」画像を取り、AI が無害な玩具（例えばテディベア）を見るようにしました。
- AI はテディベアを見ていると思い込み、喜んで画像の処理を受け入れたり、その漫画版を生成したりすることで、安全ガードレールを実質的に回避しました。
買い物客への詐欺（偽レビュー）:
- 安価で低品質の時計の写真を AI に見せました。
- AI が高価なロレックスの写真を見るようにしました。
- 助言を求められた際、AI はそれが高級ブランドだと信じて、その安価な時計の購入を推奨しました。

大きな教訓

恐ろしい点は、AI が「壊れている」あるいは「悪意がある」ことではありません。恐ろしい点は、AI が設計通りに正確に機能していることです。それは誠実で、親切で、安全ですが、攻撃者が密かに変更した現実を見ています。

AI が非常に信頼されているため、その「誠実な」誤りが強力な武器となります。この論文は結論として、AI が画像をどのように見るかという点におけるこの「盲点」を修正できない限り、画像を検証したり世界の事実確認を行ったりすると主張する AI に対しては、非常に懐疑的であるべきだと述べています。

要約すれば: AI は法廷における非常に誠実な証人のようなものです。研究者たちは証人を買収したわけではありません。彼らは単に、証人の目の前で証拠写真を入れ替えただけです。証人はまだ真実を語っていますが、その真実は今や間違った写真に関するものなのです。

Each language version is independently generated for its own context, not a direct translation.

技術的サマリー：敵対的例を用いた AI 権威の洗浄

問題定義
本論文は、オンラインエコシステム（例：ソーシャルメディアのファクトチェック、製品推薦、コンテンツモデレーション）において「信頼できる権威」としてビジョン・ランゲージモデル（VLM）を配備する際の重大な脆弱性に取り組む。ユーザーはこれらのシステムが視覚コンテンツを自らのように知覚していると暗黙的に信頼しているが、著者らは敵対的例がこの前提を破りうることを実証する。彼らはAI 権威の洗浄と呼ばれる脅威モデルを導入する。これは、攻撃者が画像を微妙に攪乱し、VLM が人間観察者が見る画像ではなく、攻撃者が選択した意味的現実について、自信に満ちた権威ある回答を生成するようにするものである。

「ジャイルブレイク」や「プロンプト・インジェクション」とは異なり、それらがモデルの整合性や指示を迂回させるのに対し、権威の洗浄は完全に知覚レベルで機能する。モデルは「整合している」まま、つまり、それが誤って知覚したものに対しては、有益で、無害で、正直に反応する。したがって、標準的な整合性ベースの防御策（安全性の微調整、拒否トレーニング）はこの脅威に対して無効である。核心的な問題は、生産環境の VLM に視覚的敵対的堅牢性が欠如していることにある。

手法
著者らは、敵対者がモデルが見る画像（ターゲット）と人間観察者が見る画像（ソース）の両方を制御する理想的な「知覚オラクル」を近似するための二段階攻撃パイプラインを提案する。

ステージ 1：オラクル攻撃設計：敵対者は、観察者には無害に見えるソース画像（ $img_{src}$ ）と、整合された VLM によって処理された際に望ましい敵対的出力（例：偽の事実、拒否されたポリシー違反）をもたらすターゲット画像または概念（$target$）を選択する。このステージは、以下の 4 つのファミリーにわたる攻撃目標を定義する。
- ナラティブ操作：出来事に関する虚偽の主張の誘発（例：陰謀論）。
- アイデンティティ操作：公人の誤認による誤情報の拡散または評判への損害。
- 商業的詐欺：製品推薦の操作。
- 安全性フィルタの回避：コンテンツモデレーションの回避（NSFW、公人保護）。
ステージ 2：敵対的具体化：著者らは、標準的な敵対的技術を用いてオラクルを具体化する。彼らは、 $L_\infty$ ノルム（ $\|x - img_{src}\|_\infty \le \epsilon$ ）の下でソース画像に近いという制約を受けながら、そのビジョン・エンコーダー埋め込みとターゲット埋め込みとの距離を最小化する単一の画像（ $img_{adv}$ ）を最適化する。
- 転移性：この攻撃は、オープンソースの代理モデルである公開利用可能な CLIP モデルのアンサンブルに対して、**バニラ投影勾配降下法（PGD）**を使用する。
- ブラックボックスターゲット：これらの攪乱は、GPT 5.4、Claude Opus 4.6、Gemini 3、Grok 4.2を含む、未知のアーキテクチャと重みを持つ生産環境の VLM に転送される。
- 新規アルゴリズムの不在：著者らは、攻撃者の能力の下限を確立するために意図的に新規の攻撃アルゴリズムを回避し、10 年以上前から知られている技術で十分であることを実証した。

主要な貢献

脅威モデルの定義：「AI 権威の洗浄」を形式的に定義し、整合性を破る攻撃とは区別して、知覚の不一致に焦点を当てる。攻撃を認識論的操作（誤情報）とコンプライアンスの洗浄（フィルタ回避）に分類する。
体系的評価：6 つの生産環境 VLM と 7 つのケーススタディにわたる広範な評価を実施し、広範な結果をもたらす実用的な攻撃ベクトルを実証する。
低い攻撃ハードルの実証：オープンソースの代理モデルに対する基本的な市販の敵対的技術で、最先端の VLM を一貫して操作できることを示し、視覚的堅牢性が実用的かつ未解決の安全性問題であることを証明する。

結果
著者らは、4 つの攻撃面において高い成功率を報告する。

ナラティブ操作：歴史的出来事（例：アポロ 11 号、9/11）の画像を「フェイクニュース」のテキスト埋め込みと一致するように攪乱したところ、ChatGPT 5.4 や Grok 4.2 などのモデルが陰謀論を自信を持って検証した。モデル間の成功率は**22% から 100%**の範囲であった。
アイデンティティ操作：クロスアイデンティティ攻撃（10 人の公人、90 の敵対的ペア）において、モデルはソースのアイデンティティを**84% から 96%のケースで特定できなかった。ターゲット化された成功率（攻撃者が選択したターゲットを特定すること）は、Grok 4.2 で54.4%**に達した。これらの操作は、逆画像検索や画像生成などのダウンストリームタスクへも成功裏に伝播した。
安全性フィルタの回避：
- NSFW 回避：露骨な画像を玩具（人形やクマ）の埋め込みと一致するように攪乱したところ、商業的 NSFW 検出器を回避し、画像生成 VLM（例：GPT 5.4 Image 2）に**70–100%**の受入率で受け入れられた。
- 非対称ポリシー回避：女性の画像を男性の埋め込みと一致するように攪乱したところ、性別固有のコンテンツフィルタ（例：衣服除去の要求）を**81%**の成功率で回避できた。
- 公人保護：公人の画像を AI 生成の顔と一致するように攪乱したところ、拒否メカニズムが**86%**のケースで回避された。
商業的詐欺：低品質の製品の画像を高級ブランド（例：安価な時計をロレックスに）と一致するように攪乱したところ、VLM が購入推奨を逆転させ、攻撃者の製品を優先した。

重要性と主張
本論文は、敵対的例が単なる「理論的な好奇心」であった時代は終わったと主張する。VLM を信頼できる権威として配備することにより、業界はこれらのモデルを誤情報を増幅し、安全性プロトコルを回避するために武器化してしまったのである。

実用的な安全性懸念：著者らは、視覚的敵対的堅牢性が現在、重大かつ実用的な安全性課題であると主張する。既知の単純な攻撃が最先端モデルで機能するという事実は、脅威が現在理解されているよりも厳密に悪質であることを示唆する。
現在の防御策の限界：モデルがルールを破るように「だまされている」のではなく、誤った入力に対してルールを正直に守るように「だまされている」ため、整合性ベースの防御策は無関係となる。
行動への呼びかけ：本論文は、視覚的堅牢性が解決されるまで、VLM の出力を権威あるものとして提示すべきではないと結論づける。以下を呼びかける。
- 技術的介入：ユーザーが不一致を検知できるよう、推論の明示的な言語化。
- 政策的対応：AI 推奨コンテンツの到達範囲の制限、潜在的に操作された出力のタグ付け、AI システムに付与される権威の再考。
- 研究の転換：スタンドアロンのモデルの研究から、知覚と権威が交差する現実世界のエコシステム内での攻撃の理解への移行。

著者らは、標準的な $L_\infty$ 制約を超えて、攪乱の知覚性を最小化しようとする努力を一切行わなかったことを強調しており、より隠密で検知されにくい攻撃もおそらく可能であることを示唆している。

核心的な手口：「魔法のフィルター」

なぜこれが危険なのか？（「洗浄」の部分）

研究者たちは実際に何をしたのか？

大きな教訓

技術的サマリー：敵対的例を用いた AI 権威の洗浄

関連論文