Latent Transfer Attack: Adversarial Examples via Generative Latent Spaces

本論文は、事前学習された Stable Diffusion の潜在空間で摂動を最適化し、EOT やガウス平滑化を組み合わせることで、既存の画素空間ベースの敵対的攻撃よりも頑健で転移性の高い「Latent Transfer Attack (LTA)」を提案するものです。

Eitan Shaar, Ariel Shaulov, Yalcin Tur, Gal Chechik, Ravid Shwartz-Ziv

公開日 2026-03-09
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI の目を欺く新しい方法(LTA)」**について書かれています。

通常、AI を騙すには、画像のピクセル(画素)に「ノイズ」と呼ばれる小さな乱れを加えます。しかし、これまでの方法は、まるで**「砂嵐のように細かい砂」**を画像全体に撒き散らすようなものでした。これでは、画像を少し拡大縮小したり、切り抜いたりするだけで AI は「あ、これは偽物だ」と見破ってしまいます。また、AI の種類(CNN や Vision Transformer など)が変わると、その「砂嵐」が通用しなくなるという弱点がありました。

この論文では、**「AI の脳(潜在空間)」**を直接いじくるという、全く新しいアプローチを提案しています。

以下に、難しい専門用語を使わず、日常の比喩を使って解説します。


1. 従来の方法:「砂嵐」の弱点

これまでの攻撃方法は、画像そのもの(ピクセル)に直接手を加えていました。

  • 比喩: 絵画の上に、**「細かい砂」**を大量に撒いて、絵の輪郭をぼかすようなものです。
  • 問題点:
    • 砂は非常に細かく、高周波(高い音のような細かい振動)です。
    • 絵を少し拡大したり、切り取ったりするだけで、砂が落ちてしまい、元に戻ってしまいます。
    • 見る人(AI の種類)によって、砂の感じ方が違うため、ある AI には効いても、別の AI には効きません。

2. 新しい方法(LTA):「粘土」で形を変える

この論文が提案する**LTA(Latent Transfer Attack)は、砂を撒くのではなく、「粘土」**をこねるように画像を変えます。

  • 比喩: 画像を「粘土」のように扱います。AI は、この粘土を**「低解像度のラフな下書き(潜在空間)」**で操作し、それを元に完成品(高画質の画像)を生成します。
  • 仕組み:
    1. 画像を「ラフな下書き(潜在コード)」に変換します。
    2. その下書きの中で、AI が間違えるように**「形(構造)」**を少しだけいじります。
    3. いじった下書きを元に、再び完成品(画像)に戻します。
  • 効果:
    • 砂ではなく「形」を変えるので、**「波のような滑らかな変化」**になります。
    • 拡大縮小や切り取りをしても、形は崩れないため、AI は騙され続けます。
    • どの種類の AI でも「形」の認識は似ているため、**どんな AI に対しても通用する(転移性が高い)**のです。

3. 2 つの工夫:「予行演習」と「整頓」

ただ粘土をいじるだけでは、画像が歪んでしまったり、変なノイズが出たりする可能性があります。そこで、2 つの工夫を加えています。

① 予行演習(EOT:Expectation Over Transformations)

  • 状況: 粘土をいじった後、完成品を「拡大」「縮小」「切り取り」して AI に見せるとします。
  • 工夫: 攻撃する間中、**「もし拡大されたら?」「もし切り取られたら?」**と、あらゆるパターンを頭の中でシミュレーション(予行演習)しながら、最も頑丈な形に粘土をいじります。
  • 結果: 実際の AI がどんな前処理(リサイズなど)をしても、騙し続けることができます。

② 整頓(Periodic Latent Smoothing)

  • 状況: 粘土を何度もこねていると、表面に**「小さな凸凹(ノイズ)」**ができてしまいます。
  • 工夫: 定期的に、粘土の表面を**「なでる(滑らかにする)」**作業を入れます。
  • 結果: 不要な凸凹(高周波ノイズ)を取り除き、滑らかで自然な形を保ちながら、AI を騙すための「形の変化」だけを残します。

4. 結果:「見えない」けれど「強力」な攻撃

  • 画質: 従来の「砂嵐」攻撃は、画像がザラザラして人間にも「おかしい」と気づかれやすいですが、LTA は**「自然な形の変化」**なので、人間にはほとんど気づかれません。
  • 強さ: 従来の攻撃が 70% くらいで通用するのに対し、LTA は90% 以上の確率で、全く違う種類の AI にも通用します。
  • 防御突破: 最近の AI は「ノイズを取り除く」防御機能を持っていますが、LTA の攻撃は「形そのもの」を変えるため、ノイズ取り除き機能では消すことができません。

まとめ

この論文は、**「AI を騙すには、画像の『表面(ピクセル)』をいじくるのではなく、AI が理解する『中身(構造・形)』を滑らかに変えるのが一番だ」**という新しい考え方を示しました。

まるで、**「砂を撒いて誤魔化すのではなく、本物の像の形を少しだけ変えて、見る人を勘違いさせる」**ような、より賢く、より自然な攻撃手法です。これにより、AI の安全性を調べる際にも、より現実的で強力なテストができるようになります。