Each language version is independently generated for its own context, not a direct translation.

シェイプマーク（ShapeMark）：AI 画像の「見えない指紋」を強く、そして多様に保つ新技術

この論文は、最近流行している「AI 画像生成（拡散モデル）」の著作権保護と、その画像が誰によって作られたかを証明するための新しい技術「シェイプマーク（ShapeMark）」について説明しています。

難しい専門用語を使わず、**「お菓子作り」や「パズル」**の例えを使って、この技術が何をしているのか、なぜ素晴らしいのかを解説します。

1. 背景：AI 画像の「誰が作ったか」問題

AI は素晴らしい絵を描くことができますが、そのせいで「この画像は本当に AI が作ったのか？」「誰の許可なく使われているのか？」という問題が起きています。
そこで、画像の中に**「見えない透かし（ウォーターマーク）」**を入れる技術が必要とされています。

しかし、これまでの技術には大きな弱点がありました。

弱すぎる： 画像を少し加工（リサイズや圧縮）されただけで、透かしが消えてしまう。
画質が落ちる： 透かしを入れると、AI が描く絵の「多様性（バリエーション）」が減って、似たような絵ばかりになってしまう。

2. 従来の技術の弱点：「値（値）」に頼りすぎている

これまでの透かし技術は、**「個々の数字の値」**に情報を埋め込んでいました。

例え： 画像を作るための「材料（ノイズ）」を並べたとき、「1 番目の材料は赤、2 番目は青」というように、**「色そのもの」**で情報を伝えます。
問題点： 画像が加工されると、その「色」が少しずれてしまいます（例：赤が少しオレンジになる）。すると、「これは赤だったはずなのに、オレンジになったから透かしが消えた」と判断されてしまい、失敗します。

3. シェイプマークの解決策：「形（構造）」で情報を伝える

シェイプマークは、**「個々の値」ではなく「配置の形」**に情報を埋め込むという、全く新しいアプローチをとっています。

① 構造エンコーディング（SE）：パズルの並び順で伝える

アイデア： 材料（ノイズ）の「色そのもの」は変えずに、**「どの材料をどこに置くか」という順番（配置の形）**だけで情報を伝えます。
例え：
- 100 個のレゴブロックがあるとします。
- 従来の方法：「赤いブロックを 1 番目に置く」→ 赤が少し色あせると情報が消える。
- シェイプマーク：「赤いブロックを 1 番目に置く」のではなく、**「赤いブロックを『左側』のグループに入れ、青いブロックを『右側』のグループに入れる」という「グループの並び順」**で情報を伝えます。
メリット： 画像が加工されてブロックの色が少し変わっても、「左側と右側のグループ分け」は崩れないため、透かしを正しく読み取ることができます。これが**「頑丈さ（ロバストネス）」**の秘密です。

② ペイロード・デバイアス構造ランダム化（PDSR）：同じ絵が繰り返されないようにする

問題： 従来の方法では、同じ情報（透かし）を入れると、AI がいつも同じ場所に同じパターンのノイズを配置してしまい、生成される画像が「似通ったもの」ばかりになってしまいます（多様性の低下）。
解決策： シェイプマークは、情報を埋め込んだ後、**「パズルのピースの位置を、その画像ごとにランダムにシャッフル」**します。
例え：
- 同じ「秘密のメッセージ」を伝えるために、いつも同じ配置のレゴを使うのではなく、「その日その時の天気（公開鍵）」に合わせて、ブロックの並びをランダムに混ぜます。
- 結果：同じメッセージでも、毎回全く違う配置（ノイズ）になり、AI が描く絵も毎回新鮮で多様になります。
メリット： 透かしが入っていても、画像の「多様性」や「美しさ」が損なわれません。

4. 結果：最強のバランス

実験の結果、シェイプマークは以下の素晴らしい性能を示しました。

超頑丈： 画像を激しく加工（JPEG 圧縮、ノイズ追加、切り抜きなど）しても、99% 以上の確率で透かしを読み取れます。
高品質： 画像の美しさや、AI が描く絵のバリエーション（多様性）は、透かしを入れない場合とほとんど変わりません。
大容量： 多くの情報（256 ビットなど）を埋め込んでも、上記の性能を維持できます。

まとめ

シェイプマークは、AI 画像に「見えない指紋」を入れる技術の進化形です。

従来の技術が**「色（値）」**に頼っていたのに対し、
シェイプマークは**「配置の形（構造）」と「ランダムなシャッフル」を使うことで、「加工に強く」かつ「画質や多様性を保つ」**という、これまで不可能だった両立を実現しました。

これにより、AI が作った画像の著作権保護や、どこで誰が作ったかの追跡が、現実世界でより実用的になることが期待されています。

Each language version is independently generated for its own context, not a direct translation.

ShapeMark: 拡散モデル向けの高堅牢性と多様性維持型透かし技術の技術的サマリー

本論文「ShapeMark: Robust and Diversity-Preserving Watermarking for Diffusion Models」は、拡散モデル（Diffusion Models）によって生成された画像の著作権保護と出所証明（プロベナンス）を目的とした、新しいノイズベースの透かし手法「ShapeMark」を提案するものです。既存の手法が抱える「堅牢性（Robustness）」と「生成多様性（Diversity）」のトレードオフ問題を解決し、両立させることを目指しています。

以下に、論文の主要な内容を技術的に詳述します。

1. 背景と課題 (Problem)

1.1 背景

近年、拡散モデルは高品質な画像合成を可能にし、AIGC（生成 AI）の普及を加速させています。しかし、生成画像の無制限な拡散と再利用により、著作権侵害や偽情報の拡散といった新たな課題が生じています。これに対処するため、生成プロセス自体に透かしを埋め込む「ノイズ・アズ・ウォーターマーク（Noise-as-Watermark: NaW）」手法が注目されています。NaW は、画像生成前の初期ノイズに透かし情報を埋め込み、拡散逆過程（Inversion）を通じて復元するアプローチです。

1.2 既存手法の限界

既存の NaW 手法には、以下の 2 つの重大な欠点があります。

堅牢性の欠如（値符号化の脆弱性）: 多くの既存手法は、透かしビットをノイズの「個々の値（Value）」（例：符号、絶対値、サンプリング範囲）に直接マッピングする「値符号化（Value Encoding）」を採用しています。しかし、実際の運用では JPEG 圧縮やリサイズなどの損失処理、あるいは拡散逆過程の不完全さにより、個々のノイズ値の正確な復元が困難になります。特に、値が決定境界（ゼロ付近など）に近い場合、わずかな摂動で誤判定が発生し、透かしの検出が失敗します。
生成多様性の低下: 堅牢性を高めるためにノイズサンプリング時に透かし情報を反復埋め込む手法がありますが、これにより生成画像の多様性が低下し、透かしによるアーティファクト（不自然さ）が目立つようになります。

2. 提案手法：ShapeMark (Methodology)

ShapeMark は、ノイズの「個々の値」ではなく、「構造的な関係性」に透かし情報を符号化する**構造的符号化（Structural Encoding: SE）と、生成多様性を維持するためのペイロード非依存構造的ランダム化（Payload-Debiasing Structural Randomization: PDSR）**の 2 つの核心技術によって構成されます。

2.1 構造的符号化 (Structural Encoding: SE)

SE は、透かしビットをノイズ要素の相対的な配置関係（構造）に埋め込むことで、値の摂動に耐性を持たせます。

手順 1: 分離性ガイド付きテンプレートの構築
- 初期ノイズ $z$ の全要素の絶対値に基づきランク付けを行い、 $Q$ 個の量子化ビン（Quantile Bins）に分割します。
- 各ビン内で秘密鍵 $\kappa$ を用いて要素をシャッフルし、ブロック（Block）を形成します。
- 異なるビンから 1 つずつブロックを選び、グループ（Group）を構成します。これにより、統計的に分離された領域（異なる強度のノイズ）から構成されるグループが得られます。
手順 2: グループ内ブロックの順列による符号化
- 各グループ内で、どのブロックがどの位置に配置されるかを、ペイロードビット列に対応する順列（Permutation）コードブックから選択して決定します。
- 重要: 値そのものを変更せず、ブロックの位置（インデックス）のみを再配置します。
堅牢性の理由: 損失処理や逆過程の誤差により個々のノイズ値が変化しても、グループ内のブロックの「相対的な順序関係」は保持されやすいため、復号が安定します。また、ブロック内の複数要素を平均的に扱うことで、ノイズの影響を低減します。

2.2 ペイロード非依存構造的ランダム化 (PDSR)

SE だけでは、同じペイロード（透かし情報）を繰り返す際に、特定の空間パターンが固定され、生成多様性が低下するリスクがあります。これを解決します。

仕組み: SE 処理後のノイズに対して、公開されたノンス（Nonce） $r$ と秘密鍵 $\kappa$ に基づいて生成される一時的な鍵を用いて、ブロックの位置をさらにグローバルにシャッフル（置換）します。
特徴:
- 値保存: 値自体は変更せず、位置のみをランダムに再配置します。
- 可逆性: 検証時に同じノンスと鍵があれば、完全に元の状態に戻せます。
- 多様性維持: 同じペイロードでも、画像ごとに異なるノンスが使われるため、ノイズの実現値（Noise Realization）が変化し、生成される画像の多様性が保たれます。

2.3 透かし検出と復号 (Decoding)

逆過程: 対象画像から標準的な拡散逆過程（DDIM Inversion など）を用いて、初期ノイズの推定値 $\hat{z}$ を取得します。
PDSR の解除: 検証者が持つノンスと鍵を用いて、PDSR によるシャッフルを逆転させ、SE 符号化空間に整列させます。
コードブックマッチング: 復元されたノイズのブロック配置と、秘密鍵から再生成した基準テンプレートを比較し、どの順列（コードワード）が最も一致するかを判定してペイロードを復元します。

3. 主要な貢献 (Key Contributions)

構造的符号化（SE）の提案: 個々のノイズ値ではなく、量子化ビンに基づくブロックの「順列パターン」に情報を埋め込むことで、損失処理や逆過程の誤差に対する高い堅牢性を実現しました。
ペイロード非依存構造的ランダム化（PDSR）の導入: 透かしによる空間的バイアスを除去し、同じ透かし情報でも多様な画像生成を可能にすることで、既存 NaW 手法の「多様性低下」問題を解決しました。
広範な実験による実証: 多様な損失処理（JPEG 圧縮、リサイズ、ノイズ付加など）に対して、既存手法を上回る検出性能（TPR 99.9% 以上）と、生成多様性（LPIPS 0.7338）を両立させることを示しました。

4. 実験結果 (Results)

実験は Stable Diffusion v2.1 を基盤とし、MS-COCO および SDP データセットを用いて実施されました。

堅牢性: 9 種類の損失処理（JPEG 圧縮、ランダムドロップ、リサイズ、ブラー、ノイズ付加など）を加えた条件下でも、ShapeMark は偽陽性率（FPR）$10^{-6} $において真陽性率（TPR）0.999 を達成しました。特に、既存の NaW 手法が苦手とするガウシアンノイズ（$ \sigma=0.1$）に対しても 99% 以上の復元精度を維持しました。
多様性: 生成された画像の多様性を LPIPS（学習済み画像類似度）で評価したところ、ShapeMark は 0.7338 と、比較対象すべての手法の中で最高値を記録しました。これは、透かしが生成プロセスの多様性を損なっていないことを示しています。
画質: CLIP スコアや FID においても、透かしなしのモデルと同等の画質を維持しており、視覚的な劣化はほとんど見られませんでした。
容量スケーラビリティ: ペイロード容量を 256 ビットから 2048 ビットまで増大させても、攻撃条件下で約 85% のビット復元精度を維持し、高いスケーラビリティを持つことが確認されました。

5. 意義と結論 (Significance)

ShapeMark は、拡散モデルの透かし技術において、「堅牢性」と「生成多様性」の両立という長年の課題を解決した画期的な手法です。

実用性: 値符号化の脆弱性を構造的符号化で克服し、現実世界の損失処理や不完全な逆過程に対しても安定して動作します。
倫理的・法的意義: 生成 AI によるコンテンツの著作権保護、出所証明、不正利用の追跡を可能にします。また、多様性を維持することで、透かしが生成モデルの品質を低下させるという懸念を払拭し、実社会での導入を促進します。
将来展望: この手法は、プラットフォーム側のスクリーニング、ユーザー認証、コンテンツのトレーサビリティなど、多様な AIGC 応用シーンでの基盤技術として期待されます。

本論文は、機械学習の分野において、生成モデルの透かし技術を実用的かつ効果的なものへと進化させる重要な一歩を示しています。

ShapeMark: Robust and Diversity-Preserving Watermarking for Diffusion Models