Breaking Semantic-Aware Watermarks via LLM-Guided Coherence-Preserving Semantic Injection

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于**“如何破解 AI 图片水印”的故事。为了让你更容易理解，我们可以把整个过程想象成一场“高智商的伪造与反伪造”游戏**。

1. 背景：AI 图片的“防伪标签”

想象一下，现在大家都能用 AI（比如 Stable Diffusion）生成非常逼真的图片。为了防止有人乱用这些图片，或者为了证明“这张图是我画的”，研究人员给 AI 加了一种**“隐形防伪标签”（也就是语义水印**）。

以前的标签（传统水印）： 就像在照片上盖个章，或者在像素里藏个暗记。但这很容易被修图软件磨掉，或者被压缩弄坏。
现在的标签（语义水印，如 SEAL）： 研究人员想了一个更聪明的办法。他们不再在像素里藏东西，而是把标签和**图片的“灵魂”（语义）**绑定在一起。
- 比喻： 以前是贴在画布上的标签，现在是把标签编织进了画布的纹理和图案里。如果你试图把标签撕下来，整幅画就会变得乱七八糟，甚至变成一坨乱码。所以，攻击者必须保证：改得再狠，画的整体意境和逻辑不能崩。

2. 问题：大语言模型（LLM）成了“超级黑客”

虽然这种“语义水印”很聪明，但作者发现了一个巨大的漏洞：大语言模型（LLM）太懂“逻辑”和“语境”了。

攻击者的困境： 以前，黑客想改图，要么把标签撕了（图就坏了），要么把图改得面目全非（水印检测器就报警了）。这就像让你把“一只在草地上吃草的牛”改成“一只在吃草的老虎"，同时还得让画看起来完全没变过，这几乎是不可能的任务。
LLM 的绝招： 但是，LLM 就像一个精通逻辑的“神笔马良”。它不仅能理解“牛”和“老虎”的区别，还能理解“草地”、“吃草”这些概念之间的逻辑关系。
- 比喻： 如果原来的画是“一只在草地上吃草的牛”，LLM 不会粗暴地把牛涂成老虎。它会说：“好吧，我们把‘牛’改成‘老虎’，但为了保持画面逻辑，我们把‘吃草’改成‘捕猎羚羊’，把‘悠闲’改成‘凶猛’。”
- 结果： 画面变了（水印想改的地方改了），但整体的故事逻辑（语义连贯性）依然完美。这就骗过了那些检查“画面是否逻辑自洽”的水印检测器。

3. 核心方法：CSI（保持连贯的语义注入）

作者提出了一种叫 CSI 的攻击方法，专门利用 LLM 的这个能力。我们可以把它分成三步：

LLM 当“编剧”：
- 攻击者给 LLM 一个指令：“把这张图里的‘牛’改成‘老虎’，但必须保持画面逻辑通顺，不能破坏整体氛围。”
- LLM 就会生成一堆新的提示词（Prompt），比如“一只在草原上捕猎的凶猛老虎”。这些提示词既改了内容，又没破坏逻辑。
复制“灵魂”（噪声）：
- AI 画图时，其实是在一张“噪点图”（像电视雪花一样的底图）上慢慢变清晰的。水印就藏在这个“底图”里。
- 攻击者不重新生成底图，而是直接复制原来那张带水印的“底图”。
- 比喻： 就像你有一张印了防伪码的透明胶片。你想换上面的图案，但你不换胶片，只是用新的画笔在胶片上重新画图案。因为胶片没变，防伪码（水印）还在。
层层筛选（守门员）：
- LLM 可能会生成一些奇怪的句子。作者设计了一套“过滤器”：
  - 第一关：检查句子通不通顺？（文本过滤）
  - 第二关：生成的图里，主要物体还在吗？（视觉过滤）
  - 第三关：生成的图，和原来的“底图”（水印）还能对上号吗？（语义一致性过滤）
- 只有那些既改了内容，又骗过了水印检测的图，才会被选出来。

4. 实验结果：大获全胜

作者用这套方法去攻击目前最先进的几种水印技术：

对旧式水印： 就像用热刀切黄油，轻松破解（成功率 100%）。
对新型“语义水印”（SEAL）： 这是最难的关卡。以前的攻击方法（比如 RPM、LFA）在这里几乎全败，成功率只有 0% 到 7%。
CSI 的表现： 即使面对最聪明的“语义水印”，CSI 的攻击成功率也高达 81%。
- 比喻： 以前的黑客是拿着大锤砸锁，把锁砸坏了，门也开了（但警报响了）。现在的 LLM 黑客是拿着万能钥匙，轻轻一转，锁开了，门也开了，而且警报器完全没响，因为它觉得“门还是那扇门，只是里面的家具稍微换了个位置”。

5. 结论：安全警钟

这篇论文告诉我们一个令人不安的事实：
只要大语言模型（LLM）足够聪明，能够理解并操控“逻辑”和“语境”，目前基于“语义一致性”的水印防御就形同虚设。

这就好比，以前我们以为只要把防盗门做得足够结实（像素水印）或者把锁芯做得很复杂（噪声水印）就安全了。但现在发现，小偷（LLM）学会了**“换锁芯里的弹子，但保持锁孔形状不变”**的魔术，直接绕过了所有防线。

未来的方向： 我们需要设计更高级的防御机制，不仅要防“乱改”，还要防这种“逻辑完美但内容被篡改”的聪明攻击。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

随着基于扩散模型（Diffusion Models）的生成式 AI 在社交媒体和版权分发中的普及，AI 生成图像的真实性验证和版权追踪变得至关重要。

现有方案：传统的像素级水印易受压缩和滤波攻击。为此，研究者提出了语义水印（Semantic Watermarks），如 Tree-Ring、Gaussian Shading 和 SEAL。这些方法将水印信号嵌入到扩散模型的初始噪声或潜在空间中，而非可见像素，从而在保持视觉质量的同时提供鲁棒性。
核心漏洞：
- 内容无关语义水印 (CIW)：如 Tree-Ring 等，仅依赖初始噪声，缺乏与图像高层语义的强绑定，容易被恢复并伪造。
- 内容感知语义水印 (CSW)：如 SEAL，试图将水印信号与图像的高层语义（如主体对象）紧密绑定，要求攻击者在修改图像时必须保持全局语义连贯性，否则水印检测会失败。
本文挑战：尽管 CSW 增加了攻击难度，但大型语言模型（LLM）具备强大的结构化推理能力，能够在离散的提示词（Prompt）空间中进行受约束的搜索。攻击者可以利用 LLM 进行局部细粒度但全局连贯的语义修改，从而在不破坏水印检测所需语义一致性的前提下，注入对抗性属性，绕过现有的语义水印防御。

2. 方法论：连贯性保持语义注入 (CSI)

作者提出了一种名为 Coherence-Preserving Semantic Injection (CSI) 的攻击框架。该框架的核心思想是利用 LLM 作为优化器，在保持图像全局语义（如主体对象）不变的前提下，微调局部属性，同时确保生成的图像与原始水印噪声在语义空间上保持一致。

2.1 核心组件

CSI 攻击流程包含两个主要阶段（如图 1 所示）：

基于语义连贯操纵的对抗性语义注入 (ASI)：
- 目标：寻找一个新的提示词 $t'$ ，使其满足三个条件：(i) 保留全局锚点（Global Anchors，如主体）；(ii) 注入目标对抗属性；(iii) 生成的图像 $x'$ 能通过 CSW 检测（即图像语义与原始噪声语义对齐）。
- 噪声复用：利用 DDIM 反演提取原始图像的噪声 $z_T$ 和 CSW 噪声 $\{\epsilon_t\}$ ，并在再生成时直接复用这些噪声。这确保了任何检测结果的改变仅归因于语义编辑，而非随机采样。
- LLM 优化：由于离散 Token 空间的直接优化不可行，作者采用“提示优化（Optimization-by-Prompting）”策略。将 LLM 视为黑盒提议者，通过元提示（Meta Prompt）指定约束（保持主体、微调属性），让 LLM 生成一批候选提示词。
基于一致性的分层过滤 (CHF)：
为了从 LLM 生成的候选池中筛选出成功的攻击样本，设计了三级过滤机制：
- 文本语义过滤：计算候选提示词与原始提示词在“全局锚点”上的文本相似度，剔除偏离主体的样本。
- 视觉锚点过滤：利用复用的噪声再生成图像，并通过 BLIP 模型提取新图像的描述，再次验证视觉主体是否保持一致。
- CSW 语义匹配过滤：计算再生成图像与原始噪声调度之间的语义相似度（余弦相似度），确保图像与水印噪声的语义对齐度满足阈值 $\tau_{csw}$ 。

3. 主要贡献 (Key Contributions)

首次系统性攻击 CSW：提出了 CSI 攻击框架，这是首个针对内容感知语义水印（如 SEAL）的系统性攻击方法。
揭示 LLM 驱动的安全缺陷：证明了即使是最先进的语义水印方案，在面对 LLM 引导的语义空间扰动时也存在根本性的安全弱点。LLM 能够解决复杂的多约束语义优化问题，这是传统攻击方法无法做到的。
提出新的攻击范式：结合了“对抗性语义注入”与“一致性分层过滤”，展示了如何在保持水印检测通过的同时，成功篡改图像语义。

4. 实验结果 (Results)

实验在 Stable Diffusion V2 模型上进行，对比了 CSI 与现有的攻击基线（LFA, RPM）以及多种水印防御方案（GSW, Tree-Ring, WIND, SEAL）。

攻击成功率 (ASR)：
- 针对 内容无关水印（GSW, Tree-Ring, WIND）：CSI 与基线攻击均达到了 100% 的攻击成功率。
- 针对 内容感知水印 (SEAL)：
  - 基线攻击 RPM 和 LFA 几乎完全失效（ASR 分别为 7% 和 0%）。
  - CSI 攻击取得了 81% 的攻击成功率，远超基线，证明了其绕过高级语义防御的能力。
检测指标分析：
- Tree-Ring (TRW)：攻击后噪声重建的 L1 距离平均为 47.42，远低于检测阈值 77.00。
- SEAL：攻击后匹配块数量平均为 134.8，远超阈值 12。
- GSW：解码准确率高达 1.00（阈值 0.71）。
- WIND：实现了完全的噪声模式匹配。
语义连贯性 (FID 分析)：
- 为了验证攻击是否破坏了语义连贯性，作者计算了生成图像集与原始图像集的 Fréchet Inception Distance (FID)。
- 无约束的再生成 (RPM) FID 高达 235.40（语义漂移严重）。
- CSI 攻击的 FID 为 178.75，显著低于 RPM，且非常接近未篡改的 SEAL 图像（164.27）。这证明 CSI 成功地在保持全局语义分布一致性的同时完成了攻击。

5. 意义与结论 (Significance & Conclusion)

安全警示：当前基于“语义一致性”的水印设计假设攻击者难以在保持语义连贯的同时进行有效篡改，但 LLM 的出现打破了这一假设。现有的语义水印（包括 SEAL）在面对 LLM 引导的语义注入时是脆弱的。
未来方向：论文指出，未来的水印设计必须超越简单的语义绑定，需要开发能够抵御语义级对抗攻击的更鲁棒、分层的水印机制。单纯依赖扩散噪声与语义的耦合已不足以保障安全。
核心洞察：LLM 不仅是内容生成工具，在离散提示词空间中，它们也是强大的约束满足求解器，能够精准地操纵语义空间以绕过基于语义的防御机制。

总结：该论文通过引入 LLM 引导的 CSI 攻击，揭示了当前最先进的语义感知水印系统存在严重的安全盲区，强调了在生成式 AI 时代，水印技术需要重新评估其对抗 LLM 级语义操纵的能力。

Breaking Semantic-Aware Watermarks via LLM-Guided Coherence-Preserving Semantic Injection

1. 背景：AI 图片的“防伪标签”

2. 问题：大语言模型（LLM）成了“超级黑客”

3. 核心方法：CSI（保持连贯的语义注入）

4. 实验结果：大获全胜

5. 结论：安全警钟

1. 研究背景与问题 (Problem)

2. 方法论：连贯性保持语义注入 (CSI)

2.1 核心组件

3. 主要贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与结论 (Significance & Conclusion)

类似论文

Robust Multi-agent Communication via Multi-view Message Certification

DySCo: Dynamic Semantic Compression for Effective Long-term Time Series Forecasting

Sven: Singular Value Descent as a Computationally Efficient Natural Gradient Method

Forecasting Supply Chain Disruptions with Foresight Learning

UQ-SHRED: uncertainty quantification of shallow recurrent decoder networks for sparse sensing via engression