Breaking Semantic-Aware Watermarks via LLM-Guided Coherence-Preserving Semantic Injection

本文提出了一种由大语言模型引导的“一致性保持语义注入”攻击方法,揭示了当前基于语义的图像水印方案在应对能够进行细粒度语义操控且保持全局一致性的 LLM 攻击时存在根本性的安全缺陷。

Zheng Gao, Xiaoyu Li, Zhicheng Bao, Xiaoyan Feng, Jiaojiao Jiang

发布于 2026-02-26
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于**“如何破解 AI 图片水印”的故事。为了让你更容易理解,我们可以把整个过程想象成一场“高智商的伪造与反伪造”游戏**。

1. 背景:AI 图片的“防伪标签”

想象一下,现在大家都能用 AI(比如 Stable Diffusion)生成非常逼真的图片。为了防止有人乱用这些图片,或者为了证明“这张图是我画的”,研究人员给 AI 加了一种**“隐形防伪标签”(也就是语义水印**)。

  • 以前的标签(传统水印): 就像在照片上盖个章,或者在像素里藏个暗记。但这很容易被修图软件磨掉,或者被压缩弄坏。
  • 现在的标签(语义水印,如 SEAL): 研究人员想了一个更聪明的办法。他们不再在像素里藏东西,而是把标签和**图片的“灵魂”(语义)**绑定在一起。
    • 比喻: 以前是贴在画布上的标签,现在是把标签编织进了画布的纹理和图案里。如果你试图把标签撕下来,整幅画就会变得乱七八糟,甚至变成一坨乱码。所以,攻击者必须保证:改得再狠,画的整体意境和逻辑不能崩。

2. 问题:大语言模型(LLM)成了“超级黑客”

虽然这种“语义水印”很聪明,但作者发现了一个巨大的漏洞:大语言模型(LLM)太懂“逻辑”和“语境”了。

  • 攻击者的困境: 以前,黑客想改图,要么把标签撕了(图就坏了),要么把图改得面目全非(水印检测器就报警了)。这就像让你把“一只在草地上吃草的牛”改成“一只在吃草的老虎",同时还得让画看起来完全没变过,这几乎是不可能的任务。
  • LLM 的绝招: 但是,LLM 就像一个精通逻辑的“神笔马良”。它不仅能理解“牛”和“老虎”的区别,还能理解“草地”、“吃草”这些概念之间的逻辑关系。
    • 比喻: 如果原来的画是“一只在草地上吃草的牛”,LLM 不会粗暴地把牛涂成老虎。它会说:“好吧,我们把‘牛’改成‘老虎’,但为了保持画面逻辑,我们把‘吃草’改成‘捕猎羚羊’,把‘悠闲’改成‘凶猛’。”
    • 结果: 画面变了(水印想改的地方改了),但整体的故事逻辑(语义连贯性)依然完美。这就骗过了那些检查“画面是否逻辑自洽”的水印检测器。

3. 核心方法:CSI(保持连贯的语义注入)

作者提出了一种叫 CSI 的攻击方法,专门利用 LLM 的这个能力。我们可以把它分成三步:

  1. LLM 当“编剧”:

    • 攻击者给 LLM 一个指令:“把这张图里的‘牛’改成‘老虎’,但必须保持画面逻辑通顺,不能破坏整体氛围。”
    • LLM 就会生成一堆新的提示词(Prompt),比如“一只在草原上捕猎的凶猛老虎”。这些提示词既改了内容,又没破坏逻辑。
  2. 复制“灵魂”(噪声):

    • AI 画图时,其实是在一张“噪点图”(像电视雪花一样的底图)上慢慢变清晰的。水印就藏在这个“底图”里。
    • 攻击者不重新生成底图,而是直接复制原来那张带水印的“底图”。
    • 比喻: 就像你有一张印了防伪码的透明胶片。你想换上面的图案,但你不换胶片,只是用新的画笔在胶片上重新画图案。因为胶片没变,防伪码(水印)还在。
  3. 层层筛选(守门员):

    • LLM 可能会生成一些奇怪的句子。作者设计了一套“过滤器”:
      • 第一关:检查句子通不通顺?(文本过滤)
      • 第二关:生成的图里,主要物体还在吗?(视觉过滤)
      • 第三关:生成的图,和原来的“底图”(水印)还能对上号吗?(语义一致性过滤)
    • 只有那些既改了内容,又骗过了水印检测的图,才会被选出来。

4. 实验结果:大获全胜

作者用这套方法去攻击目前最先进的几种水印技术:

  • 对旧式水印: 就像用热刀切黄油,轻松破解(成功率 100%)。
  • 对新型“语义水印”(SEAL): 这是最难的关卡。以前的攻击方法(比如 RPM、LFA)在这里几乎全败,成功率只有 0% 到 7%。
  • CSI 的表现: 即使面对最聪明的“语义水印”,CSI 的攻击成功率也高达 81%
    • 比喻: 以前的黑客是拿着大锤砸锁,把锁砸坏了,门也开了(但警报响了)。现在的 LLM 黑客是拿着万能钥匙,轻轻一转,锁开了,门也开了,而且警报器完全没响,因为它觉得“门还是那扇门,只是里面的家具稍微换了个位置”。

5. 结论:安全警钟

这篇论文告诉我们一个令人不安的事实:
只要大语言模型(LLM)足够聪明,能够理解并操控“逻辑”和“语境”,目前基于“语义一致性”的水印防御就形同虚设。

这就好比,以前我们以为只要把防盗门做得足够结实(像素水印)或者把锁芯做得很复杂(噪声水印)就安全了。但现在发现,小偷(LLM)学会了**“换锁芯里的弹子,但保持锁孔形状不变”**的魔术,直接绕过了所有防线。

未来的方向: 我们需要设计更高级的防御机制,不仅要防“乱改”,还要防这种“逻辑完美但内容被篡改”的聪明攻击。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →