Latent-Mark: An Audio Watermark Robust to Neural Resynthesis

本文提出了 Latent-Mark,这是首个通过向神经编解码器的不变潜在空间嵌入水印,从而有效抵御神经重合成攻击并兼具传统信号处理鲁棒性与感知不可察觉性的零比特音频水印框架。

Yen-Shan Chen, Shih-Yu Lai, Ying-Jung Tsou, Yi-Cheng Lin, Bing-Yu Chen, Yun-Nung Chen, Hung-Yi Lee, Shang-Tse Chen

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 LATENT-MARK 的新技术,它就像是为音频文件(比如语音、音乐)设计的一种“超级隐形墨水”,专门用来对抗一种全新的、非常强大的“橡皮擦”——神经音频重合成(Neural Resynthesis)

为了让你更容易理解,我们可以用几个生动的比喻来拆解这项技术:

1. 背景:旧方法为什么失效了?

以前的水印(传统方法):
想象一下,你在一幅名画(音频文件)的角落里,用肉眼几乎看不见的微小笔触画了一个隐形标记。以前的技术(像 AudioSeal, WavMark 等)就是在这种“画布表面”做文章。它们把标记藏在人耳听不到的细微噪音里。

  • 效果: 如果这幅画被复印、被裁剪、或者被涂了一层薄薄的透明胶(传统的数字信号处理,如压缩、滤波),这个隐形标记通常还能幸存下来。

新的威胁(神经重合成):
现在,出现了一种新的“复印机”(神经音频编解码器,如 EnCodec, SNAC)。它的工作原理完全不同:

  • 它不是简单地复印画布,而是把画拆散了。它先分析这幅画,提取出“这是蓝天”、“那是草地”、“这是鸟叫”等核心概念(语义),然后把这些概念变成一串代码(Token)。
  • 最后,它根据这些代码,重新画了一幅新画
  • 问题所在: 因为它是“重新画”的,那些藏在原画表面、不属于核心概念的“微小笔触”(旧水印),在重新画的过程中就被当作“杂音”直接丢弃了。就像你重新描述一幅画时,不会去描述原画纸张上微小的纤维瑕疵一样。
  • 结果: 以前的水印在这种“重画”过程中会彻底消失,就像被橡皮擦擦掉了一样。

2. 核心创意:LATENT-MARK 是怎么做的?

LATENT-MARK 的作者想出了一个聪明的办法:不要试图在画布表面做标记,而是直接改变“画家的构思”(潜空间)。

比喻一:改变“基因”而不是“皮肤”

想象一下,旧的水印是在人的皮肤上纹了一个几乎看不见的纹身。如果这个人去整容(神经重合成),把皮肤换了一层,纹身就没了。
LATENT-MARK 的做法是:它不纹在皮肤上,而是微调这个人的“基因”

  • 当神经编解码器(那个“画家”)去分析音频时,它看到的不仅仅是声音,而是声音背后的“基因序列”(潜空间 Latent Space)。
  • LATENT-MARK 通过微调原始音频,让它在进入“画家”的脑海时,基因序列发生了一个极其微小的、有方向的偏移
  • 这个偏移非常微妙,人耳听不出来(因为人耳听的是画出来的结果,不是基因),但这个偏移是符合“画家”逻辑的
  • 当“画家”重新画这幅画时,它会根据这个新的基因序列,自然地保留这个特征。因为对“画家”来说,这个特征就像是“蓝天”或“鸟叫”一样,是它必须保留的核心结构,而不是可以丢弃的杂音。

比喻二:在“字典”里做手脚

神经编解码器就像一本巨大的字典,把声音切成一个个词(Token)。

  • 旧方法:试图在单词的拼写里藏一个错别字(容易被字典修正)。
  • LATENT-MARK:它不藏错别字,而是让这个词在字典里的“位置”稍微挪动了一点点。比如,把“苹果”这个词,往“梨”的方向挪了一微米。
  • 因为字典(编解码器)本身就有模糊性,它可能会觉得“嗯,这个位置还是算苹果”,于是它保留了这种“苹果带点梨味”的感觉。这种“味道”就是水印。

3. 关键技术:如何做到“通用”?

如果只针对一种“画家”(一种编解码器)调整基因,换一种“画家”可能就不管用了。为了解决这个问题,作者提出了**“跨编解码器联合优化” (Cross-Codec Optimization)**。

  • 比喻: 想象你要给一群不同的画家(SNAC, DAC, EnCodec 等)都留下标记。
  • 你不再只针对一个人训练,而是同时面对这群画家。你调整你的“基因”,直到所有画家都觉得:“嗯,这个特征虽然有点特别,但都在我的逻辑范围内,我应该保留它。”
  • 这样,无论未来出现什么样的新画家(黑盒攻击),只要它也是基于类似的逻辑,这个标记大概率都能存活下来。这就是所谓的“零样本迁移”(Zero-shot transferability)。

4. 实验结果:它真的好用吗?

论文做了很多测试,结果非常惊人:

  1. 对抗“重画”能力极强: 当音频经过神经编解码器(如 SNAC)的“重画”处理后,旧的水印方法(AudioSeal 等)存活率几乎为 0%(全灭)。而 LATENT-MARK 的存活率高达 60% - 90% 以上。
  2. 人耳听不出区别: 虽然它改变了音频的“基因”,但人耳听起来和原声几乎一模一样,音质没有受损。
  3. 老对手也打不倒: 它不仅防得住“重画”,对于传统的压缩、加噪音、滤波等攻击,它依然像以前的优秀水印一样坚固。

总结

LATENT-MARK 就像是给音频文件穿上了一件**“隐形防弹衣”**。

  • 以前的防弹衣(旧水印)只能防子弹(传统压缩),遇到核爆(神经重合成)就碎了。
  • 现在的防弹衣(LATENT-MARK)是长在你身体里的(嵌入在语义潜空间里)。无论外界怎么把你“打碎重组”,只要你的核心逻辑还在,这个标记就会像你的指纹一样,随着你一起重生。

这项技术对于保护知识产权、防止 AI 伪造声音(Deepfake)以及确保音频内容的真实性,具有非常重要的意义。它标志着音频水印技术从“表面伪装”迈向了“深层融合”的新时代。