Beyond Detection: Multi-Scale Hidden-Code for Natural Image Deepfake Recovery and Factual Retrieval

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于**“如何从被篡改的图片中找回真相”**的故事。

想象一下，现在的 AI 画图技术（比如 Deepfake）非常强大，它可以把一张真照片里的鸟 P 成猫，或者把一个人的脸换掉。以前的技术主要擅长**“抓现行”（告诉你是假的）或者“画圈圈”（指出哪里被改了），但很少能“变回原样”**（把被改坏的地方修好，并找回原本的信息）。

这篇论文的作者提出了一套新方案，就像给图片装了一个**“隐形的时光胶囊”**。

以下是用通俗易懂的比喻来解释这篇论文的核心内容：

1. 核心痛点：以前的“急救包”太重了

以前的“自我修复”水印技术，就像是在一张照片里塞进了一张完整的、未压缩的备份照片。

问题：这就好比你要把整栋房子的蓝图塞进一张邮票里。为了塞进去，你不得不把蓝图画得极小，或者把邮票塞得鼓鼓囊囊。
后果：一旦这张邮票（图片）被揉皱、淋雨（被压缩、被篡改），里面的蓝图就糊了，根本修不好。而且，塞太多东西会让原图画质变差。

2. 我们的新方案：多尺度的“乐高积木”

作者提出了一种聪明的方法，不再塞整张图，而是把图片变成**“隐形的乐高积木”**（隐藏代码）。

多尺度量化（Multi-Scale Quantization）：
想象一下，我们不看照片的每一个像素点，而是把照片看作由不同大小的积木块组成的：
- 大块积木：代表照片的整体轮廓（比如“这是一只鸟”）。
- 中块积木：代表鸟的翅膀和身体形状。
- 小块积木：代表羽毛的纹理细节。
  以前的方法只存“小块积木”，一旦丢失细节就完了。我们的方法同时存下大、中、小不同层级的积木。这样，即使某些细节被破坏了，我们还能根据大轮廓把鸟的形状猜出来，再慢慢补全细节。
Dropout 训练（随机丢弃训练）：
为了让这些积木在低层级也能发挥作用，作者在训练时故意“随机扔掉”一些高层级的积木。这就像教学生时，故意不给他看最后的答案，逼着他学会从简单的草图（低层级）推导出复杂的细节。这样，即使只有很少的信息，也能还原出大概的样子。

3. 万能接口：像“充电宝”一样通用

这个系统最棒的地方在于它的**“即插即用”**特性。

不管你是**“先画图后加水印”（比如用 Stable Diffusion 生成图时直接嵌入），还是“先有图后加水印”**（比如用编辑软件改完图再嵌入），这套“时光胶囊”系统都能无缝接入。
它就像是一个通用的万能充电宝，不管你的手机（图片保护系统）是什么牌子，插上就能充电（恢复信息）。

4. 修复过程：带着“地图”修房子

当一张被篡改的图片（Deepfake）出现时，修复过程是这样的：

提取胶囊：从被改坏的图片里，把那个“隐形的乐高积木包”（隐藏代码）取出来。
画地图：利用定位技术，画出一张**“破坏地图”**，标出哪里被 P 掉了（比如鸟的翅膀没了）。
智能修补：
- 系统手里拿着“积木包”（原本的信息）。
- 看着“破坏地图”（哪里坏了）。
- 利用一个**“超级建筑师”（Transformer 模型）**，它会根据手里的积木，结合周围没坏的地方，把坏掉的翅膀重新“拼”回去。
- 因为它手里有“大积木”（整体概念）和“小积木”（细节），所以拼出来的鸟既不像个怪物，也不会模糊不清。

5. 事实检索：找回“身份证”

除了把图修好，这个系统还能帮你**“认人”**。

想象你在一个巨大的照片库里找一张被 P 过的照片原本长什么样。
系统修复后的图片，虽然可能不是 100% 像素级还原，但它的**“灵魂”（语义信息）**是完整的。
就像你看到一张模糊的猫的照片，虽然看不清胡须，但你能一眼认出“这是一只猫”。系统能利用这种“灵魂相似度”，在成千上万张图片里，迅速找到原本的那只猫（或者同一只猫的不同照片）。

6. 新玩具：ImageNet-S 数据集

为了证明这套方法真的有用，作者还专门造了一个**“考试卷”**（ImageNet-S 数据集）。

以前没有专门测试“图片修复 + 找回原图”的考题。
现在，他们给图片加上各种破坏（比如把鸟 P 掉），然后看系统能不能修好，并能不能在题库里找到原图。
结果显示，这套方法在“修图”和“找图”的考试中都拿了高分，比以前的老方法强很多。

总结

这篇论文就像是在说：

“别只盯着怎么抓假照片了，我们要学会怎么救真照片。我们给照片装了一个**‘隐形乐高胶囊’，不管照片被怎么破坏，我们都能像拼乐高**一样，把原本的样子拼回来，甚至还能认出它原本是谁。而且这个胶囊什么类型的照片保护系统都能用。”

这不仅让被篡改的图片有了“复活”的可能，也为未来的数字内容真实性保护提供了一个全新的思路。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题定义 (Problem)

核心痛点：
现有的图像真实性研究主要集中在**深度伪造检测（Detection）和篡改定位（Localization）上。虽然这些方法能识别“哪里被改了”，但无法恢复（Recover）**被篡改的原始内容。这对于事实核查（Factual Retrieval）和证据保全至关重要。

现有方法的局限性：

自恢复水印（Self-recovery Watermarking）： 传统方法通常需要在图像中嵌入大量像素级信息（如 LSB 替换），导致水印容量需求极大（高 BPP），且对压缩、噪声等常见退化极其敏感，鲁棒性差。
基于学习的恢复（Learning-based Recovery）： 如 DFREC 等方法，通常依赖成对的“原图 - 篡改图”数据进行监督学习，且往往局限于人脸等特定区域，难以处理自然图像中任意、未知的篡改区域。
信息量与鲁棒性的矛盾： 直接嵌入完整图像信息会导致嵌入量过大，一旦水印受损，恢复即失败。

本文目标：
提出一种统一的隐藏代码恢复框架，旨在从被篡改的图像中恢复原始内容，并支持事实检索（Factual Retrieval）（即在数据库中检索出原始图像或其语义标签）。该方法需兼容“后处理水印（Post-hoc）”和“生成式水印（In-generation）”两种范式。

2. 核心方法论 (Methodology)

本文提出了一种基于**多尺度潜在量化（Multi-Scale Latent Quantization）**的隐藏代码水印框架。

2.1 多尺度自水印机制 (Multi-Scale Self-Watermarking)

离散 Token 表示： 利用 VQ-VAE（矢量量化变分自编码器）将图像 $I$ 编码为离散的潜在 Token 序列，而非连续的像素值。
多尺度量化策略： 采用类似 VAR（Visual Autoregressive）的多尺度分层结构，将图像分解为多个尺度的 Token 图 $(z_{s1}, ..., z_{sK})$ $(z_{s 1}, ..., z_{sK})$ 。
- 关键创新（Dropout 训练）： 传统的多尺度量化往往将语义信息集中在最后几个高分辨率尺度。为了在低尺度（容量受限）也能保留语义，作者在 VQ-VAE 训练时引入Dropout 策略（随机丢弃最后几个尺度），迫使模型在低尺度编码中也能包含有意义的语义信息。
信息压缩与嵌入：
- 将多尺度 Token 映射为码本索引，展平并转换为二进制比特流 $h$ 。
- 利用水印编码器 $E_w$ 将 $h$ 嵌入到原图中生成保护图像 $I_w$ 。
- 容量约束： 仅使用前 $k$ 个尺度的 Token，确保嵌入长度 $|h|$ 不超过水印容量 $|m|$ 。

2.2 即插即用的兼容性 (Plug-and-Play Compatibility)

该框架设计为模块化，可无缝集成到两类水印系统中：

后处理水印（Post-hoc）： 如 EditGuard。先嵌入定位水印，再嵌入恢复用的隐藏代码。
生成式水印（In-generation）： 如 Gaussian Shading。通过优化 DDIM 反演过程，调整生成模型的初始噪声 $x_T$ ，使其携带所需的隐藏代码 $h$ 。

2.3 篡改恢复与事实检索 (Recovery & Retrieval)

篡改定位： 利用定位解码器 $D_{loc}$ 从篡改图 $I_d$ 中提取篡改掩码 $M'_{loc}$ ，并将其下采样为与 Token 粒度对齐的 Patch 级掩码。
条件 Transformer 恢复：
- 从 $I_d$ 中提取隐藏的 Token $h'$ （包含低尺度信息）和篡改掩码。
- 使用条件 Transformer 进行自回归重建。模型利用已知的低尺度 Token 作为条件，结合 Patch 级掩码指导，逐层预测并融合高分辨率的 Token。
- 融合策略： 对于未篡改区域，保留原图特征；对于篡改区域，利用模型预测的“干净”特征进行修复。
事实检索（Factual Retrieval）： 恢复后的图像 $I_r$ 被送入 CLIP 编码器，计算其与目标数据集 $D$ 中图像的余弦相似度，以检索原始图像 $I$ 或其语义标签。

3. 主要贡献 (Key Contributions)

多尺度潜在水印策略： 提出了一种鲁棒、低开销的嵌入策略，通过多尺度量化在有限的容量下平衡了语义信息的完整性与嵌入的鲁棒性。
基于量化的隐藏机制： 设计了一种平衡容量、不可感知性和鲁棒性（抗压缩、抗噪声）的量化隐藏机制，显著优于传统像素级自恢复水印。
即插即用的框架设计： 证明了该方法可同时兼容后处理和生成式水印范式，无需修改核心架构即可灵活部署。
ImageNet-S 基准数据集： 构建了一个包含“图像 - 标签 - 篡改掩码”三元组的新基准数据集，用于标准化评估图像恢复的准确性和事实检索能力。

4. 实验结果 (Experimental Results)

实验在自建的 ImageNet-S 数据集上进行，对比了 HiNet、RePaint、VQGAN、VAR 等基线方法。

事实检索性能（Factual Retrieval）：
- 在 Top-1 标签准确率 上，本文方法（Conditional Transformer 版本）达到了 92.31%，显著优于 VAR (67.54%) 和 VQGAN (52.05%)。
- 在 Top-1 图像检索准确率 上，达到了 87.44%。
- 即使在原图不在检索库中（Different samples）的情况下，也能保持较高的标签检索准确率（49.68%），证明了语义一致性。
图像恢复质量：
- 在 SSIM、PSNR 和 LPIPS 指标上，本文方法均优于 HiNet 和 RePaint，且与 VQGAN 基线相当或略优。
- 定性分析显示，本文方法能更好地恢复被篡改区域的纹理和语义结构（如鸟类羽毛、鸵鸟特征），而传统方法常出现伪影或语义漂移。
鲁棒性测试：
- 在 JPEG 压缩、高斯模糊、高斯噪声等攻击下，本文方法的比特准确率（Bit Accuracy） 保持在 0.95 以上，而传统自恢复水印（如 Bouarroudj et al.）在 JPEG 压缩下跌至 0.5 左右。
抗伪造性（Anti-Forgery）：
- 通过引入内容依赖水印（CDW），有效防止了水印移植攻击。在平均攻击和噪声估计攻击下，攻击者的比特准确率被压制在 0.5 左右（即随机猜测水平），而基线方法（Gaussian Shading）的准确率高达 0.9 以上。

5. 意义与影响 (Significance)

超越检测： 将图像真实性研究从单纯的“检测/定位”推向了“恢复/取证”的新阶段，为司法取证和新闻真实性核查提供了技术基础。
解决容量瓶颈： 通过多尺度量化和潜在空间编码，解决了传统自恢复水印因嵌入信息量过大而导致的鲁棒性差的问题。
通用性： 该框架不依赖于特定的篡改类型或区域，适用于自然图像的各种深度伪造场景。
标准化评估： ImageNet-S 的提出填补了该领域缺乏标准化评估基准的空白，推动了后续研究的发展。

总结： 该论文提出了一种创新的“隐藏代码”框架，利用多尺度量化和 Transformer 技术，实现了在未知篡改情况下对自然图像的高效恢复和事实检索，同时具备极强的鲁棒性和抗伪造能力，是图像取证领域的重要进展。