Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 TokenTrace 的新技术，旨在解决生成式 AI（比如画图的 AI）带来的一个核心难题：如何给 AI 生成的图片“上户口”，证明它是由谁创作的，或者它用了谁的画风？

想象一下，现在的 AI 画家非常厉害，它能模仿梵高的笔触画一只猫，也能模仿毕加索的风格画一个苹果。但如果有人把这两者结合起来，画了一只“梵高风格的毕加索猫”，我们怎么知道这张图里哪些部分属于梵高，哪些属于毕加索？现有的技术就像是在图片上盖了一个模糊的、整体的大印章，一旦图片被裁剪、压缩，或者混合了多种风格，这个印章就失效了，或者分不清到底是谁的。

TokenTrace 就像是一位高明的“侦探”兼“隐形墨水大师”，它用一种全新的方法解决了这个问题。

1. 核心比喻：给“想法”和“种子”同时做记号

传统的给图片加水印，就像是在画好的画布上偷偷涂一层看不见的颜料。但这层颜料很脆弱，画布被撕了、洗了（图片被压缩、裁剪），颜料就掉了。

TokenTrace 的做法完全不同，它是在画画开始之前，就在“构思”和“种子”阶段做手脚：

双重条件策略（Dual-Conditioning）：
- 第一重：修改“指令书”（文本提示词）。 当用户输入“画一只猫”时，TokenTrace 会在“猫”这个字的含义里偷偷加入一个只有它知道的“秘密代码”。这就像是在给画家的指令书里，用隐形墨水在“猫”字旁边写了一行只有特定解码器能看懂的备注。
- 第二重：修改“种子”（初始噪点）。 AI 画画通常是从一团混乱的噪点（像电视雪花）开始，慢慢变清晰的。TokenTrace 会在这团初始的“雪花”里也埋入同样的秘密代码。
- 结果： 当 AI 根据这些被修改过的“指令”和“种子”开始画画时，生成的图片从骨子里就带着这个秘密。它不是画在表面的，而是长在图片的结构里的。

2. 核心创新：像查字典一样“按需查询”

这是 TokenTrace 最厉害的地方。以前的水印技术，就像是在图片里塞了一个巨大的、混杂的包裹，你想找里面的东西，得把整个包裹拆开，而且如果包裹里有两个人的东西混在一起，你就分不清了。

TokenTrace 引入了一个**“查询式模块”（Query-based Module）**：

场景： 假设 AI 画了一张图，里面有一只“穿着毛衣的猫”，用了“梵高风格”。这张图里同时包含了“猫”、“毛衣”和“梵高风格”三个秘密。
传统方法： 试图一次性把三个秘密都解出来，结果往往是一团乱麻，互相干扰。
TokenTrace 方法： 它像是一个智能图书馆。
- 如果你想查“猫”的秘密，你就问系统：“请帮我找图里关于猫的线索”。系统就会专门去提取和“猫”相关的特征，忽略“毛衣”和“梵高风格”，精准地找回“猫”的密码。
- 如果你想查“梵高风格”，你就问：“请帮我找图里关于风格的线索”。系统就会切换模式，专门提取风格相关的特征，找回“梵高”的密码。

比喻： 这就像你有一杯混合了可乐、橙汁和雪碧的饮料。以前的技术是试图把整杯饮料倒出来分析，很难分清。TokenTrace 则是给你一根魔法吸管，你问“我要喝可乐”，吸管就只吸出可乐；你问“我要喝橙汁”，吸管就只吸出橙汁。互不干扰，精准提取。

3. 为什么它很牛？

抗揍（鲁棒性强）： 因为秘密是藏在“指令”和“种子”里的，而不是画在表面的。所以即使你把图片裁剪掉一半、压缩成小图、甚至加个滤镜，只要图片的核心内容还在，这个“隐形记号”就能被找回。
分得清（多概念解耦）： 它能完美处理“混合概念”。比如“梵高风格的猫”，它能分清哪部分是猫，哪部分是风格，分别给它们打上不同的标签。
看不见（高保真）： 因为它是在深层语义里做微调，生成的图片看起来和原版几乎一模一样，人眼完全看不出区别，不会破坏艺术美感。

4. 总结

TokenTrace 就像是给 AI 生成的每一张图都配发了一张**“数字身份证”**。

以前： 身份证是贴在照片背面的，照片撕了，身份证就丢了；或者照片里有多个人，身份证混在一起分不清。
现在（TokenTrace）： 身份证是刻在照片的 DNA 里的。而且，你可以通过提问（比如“这是谁的猫？”）来单独提取某一个人的身份信息，互不干扰。

这项技术对于保护艺术家、设计师的知识产权非常重要。它能让 AI 生成的图片在传播过程中，始终保留着“我是谁画的”、“我用了谁的风格”的证据，让创作者的权益得到真正的保障。

Each language version is independently generated for its own context, not a direct translation.

TokenTrace 技术总结：基于水印 Token 恢复的多概念归属

1. 研究背景与问题 (Problem)

随着生成式人工智能（特别是基于扩散模型的文本到图像生成）的飞速发展，生成高质量、复杂视觉内容的能力显著增强。然而，这也带来了严峻的知识产权（IP）保护挑战：

归属缺失：模型可以复制独特的艺术风格和概念而无需署名。
现有方法的局限性：
- 被动水印：在生成后添加，易受压缩、裁剪等常见变换破坏。
- 主动水印（像素域）：如 ProMark，直接在像素空间嵌入水印，但面对多概念重叠（例如：特定物体 + 特定艺术风格）时，难以分离和独立归属各个概念。
- 主动水印（潜在空间）：如 CustomMark，虽然鲁棒性更强，但通常嵌入单一的整体水印，无法在视觉表示重叠时解耦并独立验证多个概念。

核心痛点：现有的归属方法无法有效处理**多概念组合（Multi-Concept Composition）**场景，即无法从单张生成的图像中独立地提取和验证多个重叠概念（如“物体”和“风格”）的归属权。

2. 方法论 (Methodology)

为了解决上述问题，作者提出了 TokenTrace，一种新颖的主动水印框架，旨在实现鲁棒的、基于查询的多概念归属。其核心思想是将水印与概念本身的文本语义直接关联，而非仅仅嵌入像素或潜在噪声。

2.1 核心架构

TokenTrace 包含两个主要阶段：

A. 概念编码阶段 (Concept Encoding) - 双条件策略

在图像生成过程中，通过**双条件（Dual-Conditioning）**策略将秘密签名（Secret Signature）嵌入到生成过程中：

语义域扰动 (Semantic Domain)：
- 使用概念编码器 (Concept Encoder, $f_{enc}$ )。
- 输入：概念秘密 ( $S$ ) 和对应的目标概念 Token 嵌入 ( $e_c$ )。
- 操作：生成扰动并仅添加到目标 Token 嵌入中，形成扰动后的提示词嵌入 ( $\hat{E}_{prompt}$ )。
- 作用：将水印直接绑定到文本语义空间，从生成源头分离不同概念。
潜在域扰动 (Latent Domain)：
- 使用秘密映射器 (Secret Mapper, $f_{map}$ )。
- 输入：概念秘密 ( $S$ )。
- 操作：生成结构化的高斯噪声扰动，添加到初始潜在噪声 ( $z_T$ ) 中，形成扰动噪声 ( $\hat{z}_T$ )。
- 作用：将水印深度融入扩散模型的生成轨迹，增强鲁棒性。
生成：扩散模型 (DM) 基于扰动后的提示词和噪声生成最终的水印图像 ( $I_{wm}$ )。

B. 概念解码阶段 (Concept Decoding) - 基于查询的检索

为了从图像中恢复水印，提出了一种基于查询的 TokenTrace 模块：

输入：水印图像 ( $I_{wm}$ ) + 文本查询提示 ( $P_{query}$ ，指定要检索的概念，如"a photo of ")。
TokenTrace 模块 ( $f_{tt}$ )：
- 利用冻结的 CLIP 图像编码器和文本编码器提取特征。
- 通过可训练的投影层和对齐注意力机制融合多模态特征。
- 预测目标概念的嵌入 ( $\tilde{e}_c$ )。
秘密解码器 ( $f_{dec}$ )：将预测的概念嵌入映射回原始的二进制秘密 ( $\tilde{S}$ )。
优势：通过指定特定的文本查询，系统可以选择性隔离并验证单个概念，从而解决多概念重叠时的解耦难题。

2.2 训练目标

采用复合损失函数 ( $L_{total}$ ) 联合优化所有可训练参数，平衡以下目标：

水印检索准确性：交叉熵损失 ( $L_{CE}$ ) 和正则化损失 ( $L_{reg}$ )，确保预测秘密和概念嵌入的准确性。
视觉保真度：对比风格描述符损失 ( $L_{CSD}$ ) 和 $L_2$ 损失，确保水印图像与原始图像在语义风格和像素层面高度一致，保持不可感知性。

3. 主要贡献 (Key Contributions)

TokenTrace 框架：提出了一种将水印嵌入文本提示和潜在噪声双重域的新框架，将水印与概念语义内在绑定，从根本上避免了像素空间的重叠问题。
基于查询的解耦机制：设计了 TokenTrace 模块，能够利用文本查询从单张图像中有效解耦并独立归属多个重叠概念（如物体和风格），这是现有方法无法做到的。
卓越的性能表现：在单概念（风格、物体）和多概念归属任务上均达到了最先进（SOTA）水平，同时保持了高视觉质量和对常见变换的鲁棒性。

4. 实验结果 (Results)

实验在 WikiArt（风格）、ImageNet（物体）以及自定义多概念数据集上进行：

单概念归属 (Single-Concept)：
- 在 WikiArt 数据集上，TokenTrace 的归属准确率达到 91.67%，比特准确率 98.33%，显著优于 ProMark (87.19%) 和 CustomMark (89.25%) 等基线。
- 在 ImageNet (1000 类物体) 上，归属准确率达到 90.43%，比特准确率 95.82%。
- 视觉质量：水印图像与原始图像在视觉上几乎无法区分，CSD 分数和 CLIP 分数保持高位。
多概念归属 (Multi-Concept)：
- 在组合了“物体 + 风格”的自定义概念测试中，TokenTrace 归属准确率为 88.62%，优于 CustomMark (85.14%)。
- 在更复杂的 4 概念通用场景（如“猫 + 毛衣 + 阳光 + 海滩”）中，TokenTrace 归属准确率达到 81.57%，远超 CustomMark (72.78%)。
- 定性分析：从单张图像中，通过不同的查询提示，成功独立恢复了每个概念的秘密（例如，查询“猫”恢复猫的秘密，查询“毛衣”恢复毛衣的秘密）。
鲁棒性 (Robustness)：
- 对旋转、JPEG 压缩、裁剪、高斯模糊、对抗攻击等变换表现出极强的鲁棒性。即使在严重变换下，归属准确率仍保持在 82% 以上。
可扩展性：
- 在概念库从 10 扩展到 1000 时，性能下降极小（仅下降约 6%），证明了其良好的可扩展性。
- 支持增量学习，无需从头训练即可添加新概念。

5. 意义与结论 (Significance)

TokenTrace 解决了生成式 AI 领域长期存在的多概念归属难题。

技术突破：通过“语义 + 潜在”双域嵌入和“基于查询”的检索机制，首次实现了在单张图像中对重叠概念进行独立、鲁棒的归属验证。
实际应用价值：为艺术家和创作者提供了强有力的工具，保护其独特的风格和概念不被滥用，同时不影响生成内容的视觉质量。
未来影响：该方法为构建可追溯、可问责的生成式 AI 生态系统奠定了基础，特别是在处理复杂、组合式生成内容时具有不可替代的优势。

简而言之，TokenTrace 不仅是一个水印工具，更是一套能够理解并分离生成内容中复杂语义结构的归属系统。

TokenTrace: Multi-Concept Attribution through Watermarked Token Recovery