TokenTrace: Multi-Concept Attribution through Watermarked Token Recovery

本文提出了 TokenTrace 框架,通过同时扰动文本提示嵌入和初始潜在噪声来嵌入多概念水印,并利用基于查询的模块实现对生成图像中多个概念(如物体与风格)的独立解耦与归属验证,在保持高视觉质量的同时显著提升了多概念场景下的版权追溯性能。

Li Zhang, Shruti Agarwal, John Collomosse, Pengtao Xie, Vishal Asnani

发布于 2026-02-24
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 TokenTrace 的新技术,旨在解决生成式 AI(比如画图的 AI)带来的一个核心难题:如何给 AI 生成的图片“上户口”,证明它是由谁创作的,或者它用了谁的画风?

想象一下,现在的 AI 画家非常厉害,它能模仿梵高的笔触画一只猫,也能模仿毕加索的风格画一个苹果。但如果有人把这两者结合起来,画了一只“梵高风格的毕加索猫”,我们怎么知道这张图里哪些部分属于梵高,哪些属于毕加索?现有的技术就像是在图片上盖了一个模糊的、整体的大印章,一旦图片被裁剪、压缩,或者混合了多种风格,这个印章就失效了,或者分不清到底是谁的。

TokenTrace 就像是一位高明的“侦探”兼“隐形墨水大师”,它用一种全新的方法解决了这个问题。

1. 核心比喻:给“想法”和“种子”同时做记号

传统的给图片加水印,就像是在画好的画布上偷偷涂一层看不见的颜料。但这层颜料很脆弱,画布被撕了、洗了(图片被压缩、裁剪),颜料就掉了。

TokenTrace 的做法完全不同,它是在画画开始之前,就在“构思”和“种子”阶段做手脚:

  • 双重条件策略(Dual-Conditioning):
    • 第一重:修改“指令书”(文本提示词)。 当用户输入“画一只猫”时,TokenTrace 会在“猫”这个字的含义里偷偷加入一个只有它知道的“秘密代码”。这就像是在给画家的指令书里,用隐形墨水在“猫”字旁边写了一行只有特定解码器能看懂的备注。
    • 第二重:修改“种子”(初始噪点)。 AI 画画通常是从一团混乱的噪点(像电视雪花)开始,慢慢变清晰的。TokenTrace 会在这团初始的“雪花”里也埋入同样的秘密代码。
    • 结果: 当 AI 根据这些被修改过的“指令”和“种子”开始画画时,生成的图片从骨子里就带着这个秘密。它不是画在表面的,而是在图片的结构里的。

2. 核心创新:像查字典一样“按需查询”

这是 TokenTrace 最厉害的地方。以前的水印技术,就像是在图片里塞了一个巨大的、混杂的包裹,你想找里面的东西,得把整个包裹拆开,而且如果包裹里有两个人的东西混在一起,你就分不清了。

TokenTrace 引入了一个**“查询式模块”(Query-based Module)**:

  • 场景: 假设 AI 画了一张图,里面有一只“穿着毛衣的猫”,用了“梵高风格”。这张图里同时包含了“猫”、“毛衣”和“梵高风格”三个秘密。
  • 传统方法: 试图一次性把三个秘密都解出来,结果往往是一团乱麻,互相干扰。
  • TokenTrace 方法: 它像是一个智能图书馆
    • 如果你想查“猫”的秘密,你就问系统:“请帮我找图里关于的线索”。系统就会专门去提取和“猫”相关的特征,忽略“毛衣”和“梵高风格”,精准地找回“猫”的密码。
    • 如果你想查“梵高风格”,你就问:“请帮我找图里关于风格的线索”。系统就会切换模式,专门提取风格相关的特征,找回“梵高”的密码。

比喻: 这就像你有一杯混合了可乐、橙汁和雪碧的饮料。以前的技术是试图把整杯饮料倒出来分析,很难分清。TokenTrace 则是给你一根魔法吸管,你问“我要喝可乐”,吸管就只吸出可乐;你问“我要喝橙汁”,吸管就只吸出橙汁。互不干扰,精准提取。

3. 为什么它很牛?

  • 抗揍(鲁棒性强): 因为秘密是藏在“指令”和“种子”里的,而不是画在表面的。所以即使你把图片裁剪掉一半、压缩成小图、甚至加个滤镜,只要图片的核心内容还在,这个“隐形记号”就能被找回。
  • 分得清(多概念解耦): 它能完美处理“混合概念”。比如“梵高风格的猫”,它能分清哪部分是猫,哪部分是风格,分别给它们打上不同的标签。
  • 看不见(高保真): 因为它是在深层语义里做微调,生成的图片看起来和原版几乎一模一样,人眼完全看不出区别,不会破坏艺术美感。

4. 总结

TokenTrace 就像是给 AI 生成的每一张图都配发了一张**“数字身份证”**。

  • 以前: 身份证是贴在照片背面的,照片撕了,身份证就丢了;或者照片里有多个人,身份证混在一起分不清。
  • 现在(TokenTrace): 身份证是刻在照片的 DNA 里的。而且,你可以通过提问(比如“这是谁的猫?”)来单独提取某一个人的身份信息,互不干扰。

这项技术对于保护艺术家、设计师的知识产权非常重要。它能让 AI 生成的图片在传播过程中,始终保留着“我是谁画的”、“我用了谁的风格”的证据,让创作者的权益得到真正的保障。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →