Latent Denoising Makes Good Tokenizers

该论文提出了一种名为 l-DeTok 的新型分词器,其通过将分词器嵌入与下游去噪目标直接对齐,使潜在表示在遭受显著干扰后仍能重建,从而在多种生成模型中显著提升了图像生成质量。

Jiawei Yang, Tianhong Li, Lijie Fan, Yonglong Tian, Yue Wang

发布于 2026-02-17
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种让 AI 画得更好的新“翻译器”方法,叫做 l-DeTok(潜空间去噪分词器)。

为了让你轻松理解,我们可以把 AI 画画的整个过程想象成**“传话游戏”,而这篇论文的核心就是如何把“传话员”训练得更靠谱**。

1. 背景:AI 画画为什么要“分词”?

现在的 AI 画师(比如 Midjourney 或 DALL-E 3)通常不会直接对着像素点(像马赛克一样的小方块)画画,那样太慢了,就像让一个人一笔一划去画几百万个像素点。

所以,它们会先找一个**“翻译官”**(也就是论文里的 Tokenizer)。

  • 输入:一张高清照片。
  • 翻译官的工作:把照片压缩成一小串“密码”(潜空间嵌入/Latent Embeddings)。
  • 输出:AI 画师只负责根据这串“密码”去还原画面。

问题出在哪?
以前的翻译官只擅长“原样还原”。你给它一张好照片,它能完美翻译;但你给它一张被涂改、被遮挡的照片,它就懵了,翻译出来的密码全是乱码。
这就导致下游的 AI 画师在生成图片时,如果稍微有点“噪音”或“干扰”,画出来的东西就容易崩坏。

2. 核心洞察:画画的本质是“去噪”

作者发现了一个有趣的规律:

  • 扩散模型(Diffusion):像是从一团乱糟糟的“雪花”(噪音)里,一点点把清晰的图像“洗”出来。
  • 自回归模型(Autoregressive):像是玩“看图猜词”,先看到一半,然后猜剩下的一半。这其实也是从“不完整”的信息里还原“完整”的信息。

结论:无论哪种 AI 画师,它们的核心任务都是**“去噪”**(Denoising)——即从混乱、残缺的信息中恢复出清晰的原貌。

3. 解决方案:给翻译官搞“特训”

既然下游的 AI 画师都在做“去噪”工作,那为什么不让翻译官在训练阶段也先练练“去噪”呢?

作者提出了 l-DeTok,它的训练方法非常“反直觉”但很有效:

  • 传统训练:给翻译官看一张好照片,让它翻译。
  • l-DeTok 训练
    1. 先给翻译官看一张好照片。
    2. 故意捣乱:把翻译出来的“密码”(潜空间嵌入)人为地加噪音(比如随机涂抹、插入杂波),或者遮住一部分(Masking)。
    3. 要求:让翻译官的解码器,必须从这些被搞坏的、乱七八糟的密码中,重新把原图完美地画出来。

这就好比:

  • 以前的翻译官:只在安静的图书馆里练听力,一旦到了嘈杂的菜市场就听不清了。
  • l-DeTok 翻译官:被扔进嘈杂的菜市场、甚至被塞住耳朵的情况下,依然能听清并复述出原话。

4. 为什么这样更好?(比喻:肌肉记忆)

当你训练一个翻译官在“极度混乱”的环境下还能还原信息时,它就练就了极强的鲁棒性(抗干扰能力)

  • 下游受益:当这个训练有素的翻译官把“密码”交给 AI 画师时,这些密码本身就非常稳定、清晰、抗造
  • 结果:AI 画师不需要花大力气去“纠错”,只需要顺着这些高质量的密码去生成,画出来的图就更清晰、更逼真,细节更丰富。

5. 实验结果:真的有用吗?

作者在六个不同的 AI 画师模型上做了测试(包括目前最火的 DiT、MAR 等),发现:

  • 换了这个新翻译官,画质直接提升
  • 特别是在MAR-B模型上,画质指标(FID)从 2.31 提升到了 1.55,直接追平了之前需要巨大算力才能达到的“超级大模型”的效果。
  • 不需要“作弊”:以前的方法需要借用其他大模型(像 DINOv2)的知识来“蒸馏”(Distillation),相当于让翻译官背别人的笔记。而 l-DeTok 是自己练出来的,不需要依赖外部大模型,更通用,甚至对视频、音频也适用。

6. 总结:一句话看懂

以前的翻译官是“温室里的花朵”,只会在完美环境下工作;
l-DeTok 是“特种兵”,在泥潭里练出来的,所以它交给 AI 画师的“密码”坚不可摧,让 AI 画师能画出更完美的作品。

这篇论文告诉我们:想要下游任务(画画)做得好,上游的预处理(翻译/编码)必须得先学会“在混乱中保持清醒”。 这是一个简单却极其有效的“去噪”原则。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →