Latent Denoising Makes Good Tokenizers

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种让 AI 画得更好的新“翻译器”方法，叫做 l-DeTok（潜空间去噪分词器）。

为了让你轻松理解，我们可以把 AI 画画的整个过程想象成**“传话游戏”，而这篇论文的核心就是如何把“传话员”训练得更靠谱**。

1. 背景：AI 画画为什么要“分词”？

现在的 AI 画师（比如 Midjourney 或 DALL-E 3）通常不会直接对着像素点（像马赛克一样的小方块）画画，那样太慢了，就像让一个人一笔一划去画几百万个像素点。

所以，它们会先找一个**“翻译官”**（也就是论文里的 Tokenizer）。

输入：一张高清照片。
翻译官的工作：把照片压缩成一小串“密码”（潜空间嵌入/Latent Embeddings）。
输出：AI 画师只负责根据这串“密码”去还原画面。

问题出在哪？
以前的翻译官只擅长“原样还原”。你给它一张好照片，它能完美翻译；但你给它一张被涂改、被遮挡的照片，它就懵了，翻译出来的密码全是乱码。
这就导致下游的 AI 画师在生成图片时，如果稍微有点“噪音”或“干扰”，画出来的东西就容易崩坏。

2. 核心洞察：画画的本质是“去噪”

作者发现了一个有趣的规律：

扩散模型（Diffusion）：像是从一团乱糟糟的“雪花”（噪音）里，一点点把清晰的图像“洗”出来。
自回归模型（Autoregressive）：像是玩“看图猜词”，先看到一半，然后猜剩下的一半。这其实也是从“不完整”的信息里还原“完整”的信息。

结论：无论哪种 AI 画师，它们的核心任务都是**“去噪”**（Denoising）——即从混乱、残缺的信息中恢复出清晰的原貌。

3. 解决方案：给翻译官搞“特训”

既然下游的 AI 画师都在做“去噪”工作，那为什么不让翻译官在训练阶段也先练练“去噪”呢？

作者提出了 l-DeTok，它的训练方法非常“反直觉”但很有效：

传统训练：给翻译官看一张好照片，让它翻译。
l-DeTok 训练：
1. 先给翻译官看一张好照片。
2. 故意捣乱：把翻译出来的“密码”（潜空间嵌入）人为地加噪音（比如随机涂抹、插入杂波），或者遮住一部分（Masking）。
3. 要求：让翻译官的解码器，必须从这些被搞坏的、乱七八糟的密码中，重新把原图完美地画出来。

这就好比：

以前的翻译官：只在安静的图书馆里练听力，一旦到了嘈杂的菜市场就听不清了。
l-DeTok 翻译官：被扔进嘈杂的菜市场、甚至被塞住耳朵的情况下，依然能听清并复述出原话。

4. 为什么这样更好？（比喻：肌肉记忆）

当你训练一个翻译官在“极度混乱”的环境下还能还原信息时，它就练就了极强的鲁棒性（抗干扰能力）。

下游受益：当这个训练有素的翻译官把“密码”交给 AI 画师时，这些密码本身就非常稳定、清晰、抗造。
结果：AI 画师不需要花大力气去“纠错”，只需要顺着这些高质量的密码去生成，画出来的图就更清晰、更逼真，细节更丰富。

5. 实验结果：真的有用吗？

作者在六个不同的 AI 画师模型上做了测试（包括目前最火的 DiT、MAR 等），发现：

换了这个新翻译官，画质直接提升。
特别是在MAR-B模型上，画质指标（FID）从 2.31 提升到了 1.55，直接追平了之前需要巨大算力才能达到的“超级大模型”的效果。
不需要“作弊”：以前的方法需要借用其他大模型（像 DINOv2）的知识来“蒸馏”（Distillation），相当于让翻译官背别人的笔记。而 l-DeTok 是自己练出来的，不需要依赖外部大模型，更通用，甚至对视频、音频也适用。

6. 总结：一句话看懂

以前的翻译官是“温室里的花朵”，只会在完美环境下工作；
l-DeTok 是“特种兵”，在泥潭里练出来的，所以它交给 AI 画师的“密码”坚不可摧，让 AI 画师能画出更完美的作品。

这篇论文告诉我们：想要下游任务（画画）做得好，上游的预处理（翻译/编码）必须得先学会“在混乱中保持清醒”。 这是一个简单却极其有效的“去噪”原则。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

核心痛点：现代视觉生成模型（如扩散模型和自回归模型）通常依赖分词器 (Tokenizers) 将图像压缩为紧凑的潜在嵌入 (Latent Embeddings)，以规避像素级建模的高计算复杂度。然而，现有的分词器大多基于标准的变分自编码器 (VAE) 训练，主要优化目标是像素级的重建质量。
现有局限：尽管分词器对下游生成质量至关重要，但什么样的属性能使分词器更有效地服务于生成任务尚不明确。目前的分词器开发滞后于生成模型架构的快速进步。
观察与洞察：作者观察到，尽管方法论不同，现代生成模型（扩散模型、自回归模型）共享一个概念相似的训练目标：从被破坏的信号中重建原始信号（即“去噪”过程）。
- 扩散模型：去除扩散噪声以恢复干净信号。
- 自回归模型：从部分掩码的上下文中重建完整序列（类似于去除“掩码噪声”）。
假设：如果分词器产生的潜在嵌入本身具有在严重破坏下仍可重建的特性，那么它们将与下游生成模型的去噪目标天然对齐，从而简化下游训练并提升生成质量。

2. 方法论 (Methodology)

作者提出了 Latent Denoising Tokenizer (l-DeTok)，一种简单但高效的分词器，其核心思想是将分词器训练为潜在去噪自编码器。

2.1 核心架构

基础架构：基于 Vision Transformer (ViT) 的编码器 - 解码器结构。
训练目标：从被“破坏”的潜在嵌入中重建原始图像。

2.2 两种破坏策略 (Deconstruction Strategies)

为了模拟下游生成模型的去噪任务，l-DeTok 在训练过程中对潜在嵌入施加两种形式的破坏：

插值噪声 (Interpolative Noise)：
- 不同于传统 VAE 的加性噪声 ( $x' = x + \epsilon$ )，l-DeTok 采用插值策略：
  $x' = (1 - \tau)x + \tau \epsilon(\gamma)$
- 其中 $\tau \sim U(0, 1)$ 是噪声强度系数， $\epsilon$ 是高斯噪声。
- 优势：当 $\tau$ 接近 1 时，原始信号被完全覆盖，确保潜在嵌入在强噪声下仍能被有效重建，避免了加性噪声可能产生的“捷径”（即原始信号仍占主导）。
随机掩码 (Random Masking)：
- 受掩码自编码器 (MAE) 启发，随机掩码一部分图像块 (Patches)。
- 掩码比例 $m$ 从有偏的均匀分布中采样，以缩小训练（有掩码）与推理（无掩码）之间的分布差距。
- 被掩码的位置在解码器输入中由共享的 [MASK] 令牌表示。

2.3 训练目标函数

分词器的总损失函数结合了多项指标：
$L_{total} = L_{MSE} + \lambda_{KL}L_{KL} + \lambda_{percep}L_{percep} + \lambda_{GAN}L_{GAN}$

包括像素级均方误差 (MSE)、潜在空间 KL 正则化、感知损失 (Perceptual Loss) 以及对抗损失 (GAN Loss)。
推理阶段：在作为下游生成模型的分词器使用时，关闭所有噪声注入和掩码，仅使用编码器提取干净的潜在嵌入。

3. 关键贡献 (Key Contributions)

提出了 l-DeTok 框架：首次明确将“去噪”作为分词器训练的核心原则，通过插值噪声和随机掩码强制潜在嵌入具备鲁棒性。
无需语义蒸馏 (No Semantics Distillation)：与当前许多依赖预训练大模型（如 DINOv2, CLIP）进行语义蒸馏的分词器不同，l-DeTok 是自包含的，不依赖外部强大的视觉编码器，这使得它在视频、音频、3D 等缺乏预训练模型的领域更具普适性。
广泛的通用性验证：在非自回归（扩散模型：DiT, SiT, LightningDiT）和自回归（MAR, RandomAR, RasterAR）两大类生成模型上均取得了显著提升。
揭示了范式转移的局限性：实验发现，在一种范式（如非自回归）中表现优异的分词器（特别是依赖语义蒸馏的），往往不能很好地迁移到另一种范式（如自回归）中。而 l-DeTok 在两者间均表现优异。

4. 实验结果 (Results)

实验主要在 ImageNet (256x256, 512x512) 和 MS-COCO 数据集上进行。

4.1 定量性能提升

自回归模型 (MAR)：
- MAR-B：FID 从 2.31 提升至 1.55（与原始超大尺寸 MAR-H 性能持平）。
- MAR-L：FID 从 1.78 提升至 1.35。
- 在 RandomAR 和 RasterAR 上也取得了显著改善（FID 提升约 40-50%）。
非自回归模型 (SiT/DiT)：
- SiT-B：FID 从 6.97 提升至 5.50 (带 CFG)。
- 在 ImageNet 512x512 上，MAR-L 达到了 1.35 FID，超越了之前许多依赖语义蒸馏的 SOTA 系统。
文本到图像 (Text-to-Image)：
- 在 MS-COCO 上，l-DeTok 显著降低了 FID 并提高了 CLIP 分数，同时消除了其他分词器常见的“斑点伪影 (spot artifacts)"。

4.2 消融实验发现

插值噪声 vs. 加性噪声：插值噪声在强噪声水平下表现更好，能产生更鲁棒的潜在表示。
噪声强度：更强的噪声（更高的 $\gamma$ 或掩码率）通常带来更好的下游生成性能，验证了“挑战性去噪任务能产生更鲁棒嵌入”的假设。
联合去噪：同时使用插值噪声和掩码（Joint Denoising）效果最佳，特别是对于自回归模型。

4.3 扩展性

l-DeTok 在 1D 连续分词器、离散向量量化 (VQ) 分词器以及 CNN 架构上均有效，证明了其架构无关性。
计算成本：训练 l-DeTok 的额外计算开销极小，与标准分词器训练成本相当。

5. 意义与影响 (Significance)

设计原则的回归：论文指出，分词器的设计不应仅仅追求像素重建或依赖外部语义蒸馏，而应直接对齐下游生成模型的去噪本质。
降低依赖门槛：通过不依赖大规模预训练模型（如 DINOv2），l-DeTok 为那些缺乏高质量预训练编码器的领域（如视频生成、3D 生成、生物序列生成）提供了一种高效、通用的分词器训练方案。
统一视角：论文统一了生成模型（扩散、自回归）和分词器的训练视角，即“从破坏中重建”，为未来生成模型和分词器的联合优化提供了新的理论方向。
性能突破：在不改变生成模型架构的前提下，仅通过更换分词器，就将自回归图像生成模型的性能推向了新的 SOTA 水平，证明了高质量潜在表示的重要性。

总结：这篇论文通过引入“潜在去噪”概念，提出了一种简单却强大的分词器训练范式。它证明了让分词器在训练阶段就适应“去噪”任务，能够显著提升其在各种生成模型中的表现，且无需依赖昂贵的外部语义蒸馏，为未来生成式 AI 的基础组件设计提供了重要的新视角。