Towards Sequence Modeling Alignment between Tokenizer and Autoregressive Model

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 AliTok 的新方法，它解决了一个困扰人工智能图像生成领域已久的“鸡生蛋，蛋生鸡”的难题。

为了让你轻松理解，我们可以把图像生成想象成**“写小说”，把“分词器（Tokenizer）”想象成“翻译官”，把“生成模型（AR Model）”想象成“作家”**。

1. 核心问题：翻译官和作家的“语言不通”

作家的习惯（自回归模型）： 现在的 AI 图像生成模型（像 LlamaGen 这种）非常擅长“写小说”。它们的工作方式是按顺序写：写完第一个字，再写第二个字，再写第三个字……它们只能看到“过去”写的内容，看不到“未来”。这就像你写故事，只能根据前面已经写好的情节来推测下一句。
翻译官的毛病（传统分词器）： 但是，把一张图片变成“文字”（Token）的过程，传统的翻译官（分词器）有个坏习惯。为了把图片压缩得最完美、最清晰，翻译官会**“偷看剧透”**。它在翻译第 10 个像素块时，会偷偷看一眼第 100 个像素块的内容，然后把所有信息揉在一起。
冲突爆发： 当作家（生成模型）试图根据前 9 个像素块去猜第 10 个时，它发现第 10 个像素块里藏着只有“未来”才知道的秘密（因为翻译官偷看了）。作家完全猜不到，只能瞎蒙，导致生成的图片要么很模糊，要么需要训练很久很久，效果还不好。

简单说：翻译官把图片编码得太“全局化”了，导致按顺序猜图的作家根本猜不出来。

2. 解决方案：AliTok（对齐翻译官）

这篇论文提出了一种叫 AliTok 的新翻译官。它的核心思想是：强迫翻译官在翻译时，也要像作家一样，只能看“过去”，不能看“未来”。

因果解码器（Causal Decoder）： 这是一个聪明的“监工”。它强迫翻译官在还原图片时，必须严格按照从左到右、从上到下的顺序（就像读报纸一样）。如果翻译官想偷看后面的内容，监工就会惩罚它。
结果： 翻译官被迫改变策略。它不能再依赖“剧透”了，它必须把每个像素块的信息，都整理得只依赖前面的内容。这样，当作家（生成模型）来猜下一个像素时，发现信息非常连贯，猜起来就容易多了！

3. 遇到的困难与巧妙修补

如果强行让翻译官只按顺序看，会遇到一个大问题：第一行（开头）怎么办？
因为第一行前面没有内容，翻译官会“失忆”，导致生成的图片第一行模糊不清。

前缀令牌（Prefix Tokens）： 作者给翻译官发了一本“小抄”（前缀令牌）。在开始翻译第一行之前，先给翻译官一些关于第一行的“背景提示”，让它知道大概要画什么，从而弥补开头的信息缺失。
两阶段训练（Two-stage Training）：
- 第一阶段： 重点训练翻译官，让它学会“只按顺序说话”，确保生成的图片能被作家轻松猜出来（牺牲一点点还原度，换取生成速度）。
- 第二阶段： 把翻译官的“编码器”锁住（不再改变），重新训练一个强大的“解码器”来专门负责把图片还原得清晰漂亮。
- 比喻： 就像先训练一个**“逻辑清晰的故事大纲”（第一阶段），然后再找一个“文笔极好的画家”**（第二阶段）根据这个大纲把画填色填得栩栩如生。

4. 惊人的成果

用了这个方法后，效果立竿见影：

小模型也能打： 以前需要几十亿参数（像大胖子）才能画好的图，现在用只有 1.77 亿参数（像个精干的小个子）的模型就能画得非常好。
速度快如闪电： 传统的扩散模型（Diffusion）画一张图可能需要像“慢炖”一样迭代几十次，而 AliTok 配合这种新的翻译官，画一张图的速度快了 10 倍！
质量超越对手： 在 ImageNet 这个著名的绘画考试上，他们的模型不仅画得快，而且画得比目前最顶尖的扩散模型（如 LightningDiT）还要好，或者至少一样好。

总结

这篇论文就像是在说：

“以前我们总想着让‘作家’（生成模型）变得更聪明，去适应那些‘偷看剧透’的‘翻译官’（传统分词器）。
现在我们换个思路，把‘翻译官’训练得‘守规矩’，让它按顺序说话。
结果发现，只要翻译官规矩了，普通的‘作家’就能写出神作，而且写得飞快！”

这就是 AliTok 的魔法：通过让数据（图片编码）适应模型（自回归）的习性，而不是强行修改模型，从而实现了又快又好的图像生成。

Each language version is independently generated for its own context, not a direct translation.

这是一篇发表于 ICLR 2026 的论文《TOWARDS SEQUENCE MODELING ALIGNMENT BETWEEN TOKENIZER AND AUTOREGRESSIVE MODEL》（迈向分词器与自回归模型之间的序列建模对齐）的技术总结。

1. 研究背景与核心问题 (Problem)

背景：
自回归（Autoregressive, AR）模型（如 GPT 系列）在自然语言处理中取得了巨大成功，其核心范式是单向的“下一个 token 预测”。受此启发，研究者尝试将 AR 模型应用于图像生成，通过按光栅扫描顺序（Raster-scan order）预测图像 token 序列来生成图像。

核心矛盾：
传统的图像分词器（Tokenizer，如 VQ-VAE 及其变体）为了最大化重建保真度（Reconstruction Fidelity），通常采用双向编码器。这意味着图像中某个 token 的表示依赖于其上下文中的所有 token（包括未来的 token）。
然而，自回归模型是单向的，它只能利用过去的上下文来预测当前 token。

冲突点： 当分词器生成的 token 序列具有强烈的双向依赖（即当前 token 隐含地依赖于未来信息）时，自回归模型在预测该 token 时会面临极高的不确定性（高熵），因为目标 token 的“真实”表示依赖于模型尚未看到的未来内容。这导致 AR 模型难以收敛，生成质量受限。

现有方案的局限：
为了适应这种双向依赖，现有的视觉 AR 生成方法往往修改模型架构（如引入 Masked AR、Next-scale prediction 或双向注意力机制），但这增加了生成过程的复杂性，偏离了标准 AR 模型的简洁性，不利于多模态统一。

本文提出的核心问题：
能否不修改模型架构，而是通过改变数据（Token 序列）本身的依赖结构，使其与强大的单向自回归模型对齐？

2. 方法论 (Methodology)

作者提出了 AliTok（Aligned Tokenizer），一种新型的对齐分词器，旨在解决上述矛盾。其核心思想是解耦全局语义构建与序列因果约束。

2.1 核心架构：因果解码器约束的双向编码器

AliTok 采用了一个独特的两阶段训练策略和架构设计：

双向编码器 (Bidirectional Encoder)： 利用双向 Transformer 的强大能力，从全局视角提取丰富的语义特征，确保压缩效率。
因果解码器 (Causal Decoder) 作为隐式正则化器： 这是 AliTok 的关键创新。在训练的第一阶段，编码器被一个**仅允许查看因果上下文（光栅扫描顺序的前序 token）**的解码器所约束。
- 机制： 解码器在重建图像时，只能看到当前 token 及其之前的 token。
- 效果： 为了在受限的因果视野下最小化重建损失，编码器被迫调整其编码策略，抑制对“未来”信息的依赖，将重建所需的关键上下文信息有效地组织在当前的因果历史中。这使得生成的 Token 序列既保留了语义丰富性，又具备高度的前向可预测性。

2.2 解决首行重建问题：Prefix Tokens

由于因果约束，图像的第一行（没有前序上下文）难以被准确重建。

方案： 引入 16 个 Prefix Tokens（前缀 token），专门对应图像的第一行。
辅助损失 (Auxiliary Loss)： 设计了一个专门的辅助损失函数 $L_{aux}$ ，结合 MSE 和感知损失（Perceptual Loss），强制这些 Prefix Tokens 学习第一行的特征，为后续生成提供必要的上下文先验。

2.3 两阶段训练策略 (Two-Stage Training)

为了兼顾“生成友好性”和“重建高保真度”，AliTok 采用两阶段训练：

第一阶段： 训练带有因果解码器的分词器。目标是学习一个生成友好的 Encoder 和 Codebook（码本），确保 Token 序列符合 AR 模型的预测逻辑。
第二阶段： 冻结 Encoder 和 Codebook，重新训练一个双向解码器（并引入 Buffer Tokens 增强建模能力）。
- 目的： 在保持 Token 序列因果结构不变的前提下，利用双向解码器大幅提升图像重建的细节一致性和视觉质量，解决因果解码导致的重建瑕疵。

2.4 自回归模型 (AR Model)

基于 AliTok 生成的 Token，作者使用标准的 Decoder-only AR 模型（基于 LlamaGen 架构，修改了 RoPE 以适配 Prefix Tokens）进行生成训练。

3. 主要贡献 (Key Contributions)

揭示了关键限制因素： 明确指出传统分词器建立的双向依赖与自回归模型的单向本质之间的根本冲突，是导致 AR 图像生成性能瓶颈的核心原因。
提出了 AliTok 分词器： 设计了一种简单而有效的分词器，通过因果解码器约束双向编码器，使编码后的 Token 序列既具有高重建保真度，又易于被 AR 模型建模。
实现了 SOTA 性能： 基于 AliTok，标准的 Decoder-only AR 模型在 ImageNet 基准测试中击败了最先进的扩散模型（Diffusion Models）和其他 AR 方法，同时保持了极高的采样效率。

4. 实验结果 (Results)

实验主要在 ImageNet-256 和 ImageNet-512 数据集上进行。

4.1 生成质量 (Generation Quality)

ImageNet-256:
- AliTok-XL (662M 参数): 在带 CFG (Classifier-Free Guidance) 的情况下达到 gFID 1.28，IS 306.3。
- 对比： 该结果超越了参数量大得多的扩散模型（如 LightningDiT, 675M 参数，gFID 1.35）和现有的 AR 模型（如 RAR-XXL, 1.5B 参数，gFID 1.48）。
- 小模型表现： 即使是 177M 参数的 AliTok-B，gFID 也达到了 1.44，优于 3B 参数的 LlamaGen-3B (gFID 2.18)。
ImageNet-512:
- AliTok-L (318M 参数): 达到 gFID 1.39，刷新了该分辨率下的 SOTA 记录，优于 MAR-L 和 REPA。

4.2 采样效率 (Sampling Efficiency)

得益于标准 AR 模型对 KV-Cache 的完全支持，AliTok 的采样速度极快。
速度对比： AliTok-XL 的采样速度比 LightningDiT 快 10 倍，比 Masked AR 模型（如 MAR-H）快 33 倍以上。
吞吐量： 在 A800 GPU 上，AliTok-L 的吞吐量达到 10.1 images/sec，而 LightningDiT 仅为 0.6 images/sec。

4.3 消融实验 (Ablation Studies)

因果解码器： 将双向解码器改为因果解码器，AR 模型的训练准确率从 5.4% 飙升至 10.7%，gFID 从 2.96 降至 1.88，证明了依赖对齐的重要性。
Prefix Tokens 与辅助损失： 有效解决了首行重建模糊问题，进一步提升了生成质量。
两阶段训练： 在保持生成性能的同时，将重建 rFID 从 0.91 提升至 0.86，达到了与 GigaTok (使用更大码本) 相当的重建质量。

5. 意义与影响 (Significance)

范式回归： 证明了只要数据（Token 序列）与模型范式正确对齐，标准的、简洁的 Decoder-only 自回归模型完全有能力在图像生成领域超越复杂的扩散模型和 Masked 模型。
效率与质量的平衡： AliTok 在大幅提升生成质量的同时，保留了 AR 模型固有的高采样效率，解决了扩散模型采样慢的痛点。
多模态统一的路径： 由于 AliTok 使用的是标准的 AR 架构，这为构建统一的“文本 + 图像”多模态大模型（Unified Multimodal Foundation Models）铺平了道路，无需为图像生成设计特殊的复杂架构。
开源贡献： 作者开源了代码和权重，推动了社区对高效图像生成模型的研究。

总结： 这篇论文通过重新设计分词器（AliTok），巧妙地解决了图像序列的双向依赖与自回归单向预测之间的冲突，使得轻量级、高速的自回归模型在图像生成任务上首次全面超越了扩散模型，是视觉生成领域的一个重要里程碑。