Towards Sequence Modeling Alignment between Tokenizer and Autoregressive Model

该论文提出了名为 AliTok 的新型对齐分词器,通过重构令牌序列的依赖结构以解决传统图像分词与自回归模型之间的不匹配问题,从而实现了在 ImageNet 数据集上超越扩散模型且采样速度快 10 倍的最先进图像生成效果。

Pingyu Wu, Kai Zhu, Yu Liu, Longxiang Tang, Jian Yang, Yansong Peng, Wei Zhai, Yang Cao, Zheng-Jun Zha

发布于 2026-02-17
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 AliTok 的新方法,它解决了一个困扰人工智能图像生成领域已久的“鸡生蛋,蛋生鸡”的难题。

为了让你轻松理解,我们可以把图像生成想象成**“写小说”,把“分词器(Tokenizer)”想象成“翻译官”,把“生成模型(AR Model)”想象成“作家”**。

1. 核心问题:翻译官和作家的“语言不通”

  • 作家的习惯(自回归模型): 现在的 AI 图像生成模型(像 LlamaGen 这种)非常擅长“写小说”。它们的工作方式是按顺序写:写完第一个字,再写第二个字,再写第三个字……它们只能看到“过去”写的内容,看不到“未来”。这就像你写故事,只能根据前面已经写好的情节来推测下一句。
  • 翻译官的毛病(传统分词器): 但是,把一张图片变成“文字”(Token)的过程,传统的翻译官(分词器)有个坏习惯。为了把图片压缩得最完美、最清晰,翻译官会**“偷看剧透”**。它在翻译第 10 个像素块时,会偷偷看一眼第 100 个像素块的内容,然后把所有信息揉在一起。
  • 冲突爆发: 当作家(生成模型)试图根据前 9 个像素块去猜第 10 个时,它发现第 10 个像素块里藏着只有“未来”才知道的秘密(因为翻译官偷看了)。作家完全猜不到,只能瞎蒙,导致生成的图片要么很模糊,要么需要训练很久很久,效果还不好。

简单说:翻译官把图片编码得太“全局化”了,导致按顺序猜图的作家根本猜不出来。

2. 解决方案:AliTok(对齐翻译官)

这篇论文提出了一种叫 AliTok 的新翻译官。它的核心思想是:强迫翻译官在翻译时,也要像作家一样,只能看“过去”,不能看“未来”。

  • 因果解码器(Causal Decoder): 这是一个聪明的“监工”。它强迫翻译官在还原图片时,必须严格按照从左到右、从上到下的顺序(就像读报纸一样)。如果翻译官想偷看后面的内容,监工就会惩罚它。
  • 结果: 翻译官被迫改变策略。它不能再依赖“剧透”了,它必须把每个像素块的信息,都整理得只依赖前面的内容。这样,当作家(生成模型)来猜下一个像素时,发现信息非常连贯,猜起来就容易多了!

3. 遇到的困难与巧妙修补

如果强行让翻译官只按顺序看,会遇到一个大问题:第一行(开头)怎么办?
因为第一行前面没有内容,翻译官会“失忆”,导致生成的图片第一行模糊不清。

  • 前缀令牌(Prefix Tokens): 作者给翻译官发了一本“小抄”(前缀令牌)。在开始翻译第一行之前,先给翻译官一些关于第一行的“背景提示”,让它知道大概要画什么,从而弥补开头的信息缺失。
  • 两阶段训练(Two-stage Training):
    • 第一阶段: 重点训练翻译官,让它学会“只按顺序说话”,确保生成的图片能被作家轻松猜出来(牺牲一点点还原度,换取生成速度)。
    • 第二阶段: 把翻译官的“编码器”锁住(不再改变),重新训练一个强大的“解码器”来专门负责把图片还原得清晰漂亮。
    • 比喻: 就像先训练一个**“逻辑清晰的故事大纲”(第一阶段),然后再找一个“文笔极好的画家”**(第二阶段)根据这个大纲把画填色填得栩栩如生。

4. 惊人的成果

用了这个方法后,效果立竿见影:

  • 小模型也能打: 以前需要几十亿参数(像大胖子)才能画好的图,现在用只有 1.77 亿参数(像个精干的小个子)的模型就能画得非常好。
  • 速度快如闪电: 传统的扩散模型(Diffusion)画一张图可能需要像“慢炖”一样迭代几十次,而 AliTok 配合这种新的翻译官,画一张图的速度快了 10 倍
  • 质量超越对手: 在 ImageNet 这个著名的绘画考试上,他们的模型不仅画得快,而且画得比目前最顶尖的扩散模型(如 LightningDiT)还要好,或者至少一样好。

总结

这篇论文就像是在说:

“以前我们总想着让‘作家’(生成模型)变得更聪明,去适应那些‘偷看剧透’的‘翻译官’(传统分词器)。
现在我们换个思路,把‘翻译官’训练得‘守规矩’,让它按顺序说话。
结果发现,只要翻译官规矩了,普通的‘作家’就能写出神作,而且写得飞快!”

这就是 AliTok 的魔法:通过让数据(图片编码)适应模型(自回归)的习性,而不是强行修改模型,从而实现了又快又好的图像生成。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →