Revisiting Autoregressive Models for Generative Image Classification

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于人工智能如何“看”图片并认出物体的有趣故事。简单来说，研究人员重新发现了一种老方法（自回归模型），并给它装上了一个“新眼镜”，让它比目前最流行的方法（扩散模型）看得更准、更快。

为了让你轻松理解，我们可以把识别图片想象成猜谜语或拼图。

1. 背景：两种“猜谜”流派

在 AI 界，目前主要有两种让机器“理解”图片的方法：

扩散模型（Diffusion Models，简称 DM）：
- 比喻： 想象你在玩“从一团乱麻中慢慢理清线索”的游戏。扩散模型就像是一个慢工出细活的画家。它先画出一团模糊的噪点，然后一步步擦除噪点，慢慢把图片“画”出来。
- 特点： 画出来的图非常漂亮，但速度很慢。因为它需要画很多步（比如 100 到 250 步）才能看清全貌。用它来猜图片是什么，就像让画家画完一幅画才能告诉你画的是猫还是狗，效率很低。
自回归模型（Autoregressive Models，简称 AR）：
- 比喻： 想象你在读一本书或拼乐高。AR 模型是一个按顺序讲故事的人。它把图片切成很多小块（像乐高积木或单词），然后从左到右、从上到下，一块一块地“读”出来，预测下一块是什么。
- 现状： 以前大家觉得这种方法太死板，因为如果只按“从左到右”的顺序读，一旦开头读错了，后面全错。而且它被认为不如扩散模型聪明。

2. 核心发现：顺序很重要，但“乱序”更聪明

这篇论文的研究人员发现了一个关键问题：

旧方法的局限： 以前的 AR 模型就像是一个强迫症读者，必须严格按照“从左到右、从上到下”的顺序读图片。
- 比喻： 就像你只能从书的第一页开始读，读到最后一页才能知道结局。如果图片里的关键信息（比如猫的眼睛）在右下角，而你的阅读顺序是从左上角开始，你可能要读很久才能看到关键信息，或者因为前面的误导而猜错。
- 图 1 的启示： 论文里展示，同样的图片，如果换一种“阅读顺序”（比如先读中间，再读四周），AI 猜对的概率就变了。有时候按旧顺序猜错了，换个顺序就对了。
新方法的突破： 研究人员利用了一种叫 RandAR 的新模型，它不再强迫自己按固定顺序读图。
- 比喻： 想象你有一群不同阅读习惯的朋友来猜谜。
  - 朋友 A 习惯从左读到右。
  - 朋友 B 习惯从中间读到四周。
  - 朋友 C 习惯先读右下角，再读左上角。
- 策略： 以前，我们只问朋友 A 一个人，他猜错了我们就输了。现在，我们同时问这 20 个朋友（论文中称为 K=20），然后把他们的答案综合起来（取平均值）。
- 结果： 虽然单个朋友可能只看到了局部（比如只看到了猫耳朵），但 20 个朋友从不同角度观察后，大家把信息拼凑起来，就能非常准确地判断出“这是一只猫”。

3. 这项技术的三大优势

研究人员把这种“乱序阅读 + 综合判断”的方法应用到图片分类上，取得了惊人的效果：

更准（Accuracy）：
- 这种“集思广益”的方法，让 AR 模型在识别图片的准确率上，超过了目前最强大的扩散模型（Diffusion Models）。甚至在面对一些从未见过的奇怪图片（比如素描、艺术画）时，它的表现也比传统的 AI 更好。
更快（Efficiency）：
- 这是最酷的一点！扩散模型猜一次图，需要画 100 多步（就像让画家画 100 次）。而 AR 模型虽然问了 20 个朋友，但它只需要走一遍流程就能算出结果。
- 比喻： 扩散模型是“慢工出细活”，AR 模型是“人多力量大，但大家分工明确，瞬间出结果”。
- 数据： 新方法的推理速度比扩散模型快了 25 倍！这意味着以前需要 1 分钟才能猜完的图片，现在几秒钟就搞定了。
更懂“形状”（Robustness）：
- 传统的 AI 有时候很“肤浅”，比如看到一只狗，它可能只因为背景里有草地就猜是“狗”。但生成式模型（包括这个新方法）更关注物体的形状和结构。
- 比喻： 就像你认人，是看他的五官轮廓（形状），而不是看他穿了什么颜色的衣服（纹理）。这种方法让 AI 更像人类一样，通过“看本质”来认图。

4. 总结：为什么这很重要？

这就好比在赛车比赛中：

以前的扩散模型是一辆法拉利，跑得稳、画得美，但油耗高、速度慢（计算太慢）。
以前的自回归模型是一辆老式拖拉机，虽然快，但容易跑偏，只能走直线。
这篇论文的新方法，给拖拉机装上了智能导航和多人协作系统。它既保留了拖拉机的极速（比法拉利快 25 倍），又通过“多人协作”（乱序平均）达到了法拉利的精准度。

一句话总结：
研究人员发现，让 AI 像一群不同习惯的人一样，从不同角度“乱序”地看图片，然后把大家的意见综合起来，就能让 AI 既看得准又算得快，彻底改变了生成式 AI 在图像分类领域的格局。

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于**生成式图像分类（Generative Image Classification）**的学术论文总结。该研究由 Yandex Research 团队完成，旨在重新审视并改进基于自回归（Autoregressive, AR）模型的生成式分类器，使其在性能上超越目前主流的扩散模型（Diffusion Models, DMs）分类器。

以下是该论文的详细技术总结：

1. 研究背景与问题 (Problem)

背景：生成式模型（如扩散模型和自回归模型）不仅能生成高质量图像，还能通过贝叶斯规则 $p(y|x) \propto p(x|y)p(y)$ 作为生成式分类器（Generative Classifiers, GCs）使用。近期研究表明，扩散模型分类器（DCs）在鲁棒性和避免“捷径学习”（shortcut solutions）方面表现优异，超越了传统的判别式模型。
现有局限：
- 自回归模型的劣势：尽管 AR 模型在图像生成质量上已接近扩散模型，但在作为分类器时，其表现通常不如扩散模型。
- 核心痛点：传统的视觉 AR 模型（如 LlamaGen, VAR）通常依赖固定的 Token 顺序（如光栅扫描顺序：从左到右，从上到下）。这种固定的顺序施加了强烈的归纳偏置（inductive bias），限制了模型对图像整体结构的理解。
- 观察发现：论文发现，对于同一张图像，不同的 Token 生成顺序会导致完全不同的分类结果。单一顺序的预测往往依赖于局部的判别性线索，而缺乏全局一致性。

2. 方法论 (Methodology)

作者提出了一种基于任意顺序（Any-Order）的自回归模型，通过**顺序边缘化（Order-Marginalized）**策略来解锁 AR 模型的分类潜力。

核心模型：RandAR
- 利用最近提出的 RandAR 模型，该模型支持在任意 Token 顺序下生成图像。它通过引入位置指令 Token（Position Instruction Tokens）和随机排列（Random Permutation），打破了固定顺序的限制。
顺序边缘化预测 (Order-Marginalized Prediction)
- 思路：既然单一顺序的预测可能不准确，那么通过对多种随机顺序的预测结果进行平均（边缘化），可以获取更全面、更鲁棒的信号。
- 数学实现：
  - 目标是估计无条件似然 $p(x|c)$ 。
  - 直接计算期望 $E_\pi [p(x|\pi, c)]$ 效果不佳。
  - 作者利用 Jensen 不等式，估计对数似然的下界：
    $\log p(x|c) \geq E_\pi [\log p(x|\pi, c)] \approx \frac{1}{K} \sum_{k=1}^K \log p(x|\pi_k, c)$
  - 其中 $K$ 是采样的随机顺序数量。模型在 $K$ 个不同的随机顺序下分别计算对数似然，然后取平均值作为最终的分类依据。
训练策略
- 在训练阶段，对 LlamaGen Tokenizer 生成的潜在表示进行噪声增强（Latent Noise Augmentation），使模型对微小的 Token 扰动具有鲁棒性，防止因 Tokenizer 的微小变化导致生成序列剧烈改变。

3. 关键贡献 (Key Contributions)

揭示了 Token 顺序的重要性：首次系统性地指出固定 Token 顺序是限制 AR 模型作为分类器性能的关键瓶颈，并证明了多顺序平均能显著提升判别能力。
提出了高效的顺序边缘化框架：利用 RandAR 的任意顺序生成能力，提出了一种计算高效的边缘化策略。
- 效率优势：扩散模型分类器通常需要 100-250 次前向传播（NFEs）来估计似然，而 AR 模型仅需 1 次前向传播 即可计算单个顺序的似然。即使边缘化需要 $K$ 次（例如 $K=20$ ），AR 模型仍比扩散模型快 25 倍。
实现了生成式分类器的新 SOTA：
- 在 ImageNet 及多个分布外（OOD）基准测试中，该方法不仅超越了之前的 AR 分类器，还全面超越了扩散模型分类器（如 DiT, SiT）。
- 在分布外鲁棒性（如 ImageNet-R, ImageNet-Sketch, ImageNet-A）上表现尤为突出。
与最强判别式模型的对标：
- 该方法是首个在分类性能上能与最先进的**自监督判别式模型（如 DINOv2）**相媲美的生成式分类器。在部分 OOD 数据集上甚至超越了 DINOv2。

4. 实验结果 (Results)

分类精度：
- 在 ImageNet-Val 上，RandAR-XL 达到了 81.3% 的 Top-1 准确率，优于 DiT (77.2%) 和 DINOv2 (82.7%，但在 OOD 上表现不如 RandAR)。
- 在 ImageNet-R (风格变化) 上，RandAR-XL 达到 53.0%，远超 DiT (40.2%) 和 DINOv2 (48.6%)。
- 在 ImageNet-Sketch (草图) 上，RandAR-XL 达到 45.9%，同样领先。
推理效率：
- 在保持更高精度的同时，RandAR 的推理速度比扩散模型分类器快 25 倍（例如在 ImageNet-Val 上，RandAR 仅需约 5-20 秒，而扩散模型需要更长时间）。
鲁棒性分析：
- 在 WILDS 基准（包含 Camelyon17, CelebA, FMoW 等真实世界分布偏移数据集）上，RandAR 在组间最坏情况（Worst-Group）准确率上显著优于 ERM 等判别式基线，并与 DiT 相当或更优。
消融实验：
- 证明了 $K$ 值越大（采样顺序越多），分类精度越高。
- 证明了使用对数似然下界（Jensen 不等式）比直接估计期望更有效。
- 证明了噪声增强训练对提升 OOD 性能至关重要。

5. 意义与结论 (Significance)

范式转变：该工作证明了生成式模型（特别是 AR 模型）在分类任务上具有巨大的潜力，打破了“扩散模型在生成式分类中占绝对优势”的固有认知。
效率与性能的平衡：解决了生成式分类器通常计算成本过高的问题，提供了一种既高效又鲁棒的分类方案。
未来方向：
- 表明“任意顺序”的建模方式能更好地捕捉图像的全局结构信息。
- 提出了将生成式分类器的知识蒸馏到判别式模型的可能性，以结合两者优势。
- 为理解自回归模型的归纳偏置和图像理解机制提供了新的视角。

总结：这篇论文通过引入“顺序边缘化”策略，成功克服了传统自回归模型在图像分类中的顺序依赖缺陷，使其在精度和鲁棒性上超越了扩散模型分类器，并在效率上实现了数量级的提升，是生成式 AI 在判别式任务领域的重要突破。