Revisiting Autoregressive Models for Generative Image Classification

本文通过利用任意顺序自回归模型来估计顺序边缘化预测,克服了传统固定顺序自回归模型的局限性,使其在图像分类任务中不仅性能超越扩散模型且效率提升高达 25 倍,同时达到了与顶尖自监督判别模型相媲美的水平。

Ilia Sudakov, Artem Babenko, Dmitry Baranchuk

发布于 2026-03-20
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于人工智能如何“看”图片并认出物体的有趣故事。简单来说,研究人员重新发现了一种老方法(自回归模型),并给它装上了一个“新眼镜”,让它比目前最流行的方法(扩散模型)看得更准、更快。

为了让你轻松理解,我们可以把识别图片想象成猜谜语拼图

1. 背景:两种“猜谜”流派

在 AI 界,目前主要有两种让机器“理解”图片的方法:

  • 扩散模型(Diffusion Models,简称 DM):

    • 比喻: 想象你在玩“从一团乱麻中慢慢理清线索”的游戏。扩散模型就像是一个慢工出细活的画家。它先画出一团模糊的噪点,然后一步步擦除噪点,慢慢把图片“画”出来。
    • 特点: 画出来的图非常漂亮,但速度很慢。因为它需要画很多步(比如 100 到 250 步)才能看清全貌。用它来猜图片是什么,就像让画家画完一幅画才能告诉你画的是猫还是狗,效率很低。
  • 自回归模型(Autoregressive Models,简称 AR):

    • 比喻: 想象你在读一本书拼乐高。AR 模型是一个按顺序讲故事的人。它把图片切成很多小块(像乐高积木或单词),然后从左到右、从上到下,一块一块地“读”出来,预测下一块是什么。
    • 现状: 以前大家觉得这种方法太死板,因为如果只按“从左到右”的顺序读,一旦开头读错了,后面全错。而且它被认为不如扩散模型聪明。

2. 核心发现:顺序很重要,但“乱序”更聪明

这篇论文的研究人员发现了一个关键问题:

  • 旧方法的局限: 以前的 AR 模型就像是一个强迫症读者,必须严格按照“从左到右、从上到下”的顺序读图片。

    • 比喻: 就像你只能从书的第一页开始读,读到最后一页才能知道结局。如果图片里的关键信息(比如猫的眼睛)在右下角,而你的阅读顺序是从左上角开始,你可能要读很久才能看到关键信息,或者因为前面的误导而猜错。
    • 图 1 的启示: 论文里展示,同样的图片,如果换一种“阅读顺序”(比如先读中间,再读四周),AI 猜对的概率就变了。有时候按旧顺序猜错了,换个顺序就对了。
  • 新方法的突破: 研究人员利用了一种叫 RandAR 的新模型,它不再强迫自己按固定顺序读图。

    • 比喻: 想象你有一群不同阅读习惯的朋友来猜谜。
      • 朋友 A 习惯从左读到右。
      • 朋友 B 习惯从中间读到四周。
      • 朋友 C 习惯先读右下角,再读左上角。
    • 策略: 以前,我们只问朋友 A 一个人,他猜错了我们就输了。现在,我们同时问这 20 个朋友(论文中称为 K=20),然后把他们的答案综合起来(取平均值)。
    • 结果: 虽然单个朋友可能只看到了局部(比如只看到了猫耳朵),但 20 个朋友从不同角度观察后,大家把信息拼凑起来,就能非常准确地判断出“这是一只猫”。

3. 这项技术的三大优势

研究人员把这种“乱序阅读 + 综合判断”的方法应用到图片分类上,取得了惊人的效果:

  1. 更准(Accuracy):

    • 这种“集思广益”的方法,让 AR 模型在识别图片的准确率上,超过了目前最强大的扩散模型(Diffusion Models)。甚至在面对一些从未见过的奇怪图片(比如素描、艺术画)时,它的表现也比传统的 AI 更好。
  2. 更快(Efficiency):

    • 这是最酷的一点!扩散模型猜一次图,需要画 100 多步(就像让画家画 100 次)。而 AR 模型虽然问了 20 个朋友,但它只需要走一遍流程就能算出结果。
    • 比喻: 扩散模型是“慢工出细活”,AR 模型是“人多力量大,但大家分工明确,瞬间出结果”。
    • 数据: 新方法的推理速度比扩散模型快了 25 倍!这意味着以前需要 1 分钟才能猜完的图片,现在几秒钟就搞定了。
  3. 更懂“形状”(Robustness):

    • 传统的 AI 有时候很“肤浅”,比如看到一只狗,它可能只因为背景里有草地就猜是“狗”。但生成式模型(包括这个新方法)更关注物体的形状和结构
    • 比喻: 就像你认人,是看他的五官轮廓(形状),而不是看他穿了什么颜色的衣服(纹理)。这种方法让 AI 更像人类一样,通过“看本质”来认图。

4. 总结:为什么这很重要?

这就好比在赛车比赛中:

  • 以前的扩散模型是一辆法拉利,跑得稳、画得美,但油耗高、速度慢(计算太慢)。
  • 以前的自回归模型是一辆老式拖拉机,虽然快,但容易跑偏,只能走直线。
  • 这篇论文的新方法,给拖拉机装上了智能导航和多人协作系统。它既保留了拖拉机的极速(比法拉利快 25 倍),又通过“多人协作”(乱序平均)达到了法拉利的精准度

一句话总结:
研究人员发现,让 AI 像一群不同习惯的人一样,从不同角度“乱序”地看图片,然后把大家的意见综合起来,就能让 AI 既看得准算得快,彻底改变了生成式 AI 在图像分类领域的格局。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →