BitDance: Scaling Autoregressive Generative Models with Binary Tokens

BitDance 是一种可扩展的自回归图像生成模型,它通过预测高熵二进制令牌并结合二进制扩散头与“下一块扩散”解码策略,在显著减少参数量和提升推理速度的同时,实现了 ImageNet 上自回归模型的最优生成质量。

Yuang Ai, Jiaming Han, Shaobin Zhuang, Weijia Mao, Xuefeng Hu, Ziyan Yang, Zhenheng Yang, Yali Wang, Huaibo Huang, Xiangyu Yue, Hao Chen

发布于 2026-03-16
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 BitDance 的新 AI 模型,它能让计算机像“跳舞”一样,用一种极其高效、精准的方式“画”出照片。

为了让你轻松理解,我们可以把生成图片的过程想象成用乐高积木搭建一座宏伟的城堡

1. 以前的困境:积木太少,或者积木太乱

在 BitDance 出现之前,AI 画画主要有两种流派,但都有缺点:

  • 离散派(像数数): 以前的模型把图片切成很多小块,每一块用一个“编号”代表(比如 1 号是蓝天,2 号是草地)。
    • 问题: 如果编号太少,画出来的东西就很模糊(像低像素);如果编号太多(比如几亿种),AI 记不住,而且每次只能猜一个编号,速度极慢。
  • 连续派(像调颜料): 另一种模型把图片块变成连续的数值(像调色盘上的颜色)。
    • 问题: 虽然颜色很丰富,但因为是连续的,AI 在画长序列(比如画整张图)时,容易“记错步”,导致最后画歪了,或者细节丢失。

2. BitDance 的绝招:二进制“超能力”积木

BitDance 发明了一种全新的积木玩法,它把图片块变成了二进制代码(只有 0 和 1,或者 +1 和 -1)。

  • 超大的词汇量(2^256):
    想象一下,普通的积木只有 10 种颜色,而 BitDance 的积木有 2 的 256 次方 种状态!这是一个天文数字,比宇宙中的原子还多。
    • 比喻: 以前 AI 只能用“红、黄、蓝”三种颜色画画,BitDance 却能调配出宇宙中所有可能的颜色。这让它既能保留照片的极致细节(像连续派),又因为只有 0 和 1 两种状态,非常稳定,不会画着画着就“飘”了(像离散派)。

3. 核心挑战与解决方案:如何从“大海”里捞针?

既然有这么多状态,AI 怎么知道该选哪一个呢?这就好比让你从整个银河系里随机挑出一颗特定的星星,太难了。

  • 旧方法(分类头): 就像让 AI 把银河系里的每一颗星星都列个清单,然后一个个猜。这太慢了,而且电脑内存会爆炸。
  • BitDance 的新方法(二进制扩散头):
    作者没有让 AI 直接“猜”编号,而是让 AI 玩一个**“去噪游戏”**。
    • 比喻: 想象你手里有一团模糊的云雾(全是噪音),你的任务是慢慢把云雾吹散,直到它变成清晰的二进制积木(0 或 1)。
    • 这种方法非常聪明,它不需要记住所有可能的编号,而是学习“如何从混乱变清晰”。这让 AI 能轻松驾驭那巨大的词汇量,既快又准。

4. 速度大提速:从“单步走”到“跳方块舞”

传统的 AI 画画是一步一步来的:先画左上角,再画它右边的,再画下面的……就像一个人走迷宫,必须走完一步才能走下一步。如果画一张高清大图,需要走几万步,非常慢。

  • BitDance 的“下一块补丁”(Next-Patch Diffusion):
    BitDance 发现,图片里相邻的积木(比如天空的一小块区域)通常是有关联的。
    • 比喻: 以前是“一个人走一步”,现在 BitDance 是**“一群人跳方块舞”。它一次能同时预测并生成一整块区域**(比如 4x4 的积木块)的 16 个部分。
    • 因为它能同时处理这一整块,并且通过上面的“去噪游戏”保证它们之间配合默契,所以速度提升了30 倍以上!

5. 成果如何?

  • 画得更好: 在 ImageNet 数据集上,它的画质(FID 分数)达到了 1.24,是目前所有“自回归”(一步步生成)模型里的世界第一,甚至超过了那些参数大得多的模型。
  • 算得更快: 它用很少的算力(2.6 亿参数),就打败了那些需要 14 亿参数的模型,而且速度快了 8.7 倍。
  • 文字生成图片: 当它用来根据文字描述画图时(比如“一只在雨中跳舞的猫”),它不仅能听懂文字,还能画出高分辨率、细节丰富的照片,速度比以前的同类模型快 30 多倍。

总结

BitDance 就像是一个精通二进制舞蹈的超级建筑师
它不再笨拙地数数(传统离散方法),也不再漫无目的地调色(传统连续方法),而是利用巨大的二进制词汇库去噪游戏,能够成群结队地、极速地搭建出令人惊叹的视觉世界。

这篇论文不仅展示了 AI 画画的新高度,还证明了:只要方法对,用更少的资源(参数和算力),也能做出更棒的效果。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →