UniWeTok: An Unified Binary Tokenizer with Codebook Size $\mathit{2^{128}}$ for Unified Multimodal Large Language Model

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 UniWeTok 的新系统，你可以把它想象成是给未来的“全能 AI 大脑”（多模态大模型）配备的一套超级高效的“图像翻译官”。

为了让你更容易理解，我们可以把整个 AI 处理图像的过程想象成**“把一幅巨大的油画压缩成摩斯密码，再重新画出来”**的过程。

1. 核心痛点：以前的“翻译官”很纠结

以前的 AI 在处理图片时，面临一个两难的选择：

要么画得像（高保真）： 但压缩后的“密码”太长，AI 读起来很慢，而且很难理解图片里的深层含义（比如“这是一只悲伤的猫”）。
要么理解得好（语义强）： 但压缩后的“密码”太粗糙，AI 想重新画出来时，细节全丢了，画出来的东西像抽象派，不像原图。

这就好比以前的翻译官：要么把书逐字逐句翻译（太慢且啰嗦），要么只翻译大意（但细节全没了）。

2. UniWeTok 的绝招：一本“超级字典”

UniWeTok 的核心创新在于它使用了一本极其巨大的字典（Codebook），大小是 $2^{128}$。

比喻： 想象以前的字典只有几千个词，而 UniWeTok 的字典里有宇宙中所有原子数量级的词汇。
效果： 因为字典太大了，它可以用极少的词（Token）来描述一幅复杂的画。
- 以前：描述一张图需要 256 个词。
- 现在：UniWeTok 只需要 64 个词（减少了 75% 的“字数”），而且这 64 个词里包含了高清细节、深层含义和创作灵感。

3. 三大创新技术（如何做到的？）

A. “双管齐下”的教学法 (Pre-Post Distillation)

为了让这个“翻译官”既懂画画又懂道理，作者设计了一种特殊的训练方法：

课前预习 (Pre-Distillation)： 让翻译官在压缩图片前，先看看“老师”（一个强大的语义模型）是怎么理解这张图的，学会抓重点（比如“这是猫”）。
课后复习 (Post-Distillation)： 压缩完后，再对照老师的理解，检查自己有没有把“猫”这个概念弄丢。
比喻： 就像学生先听老师讲解课文大意，再自己写摘要，最后对比老师的笔记，确保没漏掉重点。

B. “生成意识”的直觉 (Generative-Aware Prior)

很多模型只懂“看图说话”，不懂“看图画画”。UniWeTok 在训练时，不仅让它学理解，还让它边学边猜下一个词是什么（就像玩填字游戏）。

比喻： 这就像教一个画家，不仅让他临摹名画（理解），还让他练习根据几个关键词即兴创作（生成）。这样它学到的“密码”天生就适合用来重新生成图像。

C. 特殊的“稳定器” (SigLu Activation)

在训练过程中，模型很容易“走火入魔”（数值变得太大或太小，导致学不好）。作者发明了一种叫 SigLu 的激活函数。

比喻： 这就像给赛车装了一个智能限速器。它把数据限制在一个安全的范围内（-1 到 1 之间），既保证了赛车（模型）跑得快（训练稳定），又不会冲出赛道（数值爆炸）。这让模型能同时兼顾“画得像”和“懂道理”。

4. 三阶段“特训营” (Training Pipeline)

为了让这个模型适应各种场景（比如人脸、文字、不同大小的图片），作者设计了三个阶段的训练：

第一阶段（通识教育）： 在 256x256 的小图上大量训练，先学会基础。
第二阶段（多面手训练）： 同时训练各种尺寸的图片，学会适应不同分辨率。
第三阶段（精英特训）： 专门针对人脸和文字这种对细节要求极高的内容进行“精修”。

比喻： 就像培养一个全能运动员，先练体能，再练各种项目，最后专门攻克“百米冲刺”和“体操”这种高难度项目。

5. 成果：又快又好又省

画得更好： 在 ImageNet 数据集上，它的生成质量（FID 分数）达到了 1.38，比之前的冠军（REPA 的 1.42）还要好。
省资源： 它只需要训练 330 亿 个数据点，而之前的冠军需要 2620 亿 个。这就像是用十分之一的燃料跑出了更快的速度。
全能表现： 基于 UniWeTok 构建的“全能 AI"，不仅能看懂图、回答问题，还能根据文字指令生成新图，甚至修改图片（比如把猫变成粉色，把背景换成星空），效果吊打很多现有的专用模型。

总结

UniWeTok 就像是一个**“超级压缩包”**。它把复杂的图像压缩成极少但信息量极大的“二进制密码”。

它懂艺术（能还原高清细节）；
它懂逻辑（能理解图片含义）；
它懂创作（能根据这些密码重新生成新图）。

这项技术证明了，只要有一个设计得足够好的“翻译官”，我们就不需要为“理解”和“生成”分别训练两个不同的 AI 模型了，一个模型就能搞定所有视觉任务。

Each language version is independently generated for its own context, not a direct translation.

以下是关于论文 UniWeTok: An Unified Binary Tokenizer with Codebook Size 2^128 for Unified Multimodal Large Language Model 的详细技术总结：

1. 研究背景与问题 (Problem)

统一的多模态大语言模型（Unified MLLM）需要一种视觉表示方法，能够同时满足三个相互冲突的目标：

高保真重建：能够精确还原图像细节。
复杂语义提取：能够提取图像中的深层语义信息，以支持理解任务。
生成适用性：生成的离散 Token 分布需适合自回归生成，避免模式崩溃。

现有的视觉 Tokenizer 通常难以在一个框架内同时满足这些目标：

连续 Tokenizer：在自回归生成中容易出现误差累积和模式崩溃。
离散 Tokenizer：传统方法（如 VQGAN）重建质量较差，信息丢失严重。
大规模码本（Codebook）的困境：虽然近期研究（如 WeTok）通过将码本大小扩展至 $2^{128}$ 显著提升了重建能力，但如此巨大的码本往往导致下游生成任务困难，且现有的基于大规模码本的方法（如 Infinity, BitDance）尚未有效扩展到多模态理解和统一 MLLM 的构建中。

核心问题：能否构建一个基于超大规模离散视觉码本（$2^{128}$）的统一 MLLM，使其兼具强大的重建、理解和生成能力？

2. 方法论 (Methodology)

作者提出了 UniWeTok，一个统一的离散 Tokenizer 框架，旨在解决上述冲突。主要包含以下三个维度的创新：

A. 训练框架 (Training Framework)

前后蒸馏 (Pre-Post Distillation, PPD)：
- 引入预训练的语义编码器（Teacher）作为蒸馏目标。
- Pre-Distillation：对齐编码器中间特征 $U_G$ 与语义特征。
- Post-Distillation：对齐量化后的离散特征 $U_Q$ 与语义特征。
- 作用：显著增强了离散 Token 的语义提取能力，使其适用于理解任务。
生成感知先验 (Generative-Aware Prior, GAP)：
- 在训练过程中，将量化后的特征 $U_Q$ 展平并输入到一个轻量级的生成模型（BitDance）中进行下一个 Token 的扩散预测任务。
- 作用：让 Tokenizer 在训练阶段就感知到生成目标，优化潜在空间的分布，从而提升下游生成任务的性能，同时不损害重建和语义能力。

B. 模型架构 (Model Architecture)

混合骨干网络 (Hybrid Backbone)：
- 编码器和解码器均采用“卷积 + 注意力”的混合架构。
- 利用卷积层提取局部纹理和进行空间下采样，利用 Transformer 块捕捉全局上下文。
- 改进：修改了下采样块，使其在空间下采样的同时进行通道扩展，避免了信息丢失。
SigLu 激活函数：
- 提出了一种新的激活函数 $SigLu(x) = \frac{1-e^x}{1+e^x}$ ，作为编码器的最后一层。
- 作用：将编码器输出 $U_G$ 强制约束在 $[-1, 1]$ 区间内。这解决了“承诺损失 (Commitment Loss)"将输出锚定在 $\pm 1$ 与“熵损失 (Entropy Loss)"推动输出趋向无穷大之间的优化冲突。在 SigLu 约束下，Token 熵损失等效于承诺损失，使得语义蒸馏过程更加稳定。

C. 训练流程 (Training Pipeline)

提出了三阶段课程学习策略，以适应不同分辨率和感知敏感场景：

Stage 1 (大规模预训练)：在 256×256 分辨率的通用数据集上进行训练，注重计算效率。
Stage 2 (多分辨率继续预训练)：同时训练多种分辨率（如 512×512, 1024×1024），提升模型对变长输入的适应能力。
Stage 3 (感知敏感领域退火)：针对人脸和文本等对细节敏感的场景进行微调，进一步提升重建质量。

3. 关键贡献 (Key Contributions)

统一的离散 Tokenizer：首次成功构建了一个基于 $2^{128}$ 超大规模码本的统一 Tokenizer，实现了高保真重建、强语义提取和生成友好性的统一。
SigLu 激活与混合架构：通过 SigLu 激活函数解决了大规模码本训练中的优化冲突，并结合混合骨干网络平衡了局部细节与全局语义。
高效且强大的训练策略：引入 PPD 和 GAP 损失，以及三阶段训练流程，使得模型在极低的训练成本下（相比 REPA 等模型）达到了 SOTA 性能。
统一的 MLLM 实现：基于 UniWeTok 构建了统一的 MLLM，在理解、生成和编辑任务上均表现出卓越性能，证明了单一优化良好的 Tokenizer 足以支撑复杂的统一多模态任务。

4. 实验结果 (Results)

UniWeTok 在多个基准测试中取得了 State-of-the-Art (SOTA) 或极具竞争力的结果：

图像生成 (ImageNet)：
- FID 分数：1.38（优于 REPA 的 1.42）。
- 训练效率：仅需 33B 训练 Token，而 REPA 需要 262B，计算成本大幅降低。
- Token 压缩率：32 倍下采样，将 256×256 图像压缩为 64 个 Token（减少 75%）。
统一 MLLM 性能：
- 图像生成：在 DPG-Bench 上得分为 86.63，超越了 FLUX.1 [Dev] (83.84)。
- 图像编辑：在 GEdit 总体评分中达到 5.09，优于 OmniGen (5.06)，是首个在编辑任务上超越扩散模型的自回归模型。
- 多模态理解：在 SEEDB、POPE、VQAv2 等多个理解基准上表现出与专用理解模型（如 LLaVA, InternVL）相当的竞争力。
重建质量：在 ImageNet 和 MS-COCO 上，以 32 倍下采样率实现了优于大多数现有 Tokenizer 的重建指标（rFID, PSNR, SSIM）。

5. 意义与影响 (Significance)

范式转变：证明了超大规模离散码本（$2^{128}$）不仅可以用于高保真重建，通过适当的训练策略（PPD, GAP, SigLu），同样可以完美服务于语义理解和生成任务。
效率提升：大幅降低了统一 MLLM 的训练和推理成本（Token 数量减少 75%），使得在有限算力下构建强大的多模态模型成为可能。
统一架构：打破了以往“理解用连续/小码本，生成用离散/大码本”或“理解与生成分离”的局限，为未来构建真正的“全能型”多模态大模型提供了新的技术路线和基准。
开源贡献：作者开源了代码和模型，促进了社区对统一 Tokenizer 和 MLLM 的进一步探索。

总结：UniWeTok 通过创新的架构设计（SigLu, 混合骨干）和训练策略（PPD, GAP, 三阶段课程），成功解决了离散 Tokenizer 在重建、理解和生成三者之间的权衡难题，为下一代统一多模态大模型奠定了坚实的基础。

UniWeTok: An Unified Binary Tokenizer with Codebook Size 2128\mathit{2^{128}}2128 for Unified Multimodal Large Language Model