UniWeTok: An Unified Binary Tokenizer with Codebook Size 2128\mathit{2^{128}} for Unified Multimodal Large Language Model

本文提出了 UniWeTok,一种基于 $2^{128}$ 大规模二进制码本、采用卷积 - 注意力混合架构及三阶段训练策略的统一离散 Tokenizer,旨在通过解决高保真重建、语义提取与生成能力之间的冲突,在显著降低训练成本的同时实现图像生成、多模态理解及编辑等任务的全方位高性能表现。

Shaobin Zhuang, Yuang Ai, Jiaming Han, Weijia Mao, Xiaohui Li, Fangyikang Wang, Xiao Wang, Yan Li, Shanchuan Lin, Kun Xu, Zhenheng Yang, Huaibo Huang, Xiangyu Yue, Hao Chen, Yali Wang

发布于 2026-03-12
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 UniWeTok 的新系统,你可以把它想象成是给未来的“全能 AI 大脑”(多模态大模型)配备的一套超级高效的“图像翻译官”

为了让你更容易理解,我们可以把整个 AI 处理图像的过程想象成**“把一幅巨大的油画压缩成摩斯密码,再重新画出来”**的过程。

1. 核心痛点:以前的“翻译官”很纠结

以前的 AI 在处理图片时,面临一个两难的选择:

  • 要么画得像(高保真): 但压缩后的“密码”太长,AI 读起来很慢,而且很难理解图片里的深层含义(比如“这是一只悲伤的猫”)。
  • 要么理解得好(语义强): 但压缩后的“密码”太粗糙,AI 想重新画出来时,细节全丢了,画出来的东西像抽象派,不像原图。

这就好比以前的翻译官:要么把书逐字逐句翻译(太慢且啰嗦),要么只翻译大意(但细节全没了)。

2. UniWeTok 的绝招:一本“超级字典”

UniWeTok 的核心创新在于它使用了一本极其巨大的字典(Codebook),大小是 $2^{128}$。

  • 比喻: 想象以前的字典只有几千个词,而 UniWeTok 的字典里有宇宙中所有原子数量级的词汇。
  • 效果: 因为字典太大了,它可以用极少的词(Token)来描述一幅复杂的画。
    • 以前:描述一张图需要 256 个词。
    • 现在:UniWeTok 只需要 64 个词(减少了 75% 的“字数”),而且这 64 个词里包含了高清细节深层含义创作灵感

3. 三大创新技术(如何做到的?)

A. “双管齐下”的教学法 (Pre-Post Distillation)

为了让这个“翻译官”既懂画画又懂道理,作者设计了一种特殊的训练方法:

  • 课前预习 (Pre-Distillation): 让翻译官在压缩图片前,先看看“老师”(一个强大的语义模型)是怎么理解这张图的,学会抓重点(比如“这是猫”)。
  • 课后复习 (Post-Distillation): 压缩完后,再对照老师的理解,检查自己有没有把“猫”这个概念弄丢。
  • 比喻: 就像学生先听老师讲解课文大意,再自己写摘要,最后对比老师的笔记,确保没漏掉重点。

B. “生成意识”的直觉 (Generative-Aware Prior)

很多模型只懂“看图说话”,不懂“看图画画”。UniWeTok 在训练时,不仅让它学理解,还让它边学边猜下一个词是什么(就像玩填字游戏)。

  • 比喻: 这就像教一个画家,不仅让他临摹名画(理解),还让他练习根据几个关键词即兴创作(生成)。这样它学到的“密码”天生就适合用来重新生成图像。

C. 特殊的“稳定器” (SigLu Activation)

在训练过程中,模型很容易“走火入魔”(数值变得太大或太小,导致学不好)。作者发明了一种叫 SigLu 的激活函数。

  • 比喻: 这就像给赛车装了一个智能限速器。它把数据限制在一个安全的范围内(-1 到 1 之间),既保证了赛车(模型)跑得快(训练稳定),又不会冲出赛道(数值爆炸)。这让模型能同时兼顾“画得像”和“懂道理”。

4. 三阶段“特训营” (Training Pipeline)

为了让这个模型适应各种场景(比如人脸、文字、不同大小的图片),作者设计了三个阶段的训练:

  1. 第一阶段(通识教育): 在 256x256 的小图上大量训练,先学会基础。
  2. 第二阶段(多面手训练): 同时训练各种尺寸的图片,学会适应不同分辨率。
  3. 第三阶段(精英特训): 专门针对人脸文字这种对细节要求极高的内容进行“精修”。
  • 比喻: 就像培养一个全能运动员,先练体能,再练各种项目,最后专门攻克“百米冲刺”和“体操”这种高难度项目。

5. 成果:又快又好又省

  • 画得更好: 在 ImageNet 数据集上,它的生成质量(FID 分数)达到了 1.38,比之前的冠军(REPA 的 1.42)还要好。
  • 省资源: 它只需要训练 330 亿 个数据点,而之前的冠军需要 2620 亿 个。这就像是用十分之一的燃料跑出了更快的速度
  • 全能表现: 基于 UniWeTok 构建的“全能 AI",不仅能看懂图、回答问题,还能根据文字指令生成新图,甚至修改图片(比如把猫变成粉色,把背景换成星空),效果吊打很多现有的专用模型。

总结

UniWeTok 就像是一个**“超级压缩包”**。它把复杂的图像压缩成极少但信息量极大的“二进制密码”。

  • 懂艺术(能还原高清细节);
  • 懂逻辑(能理解图片含义);
  • 懂创作(能根据这些密码重新生成新图)。

这项技术证明了,只要有一个设计得足够好的“翻译官”,我们就不需要为“理解”和“生成”分别训练两个不同的 AI 模型了,一个模型就能搞定所有视觉任务