LGQ: Learning Discretization Geometry for Scalable and Stable Image Tokenization

本文提出了可学习几何量化(LGQ),一种通过端到端学习离散化几何结构、结合温度控制软分配与正则化机制,从而在保持高生成质量的同时显著提升代码利用率并解决现有量化器在大规模词表下不稳定问题的离散图像分词方法。

Idil Bilge Altun, Mert Onur Cakiroglu, Elham Buxton, Mehmet Dalkilic, Hasan Kurban

发布于 2026-02-23
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 LGQ(可学习几何量化)的新方法,它旨在解决图像生成模型中一个非常棘手的问题:如何把复杂的图片“压缩”成简单的数字代码,同时还能完美地还原出来。

为了让你更容易理解,我们可以把整个过程想象成**“给图书馆里的书编目录”**。

1. 背景:为什么要“压缩”图片?

现在的 AI(比如生成图片的模型)非常强大,但它们处理原始图片就像是在处理一堆乱糟糟的沙子,太复杂、太占地方了。

  • Tokenization(分词/编码):就是要把这些“沙子”变成一个个整齐的“积木块”(代码)。AI 只需要记住这些积木块的编号,就能在脑海里重建出图片。
  • 目标:积木块要越少越好(省空间),但拼出来的图要越像原图越好(保质量)。

2. 旧方法的困境:两个极端的“死胡同”

以前的方法主要有两种,但它们都有明显的缺点:

  • 方法 A:硬碰硬的“最近邻居”法(传统 VQ)

    • 比喻:想象你有一堆形状各异的石头(图片特征),你要把它们扔进一个个固定的**“石头坑”**(代码本)里。规则是:扔进离它最近的那个坑。
    • 问题:随着石头越来越多,有些坑会被塞爆,而有些坑永远空着(没人用)。更糟糕的是,那些空着的坑因为没人扔石头进去,就永远学不到东西,最后整个系统变得很脆弱,稍微放大一点规模就崩溃了。这就像只有几个热门仓库在加班,其他仓库都倒闭了
  • 方法 B:死板的“格子”法(FSQ)

    • 比喻:为了避免上面的问题,这种方法直接把空间切成了整齐的方格(像棋盘一样)。不管石头是什么形状,都强行塞进最近的格子里。
    • 问题:虽然每个格子都有石头,不会倒闭,但这太死板了!现实中的石头形状千奇百怪,强行塞进方格里,要么塞不进去,要么塞得很难看(失真)。这就像非要用方形的盒子去装圆形的西瓜,要么装不下,要么把西瓜挤变形了

3. LGQ 的解决方案:聪明的“软着陆”

LGQ 提出了一种全新的思路,它结合了上述两种方法的优点,并加入了一个**“智能温度调节器”**。

  • 核心创新:从“硬选”变成“软选”

    • 比喻:以前是“非此即彼”,石头必须跳进一个坑。LGQ 说:“别急,先让石头悬浮在几个坑的上方,根据距离远近,分配不同的‘注意力’(概率)。”
    • 温度(Temperature):这就好比**“热度”**。
      • 训练初期(高温):石头很“软”,可以同时在几个坑之间摇摆。这让所有的坑都能收到信号,知道怎么调整自己的位置来更好地接住石头。就像所有仓库管理员都在互相学习,调整货架位置
      • 训练后期(低温):随着训练进行,温度慢慢降低,石头变“硬”了,最终稳稳地落入最合适的那一个坑里。
    • 结果:既保证了所有坑都能被利用(不会倒闭),又保证了最终的选择是最精准的(不会塞变形)。
  • 双重保险(正则化)

    • 为了防止石头还在犹豫不决(太软)或者只挤在一个坑里(太硬),LGQ 加了两个“小规矩”:
      1. 自信度规则:强迫石头最终要做出明确的选择(不能模棱两可)。
      2. 公平分配规则:强迫石头不要全挤在一个坑里,要均匀地分布到各个坑,避免某些坑累死,某些坑闲死。

4. 实际效果:更聪明、更省钱

论文在 ImageNet(一个巨大的图片数据库)上做了测试,结果非常惊人:

  • 质量更高:还原出来的图片比以前的方法更清晰、更像原图(rFID 分数更低)。
  • 效率更高:以前需要动用16,000 个仓库(代码本)才能勉强拼好,LGQ 只需要动用8,000 个(甚至更少)就能达到同样的效果,而且拼得更好。
  • 更稳定:不管图片库怎么变大,LGQ 都能稳稳地工作,不会像旧方法那样容易崩溃。

总结

LGQ 就像是一个“会自我进化的智能仓库管理系统”。

它不再死板地规定“石头必须进哪个坑”,而是让仓库的位置(代码本)自己去适应石头的形状。在训练过程中,它先让所有仓库都动起来学习(软分配),最后再精准定位(硬分配)。

一句话概括:LGQ 让 AI 在压缩图片时,不再是用“方盒子装圆西瓜”,而是学会了**“根据西瓜的形状,现场定制最合适的盒子”**,既省空间,又保质量,还不会让仓库倒闭。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →