LGQ: Learning Discretization Geometry for Scalable and Stable Image Tokenization

本論文は、可微分なソフトアサインメントと正則化を導入して離散化幾何を学習し、大規模語彙における安定した最適化と効率的なコード利用を両立させる新しい画像トークナイザー「LGQ」を提案し、ImageNet 上での高品質な生成を実現したことを示しています。

Idil Bilge Altun, Mert Onur Cakiroglu, Elham Buxton, Mehmet Dalkilic, Hasan Kurban

公開日 2026-02-23
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「画像をデジタルデータに変える新しい、賢い方法(LGQ)」**について書かれています。

AI が画像を生成したり理解したりするときは、まず画像を小さな「ブロック(トークン)」に分割して、数字の羅列(コード)に変換する必要があります。これを**「画像のトークン化」**と呼びます。

これまでの方法には大きな問題がありましたが、この論文で提案されたLGQという新しい技術が、その問題を解決し、より効率的で安定した方法を実現しました。

以下に、専門用語を使わず、日常の例え話を使って解説します。


1. 従来の方法には「2 つの悩み」があった

画像をコードに変えるには、大きく分けて 2 つのやり方(A と B)がありました。しかし、どちらも欠点がありました。

A. 「一番近いもの」を探す方法(VQ)

  • 仕組み: 辞書(コードブック)の中に用意された「代表選手(辞書)」の中から、画像の断片に一番似ているものを 1 つだけ選びます。
  • 問題点(「人気者」しか使われない):
    • 最初は辞書に 1 万個の選手がいますが、学習が進むと、「人気者(特定の辞書)」ばかりが選ばれ、他の 9,000 人以上の選手は全く使われなくなります。
    • これを**「崩壊(コラプス)」**と呼びます。辞書が巨大になっても、実際に使われているのは一部だけなので、AI の表現力が上がりません。
    • 修正しようとすると、無理やり選手を入れ替えたりする「ハック(裏技)」が必要で、不安定です。

B. 「決まった箱」に入れる方法(FSQ)

  • 仕組み: 辞書を使わず、あらかじめ決まった「箱(グリッド)」に、画像の断片を強制的に押し込みます。
  • 問題点(「硬すぎて合わない」):
    • 箱はすべて同じ大きさで、決まった位置にあります。
    • 現実のデータ(画像)は、箱の形にぴったり合うとは限りません。 無理やり押し込むと、情報が歪んでしまったり、箱の容量を無駄に使ったりします。
    • 安定はしていますが、柔軟性がありません。

2. LGQ の解決策:「温度で調整する、賢い選択」

LGQ(Learnable Geometric Quantization)は、この 2 つの欠点をなくすために、**「辞書の形そのものを学習する」**という新しいアプローチを取りました。

① 「熱いお風呂」から「冷たい氷」へ(温度パラメータ)

LGQ は、最初から「一番近いもの」をガチガチに選ぶのではなく、**「温度(熱さ)」**という概念を使います。

  • 学習の始め(熱い状態):
    • 辞書の選手たちが「お風呂」に入っているイメージです。
    • 画像の断片は、「一番近い選手」だけでなく、少し似ている選手たちにも「少しだけ」投票します。
    • これにより、辞書全体の選手がバランスよく練習(学習)できます。誰も取り残されません。
  • 学習の終わり(冷たい状態):
    • 時間が経つにつれて温度を下げ、最後は「氷」のように固めます。
    • すると、投票は自然と**「一番似ている選手 1 人」に集中します。**
    • 結果として、最終的には従来の「一番近いものを選ぶ」方法と同じになりますが、その選び方が、データに最適な形に「学習」されたものになります。

② 「辞書の形」を自分で変える

従来の辞書は固定された形でしたが、LGQ は**「辞書自体の形(配置)」をデータに合わせて変形させます。**

  • 例え話:従来の辞書は「正方形のマス目」でしたが、LGQ は**「粘土」**のように、データが密集している場所にマス目を押し寄せさせ、空いている場所では広げます。
  • これにより、少ない数の辞書(コード)でも、画像の情報を無駄なく表現できるようになります。

③ 「公平な分配」を促すルール

辞書の選手たちが偏って使われるのを防ぐため、2 つのルールを設けています。

  1. 自信を持つこと: 投票が「誰か 1 人に絞られる」ように促す(曖昧さを減らす)。
  2. 全員を使うこと: 特定の選手ばかり使われるのを防ぎ、辞書全体をバランスよく使うように促す。

3. 何がすごいのか?(結果)

この LGQ を使った実験では、以下のような素晴らしい結果が出ました。

  • 高画質: 画像を元の形に戻す精度が、これまでの最高峰の方法よりも高い、あるいは同等でした。
  • 圧倒的な効率:
    • 従来の方法(FSQ など)は、辞書の**100%を使い切ろうとしていましたが、LGQ は約 50%**の辞書だけで、同じ、あるいはそれ以上の性能を出しました。
    • 例え話: 1 万人の選手がいるチームで、従来の方法は全員を無理やり走らせていましたが、LGQ は「本当に必要な 5,000 人」だけを賢く配置して、同じゴールを達成しました。
  • 安定性: 辞書が大きくなっても、選手が偏って使われる(崩壊する)ことがありませんでした。

まとめ

この論文が伝えているのは、**「画像をデジタル化する際、無理やり決まった箱に入れるのではなく、データに合わせて『箱の形』自体を学習させれば、もっと賢く、効率的にできる」**という発見です。

LGQ は、AI が画像を生成する際の「基礎となる変換器」として、これからの大型 AI モデルにとって非常に重要な技術になるでしょう。まるで、「硬いブロック」を「しなやかな粘土」に変えて、データにぴったり合う形に作り変える魔法のようなものです。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →