UniWeTok: An Unified Binary Tokenizer with Codebook Size 2128\mathit{2^{128}} for Unified Multimodal Large Language Model

本論文は、$2^{128}$ の巨大なバイナリコードブックと独自のトレーニング手法を組み合わせることで、高忠実度な再構成、複雑な意味抽出、生成適性を同時に実現し、多様なマルチモーダルタスクにおいて最先端のパフォーマンスを達成する統合バイナリトークナイザー「UniWeTok」を提案するものである。

Shaobin Zhuang, Yuang Ai, Jiaming Han, Weijia Mao, Xiaohui Li, Fangyikang Wang, Xiao Wang, Yan Li, Shanchuan Lin, Kun Xu, Zhenheng Yang, Huaibo Huang, Xiangyu Yue, Hao Chen, Yali Wang

公開日 2026-03-12
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

UniWeTok:画像を「超コンパクトなデジタルの粒」に変える魔法の技術

こんにちは!今日は、ByteDance(バイトダンス)などの研究チームが発表した**「UniWeTok(ユニウェトック)」**という画期的な技術について、難しい専門用語を使わずに、わかりやすく解説します。

🎨 何ができるの?「3 つの仕事を 1 つの道具で」

これまでの AI 画像技術には、こんな悩みがありました。

  1. 高画質に復元したい(元の写真と見分けがつかないくらい)
  2. 意味を理解したい(「猫が寝ている」という内容を理解する)
  3. 新しい絵を描きたい(「猫が宇宙にいる絵」を描く)

これらは、それぞれ「別の道具」や「別の技術」が必要で、バラバラに扱われることが多かったんです。でも、UniWeTok は**「高画質」「意味理解」「描画」の 3 つを、たった 1 つの技術で完璧にこなす**という、まるで「瑞士軍刀(マルチツール)」のような存在なんです。


🔍 仕組みの核心:「巨大な辞書」と「デジタルの粒」

UniWeTok の魔法の正体は、**「画像を、小さなデジタルの粒(トークン)に変えること」**にあります。

1. 巨大な辞書(コードブック)

普通の辞書が 1 万語なら、UniWeTok が使う辞書は**「2 の 128 乗」**という、想像もつかないほど巨大な数の言葉(コード)を持っています。

  • イメージ: 普通の辞書が「赤」「青」「丸」といった単語しか載せていないのに対し、UniWeTok の辞書は「夕焼けのオレンジ色」「猫の毛並みの質感」「遠くの山のかすみ」といった、**細部まで表現できる数百万の「色と質感の粒」**をすべて持っています。
  • これのおかげで、画像を極限まで小さく圧縮しても、元の美しさを失わずに済みます。

2. 75% もの圧縮率

UniWeTok は、画像を**「32 倍」も小さく**圧縮します。

  • 例え話: 100 枚の写真を 1 枚のアルバムに収めるようなものです。しかも、中身はくっきりと残っています。
  • これにより、AI が画像を処理する時の計算量が激減し、非常に高速で効率的になります。

🏗️ 3 つの魔法のテクニック

このすごい性能を実現するために、研究チームは 3 つの工夫をしました。

① 先生と生徒の「二重の勉強法」(Pre-Post Distillation)

  • 状況: 画像を「粒」に変える際、ただ形を保存するだけでは、AI が「これは猫だ」という意味を理解できません。
  • 解決策: すでに賢い「先生 AI(意味を理解するモデル)」を用意し、UniWeTok を「生徒」として教えます。
    • 勉強前: 先生が「これは猫の形だ」と教える。
    • 勉強後: 先生が「これは猫の『意味』だ」と教える。
  • この「前と後」の両方を教えてあげることで、UniWeTok は**「形」だけでなく「意味」も同時に覚える**ようになります。

② 未来を予知する「先回り学習」(Generative-Aware Prior)

  • 状況: 画像を「粒」に変えるだけなら簡単ですが、その粒から「新しい絵」を描くのは難しいです。
  • 解決策: 訓練中に、**「この粒の次に来る粒は何か?」**というゲームをさせます。
  • イメージ: 将棋の棋士が、次の手を予測して指すように、UniWeTok も「次にどんな粒が来るか」を予測する癖をつけさせます。これにより、後から新しい画像を描くのが非常にスムーズになります。

③ 特殊な「活性化関数(SigLu)」とハイブリッド構造

  • 問題: 通常、画像の形を保存しようとすると意味が崩れ、意味を理解しようとすると形が崩れるという「板挟み」が起きます。
  • 解決策:
    • SigLu(シグル): 出力を「-1 から 1」の範囲に優しく抑える特殊なフィルター。これにより、意味と形のバランスが崩れなくなります。
    • ハイブリッド構造: 画像の「細かい模様(CNN)」と「全体の雰囲気(Transformer)」の両方を得意とする、二刀流の構造を採用しました。

🚀 どれくらいすごい?(実績)

この技術を使うと、以下のような驚異的な結果が得られました。

  • 画像生成: 従来のトップモデル(REPA など)と比べて、画質は同等かそれ以上なのに、必要な計算量は 1/8 以下(330 億トークン vs 2620 億トークン)で済みます。
    • 例え話: 高級レストランで同じレベルの料理を出せるのに、材料費が 1 割で済むようなものです。
  • 画像編集・理解: 「背景を海に変えて」「この文字を読み取って」といった指示にも、非常に高い精度で答えます。
  • 多様なサイズ: 256 画素の小さな画像から、1024 画素以上の大きな画像まで、サイズを変えずにそのまま処理できます。

🌟 まとめ

UniWeTok は、**「画像を極限まで小さく圧縮しながら、その中に『形』『意味』『描画のヒント』をすべて詰め込んだ、究極のデジタルの粒」**を作る技術です。

これにより、これまでは別々の AI がやっていた「画像を見ること」と「画像を描くこと」を、1 つの AI が完璧にこなせるようになりました。これからの AI 画像生成や、ロボットが視覚を認識する世界において、非常に大きな一歩となる技術です。

まるで、**「1 つの小さな箱に、世界全体の景色と物語、そして新しい絵を描く魔法までを詰め込んだ」**ような技術だと言えます。