UniWeTok: An Unified Binary Tokenizer with Codebook Size $\mathit{2^{128}}$ for Unified Multimodal Large Language Model

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez de faire parler un ordinateur pour qu'il comprenne les images, qu'il puisse les décrire, les modifier et même en créer de nouvelles. C'est le rêve des Modèles de Langage Multimodaux Unifiés (MLLM).

Le problème, c'est que les ordinateurs "pensent" en nombres, pas en pixels. Pour qu'ils puissent travailler avec une image, il faut d'abord la transformer en une suite de mots (des "tokens"). C'est là qu'intervient UniWeTok, le héros de cette nouvelle recherche.

Voici une explication simple de ce que font les chercheurs, avec quelques analogies pour rendre les choses claires.

1. Le Problème : Le Dilemme du "Couteau Suisse"

Imaginez que vous avez un couteau suisse.

D'un côté, il doit être très tranchant pour couper du papier (c'est la reconstruction : redonner une image parfaite à partir des données).
De l'autre, il doit avoir un petit guide pour vous aider à naviguer (c'est la sémantique : comprendre que l'image montre un chat, pas juste des pixels oranges).
Et enfin, il doit être légèrement élastique pour pouvoir dessiner de nouvelles formes (c'est la génération : créer de nouvelles images).

Jusqu'à présent, les outils existants étaient soit excellents pour couper (reconstruction) mais n'avaient pas de guide (pas de compréhension), soit ils avaient un super guide mais étaient trop lourds et flous pour couper proprement. Ils ne pouvaient pas tout faire en même temps.

2. La Solution : UniWeTok, le "Super-Traducteur"

Les chercheurs de ByteDance et d'autres universités ont créé UniWeTok. C'est un traducteur d'images ultra-puissant qui résout ce conflit.

L'Analogie du "Dictionnaire Géant" (Le Codebook)

Pour traduire une image en mots, UniWeTok utilise un dictionnaire (appelé codebook).

Les anciens dictionnaires étaient petits (comme un dictionnaire de poche). Ils avaient peu de mots, donc pour décrire une image complexe, il fallait beaucoup de phrases (beaucoup de tokens). C'était lent et lourd.
UniWeTok a un dictionnaire gigantesque de $2^{128}$ mots ! C'est un nombre si astronomique qu'il dépasse le nombre d'atomes dans l'univers.
L'astuce : Parce que ce dictionnaire est si vaste, chaque "mot" (token) peut contenir une quantité énorme d'informations. Résultat ? Au lieu d'avoir besoin de 256 mots pour décrire une image, UniWeTok n'en a besoin que de 64. C'est comme passer d'un roman de 500 pages à un résumé de 100 pages sans perdre le sens.

La "Recette de Cuisine" (L'Architecture Hybride)

Pour construire ce traducteur, ils ont mélangé deux techniques :

Les Convolution (CNN) : Comme un chef qui regarde les détails locaux (la texture de la peau, les poils du chat). C'est excellent pour le "réalisme".
Les Transformers (Attention) : Comme un chef qui comprend le contexte global (c'est un chat qui dort sur un rebord de fenêtre, pas juste un tas de poils). C'est excellent pour la "compréhension".

UniWeTok combine les deux dans une seule architecture, un peu comme un chef qui a à la fois un microscope et une vue d'ensemble.

3. Les Trois Ingédients Secrets (L'Entraînement)

Pour que ce modèle apprenne à faire les trois choses (reconstruire, comprendre, créer) sans se perdre, ils ont utilisé trois techniques spéciales :

La Distillation "Avant-Après" (Pre-Post Distillation) :
Imaginez un élève qui apprend à dessiner.
- Avant : Il regarde le dessin du maître (l'encodeur) pour comprendre la structure.
- Après : Il regarde son propre dessin fini pour voir s'il a bien compris.
  En forçant le modèle à faire les deux, il apprend non seulement à copier l'image, mais à en saisir le sens profond.
L'Activation SigLu (Le Frein de Sécurité) :
Quand on entraîne un modèle avec un dictionnaire si grand, il a tendance à devenir fou et à produire des valeurs extrêmes (comme essayer de crier au lieu de parler).
SigLu agit comme un régulateur de vitesse. Il empêche le modèle de devenir trop "excité", ce qui stabilise l'apprentissage et permet de combiner la reconstruction précise avec la compréhension sémantique.
Le "Préjugé Génératif" (Generative-Aware Prior) :
Souvent, un modèle apprend à décrire une image parfaitement, mais quand on lui demande d'en créer une nouvelle, il échoue.
Ici, pendant l'entraînement, on donne au modèle un petit "devoir" supplémentaire : il doit essayer de prédire le prochain mot de l'image comme s'il devait la créer de toute pièce. Cela lui inculque une intuition naturelle pour la génération, comme un musicien qui écoute de la musique tout en apprenant à la jouer.

4. Le Résultat : Un Modèle "Tout-en-Un"

Grâce à tout cela, UniWeTok est capable de :

Compresser les images de manière incroyable (réduisant le nombre de données de 75 %).
Comprendre les images (répondre à des questions, lire du texte dans une image).
Créer de nouvelles images (générer des images à partir de texte, modifier des images existantes).

Le plus impressionnant ?
Ils ont obtenu des résultats meilleurs que les meilleurs modèles actuels (comme REPA ou FLUX.1), mais en utilisant beaucoup moins de puissance de calcul. C'est comme si vous aviez une Ferrari qui consomme moins d'essence qu'une petite citadine.

En Résumé

UniWeTok est comme un traducteur universel qui a appris à parler le langage des images avec un dictionnaire infini. Grâce à une architecture intelligente et des techniques d'entraînement astucieuses, il permet aux ordinateurs de voir, comprendre et créer avec une seule et même boîte à outils, rendant les futures intelligences artificielles plus rapides, plus intelligentes et plus polyvalentes.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les Modèles de Langage Multimodaux Unifiés (MLLM) nécessitent une représentation visuelle capable de satisfaire simultanément trois objectifs souvent contradictoires :

Reconstruction haute fidélité : Préserver les détails fins et la texture de l'image.
Extraction sémantique complexe : Comprendre le contenu sémantique pour les tâches de compréhension (VQA, raisonnement).
Adéquation générative : Permettre une génération d'images stable et de haute qualité via des modèles auto-régressifs.

Les tokeniseurs visuels existants échouent généralement à concilier ces objectifs dans un seul cadre. Les tokeniseurs continus souffrent d'accumulation d'erreurs et d'effondrement de modes lors de la génération auto-régressive. Les tokeniseurs discrets traditionnels (basés sur VQ) offrent une robustesse mais souffrent d'une perte d'information significative, limitant la qualité de reconstruction. De plus, les approches récentes utilisant de très grands codebooks (ex: $2^{128}$) pour augmenter la densité d'information peinent souvent à extraire des informations sémantiques utiles ou à être utilisées efficacement pour la compréhension multimodale.

2. Méthodologie

Les auteurs proposent UniWeTok, un tokeniseur discret unifié conçu pour combler ce fossé en utilisant un codebook binaire massif de taille $2^{128}$. L'approche repose sur trois piliers principaux :

A. Architecture Hybride et Fonction d'Activation SigLu

Backbone Hybride : L'encodeur et le décodeur combinent des blocs résiduels convolutifs (pour les biais inductifs locaux et le traitement des textures) et des blocs de transformateurs (pour le champ réceptif global et la compréhension sémantique).
Activation SigLu : Pour résoudre le conflit d'optimisation entre la perte d'entropie des tokens (qui pousse les sorties vers l'infini) et la perte de "commitment" (qui les ancre à -1 ou 1), les auteurs introduisent la fonction d'activation SigLu ( $SigLu(x) = \frac{1-e^x}{1+e^x}$ ). Cette fonction contraint naturellement les sorties de l'encodeur dans l'intervalle $[-1, 1]$ , rendant la perte d'entropie équivalente à la perte de commitment, ce qui stabilise l'apprentissage et permet une distillation sémantique efficace.

B. Cadre d'Entraînement : Distillation Pré-Post et Priorité Générative

Distillation Pré-Post (PPD) : Pour doter le tokeniseur de capacités sémantiques, un encodeur sémantique pré-entraîné (enseignant) est utilisé. La perte de distillation est appliquée à la fois sur les caractéristiques latentes avant quantification (Pre) et après quantification (Post), alignant les tokens discrets sur la sémantique de l'image.
Priorité Générative (GAP) : Un petit modèle génératif (BitDance) est entraîné simultanément pour prédire le prochain token. Cette perte (MSE) agit comme un "prior" qui informe le tokeniseur sur l'objectif de génération, facilitant l'apprentissage de la distribution des tokens pour les tâches de génération en aval.

C. Pipeline d'Entraînement en Trois Étapes

Pour assurer la robustesse sur différentes résolutions et scénarios sensibles (visages, texte), un curriculum learning est proposé :

Pré-entraînement à grande échelle : Sur un jeu de données général à résolution fixe (256x256).
Pré-entraînement multi-résolution : Entraînement simultané sur diverses résolutions pour améliorer la flexibilité.
Affinage (Annealing) : Focus sur des domaines perceptuellement sensibles comme les visages humains et le texte pour optimiser la reconstruction fine.

3. Contributions Clés

Unification via un Codebook Massif : UniWeTok réussit à utiliser un codebook binaire de taille $2^{128}$ (permettant une compression 32x avec seulement 64 tokens pour une image 256x256) tout en maintenant une capacité d'extraction sémantique et une qualité générative exceptionnelles.
Innovations Architecturales : L'introduction de l'activation SigLu et de l'architecture hybride (Conv-Attention) résout les instabilités d'optimination inhérentes aux grands codebooks discrets.
Stratégie d'Entraînement Unifiée : La combinaison de la distillation Pré-Post et du prior génératif (GAP) permet d'entraîner un seul tokeniseur capable de servir à la fois la compréhension (MLLM) et la génération (modèles auto-régressifs).
Efficacité Inédite : Le modèle atteint des performances de pointe (SOTA) avec un coût de calcul d'entraînement considérablement réduit par rapport aux méthodes concurrentes.

4. Résultats Expérimentaux

Les résultats démontrent la supériorité de UniWeTok sur plusieurs fronts :

Génération d'images (ImageNet) :
- FID : 1.38 (SOTA), surpassant REPA (1.42).
- Efficacité : Nécessite seulement 33 milliards de tokens d'entraînement contre 262 milliards pour REPA, tout en générant moins de tokens (64 vs 256).
Modèle MLLM Unifié :
- Compréhension : Performances compétitives sur des benchmarks comme SEEDB, POPE, VQAv2 et MMMU.
- Génération (Text-to-Image) : Score DPG de 86.63, surpassant le modèle FLUX.1 [Dev] (83.84).
- Édition d'images : Score GEdit Global de 5.09, surpassant OmniGen (5.06), démontrant une capacité rare pour un modèle auto-régressif à rivaliser avec les modèles de diffusion en édition.
Reconstruction :
- Maintient une haute fidélité (rFID 0.79 sur ImageNet) avec un taux de sous-échantillonnage de 32x, réduisant le nombre de tokens visuels de 75 % par rapport aux tokeniseurs standards.

5. Signification et Impact

UniWeTok représente une avancée majeure dans le domaine des MLLM unifiés. Il démontre qu'il est possible de construire un seul tokeniseur discret optimisé capable de gérer simultanément la reconstruction haute fidélité, la compréhension sémantique profonde et la génération créative.

En prouvant qu'un codebook binaire massif ($2^{128}$) peut être exploité efficacement sans sacrifier la sémantique, le papier ouvre la voie à des modèles multimodaux plus compacts, plus rapides et plus efficaces. L'approche suggère que l'avenir des MLLM réside dans l'unification des tâches de compréhension et de génération via une représentation visuelle discrète robuste, éliminant le besoin d'architectures complexes et séparées pour chaque tâche. Le code et les modèles sont ouverts pour faciliter l'exploration communautaire.

UniWeTok: An Unified Binary Tokenizer with Codebook Size 2128\mathit{2^{128}}2128 for Unified Multimodal Large Language Model