SemHiTok: A Unified Image Tokenizer via Semantic-Guided Hierarchical Codebook for Multimodal Understanding and Generation

Each language version is independently generated for its own context, not a direct translation.

🎨 Le Problème : Le Dilemme du Peintre et du Traducteur

Imaginez que vous voulez créer un robot capable de faire deux choses :

Comprendre une image (comme un traducteur qui lit un livre et explique l'histoire).
Recréer une image (comme un peintre qui copie un tableau pixel par pixel).

Le problème, c'est que ces deux tâches ont des besoins opposés :

Pour comprendre, le robot a besoin de voir le "sens" global (c'est un chien, c'est un coucher de soleil). Il n'a pas besoin de savoir exactement quelle nuance de marron est sur l'oreille du chien. C'est comme lire un résumé de livre : on veut l'histoire, pas chaque virgule.
Pour recréer, le robot a besoin de détails précis (les textures, les couleurs exactes, les ombres). Si on lui donne juste le résumé, il ne pourra pas redessiner le tableau fidèlement.

Jusqu'à présent, les chercheurs devaient choisir : soit un robot bon pour comprendre (mais qui dessine mal), soit un robot bon pour dessiner (mais qui ne comprend pas vraiment ce qu'il voit). Ou alors, ils essayaient de forcer un seul robot à faire les deux en même temps, ce qui créait un "compromis" médiocre, comme essayer de courir un marathon tout en jouant au piano : on ne fait rien de très bien.

💡 La Solution : SemHiTok (Le Chef d'Orchestre Hiérarchique)

Les auteurs de ce papier proposent SemHiTok, un nouvel outil qui résout ce problème grâce à une idée brillante : la "Boîte à Outils Hiérarchique".

Imaginez que vous avez une immense bibliothèque de codes (une "codebook") pour décrire des images.

L'ancienne méthode : C'était comme une seule grande liste de mots. Pour décrire un "chien", on utilisait un mot. Mais ce mot ne disait pas si le chien était roux, noir ou blanc. Pour décrire les couleurs, il fallait une autre liste, et on devait jongler entre les deux.
La méthode SemHiTok : C'est comme un système de coffres-forts imbriqués.

Comment ça marche ? (L'analogie du Coffre-Fort)

Le Coffre Principal (Le Code Sémantique) :
D'abord, le robot regarde l'image et identifie le sens. "Ah, c'est un coq !" Il choisit un code principal, disons le code #14312. Ce code dit "C'est un coq". À ce stade, l'image est floue, comme un croquis rapide.
Les Petits Coffres Secondaires (Les Codes de Pixels) :
C'est ici que la magie opère. Le robot sait que le code #14312 (le coq) a besoin de détails spécifiques. Il ouvre donc un petit coffre spécial qui n'est accessible que si on a le code #14312.
- Dans ce petit coffre, il y a des codes pour "crête rouge", "plumes dorées", "bec jaune".
- Si l'image était un chat, le robot aurait ouvert un autre petit coffre avec des codes pour "poils gris", "moustaches blanches".

En résumé : Le robot ne cherche pas dans toute la bibliothèque pour trouver la couleur du coq. Il sait déjà que c'est un coq (niveau 1), donc il va directement dans la section "Coq" (niveau 2) pour trouver les détails précis.

🚀 Pourquoi c'est génial ?

Deux entraînements séparés, un seul résultat :
Au lieu d'essayer d'apprendre à comprendre et à dessiner en même temps (ce qui est difficile), SemHiTok apprend d'abord à comprendre (le coffre principal), puis apprend à ajouter les détails (les petits coffres) sans gâcher ce qu'il a déjà appris. C'est comme apprendre à conduire une voiture avant d'apprendre à faire de la F1.
Pas de gaspillage :
Les anciennes méthodes ajoutaient trop de mots à la liste, rendant le robot lent et lourd. SemHiTok est intelligent : il réutilise les mêmes petits coffres pour des choses similaires. C'est comme avoir un seul dictionnaire de base, mais avec des annexes spécialisées pour chaque chapitre.
Le résultat final :
Le robot produit une image qui est à la fois parfaitement comprise (il sait ce qu'il dessine) et parfaitement détaillée (il dessine chaque plume du coq).

🏆 Les Résultats

Dans les tests, SemHiTok a battu les meilleurs modèles existants :

Il reconstruit les images avec une qualité incroyable (moins de flou, plus de détails).
Il comprend les images aussi bien que les meilleurs modèles de compréhension pure.
Il permet de créer un seul "cerveau" (un grand modèle d'IA) capable de discuter d'une image et de la dessiner, sans avoir besoin de deux robots différents.

En conclusion

SemHiTok est comme un architecte qui a trouvé le moyen de construire une maison à la fois solide (compréhension) et magnifique (détails), sans avoir besoin de deux plans contradictoires. En organisant l'information de manière hiérarchique (du général au particulier), il permet à l'intelligence artificielle de voir le monde avec autant de clarté que nous, tout en ayant la capacité de le recréer pixel par pixel.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Le domaine des modèles de langage multimodaux (MLLM) vise à unifier la compréhension (analyse sémantique, réponse aux questions) et la génération (création d'images) au sein d'une seule architecture autoregressive. Cependant, une divergence fondamentale existe entre les besoins de ces deux tâches :

Compréhension : Nécessite des représentations de haut niveau (sémantiques) alignées avec le texte, souvent extraites par des encodeurs comme CLIP ou SigLIP. Ces modèles perdent souvent les détails de bas niveau (pixels, textures).
Génération : Nécessite une fidélité pixelique élevée pour reconstruire des images nettes, souvent gérée par des modèles comme VQGAN. Ces modèles manquent souvent de capacité sémantique pour la compréhension.

Les tentatives précédentes pour créer un "tokeniseur unifié" (ex: VILA-U, SDE) ont recours à des structures hybrides et à un entraînement conjoint (joint training) des pertes sémantiques et de reconstruction. Cela force le modèle à trouver un compromis sous-optimal, dégradant soit la qualité de génération, soit la capacité de compréhension. De plus, l'approche consistant à concaténer simplement deux séquences de tokens (une pour la sémantique, une pour les pixels) entraîne une inflation du nombre de tokens ou une explosion de la taille du vocabulaire, ce qui est coûteux pour les MLLM.

2. Méthodologie : SemHiTok

Les auteurs proposent SemHiTok, un tokeniseur d'images unifié basé sur une Codebook Hiérarchique Guidée par la Sémantique (SGHC - Semantic-Guided Hierarchical Codebook).

Architecture Principale

Le modèle se compose de deux branches :

Branche Sémantique : Utilise un encodeur visuel aligné sur le texte (ex: SigLIP) pour extraire des caractéristiques continues, qui sont ensuite quantifiées en tokens discrets via un codebook sémantique pré-entraîné (méthode VQKD/EMA).
Branche Pixelique (SGHC) : C'est l'innovation centrale. Au lieu d'un codebook global pour les pixels, le système utilise une structure hiérarchique :
- Chaque token sémantique (code $k$ ) est associé à un sous-codebook de pixels spécifique ( $C_{pix}^k$ ).
- La quantification des pixels se fait conditionnellement : pour un patch d'image, le sous-codebook sélectionné est déterminé par le code sémantique correspondant.
- Cela permet de modéliser l'espace des pixels comme une refinement localisé de l'espace sémantique global.

Stratégie d'Entraînement (Phasée)

Contrairement aux méthodes jointes, SemHiTok adopte un entraînement découplé et phasé :

Phase 1 : Entraînement du codebook sémantique pour capturer les informations de haut niveau (compréhension).
Phase 2 (PRE - Pixel Reconstruction Enablement) : Entraînement des sous-codebooks de pixels et du décodeur, guidés par les codes sémantiques pré-entraînés. Cela permet d'optimiser la fidélité des pixels sans perturber les représentations sémantiques.

Intégration dans le MLLM

Pour l'intégration dans un MLLM (ex: Qwen2.5), les auteurs aplatisent la structure hiérarchique. L'index final du token est calculé comme $h = i \times m + j$ (où $i$ est l'index sémantique et $j$ l'index dans le sous-codebook). Cela permet de maintenir un vocabulaire unique et compact, compatible avec les mécanismes de prédiction du prochain token standards, tout en préservant la richesse des informations. Un adaptateur Dual-MLP est utilisé pour projeter séparément les caractéristiques sémantiques et pixeliques avant de les concaténer pour l'entrée du LLM.

3. Contributions Clés

Tokeniseur Unifié Performant : SemHiTok réussit à concilier efficacement l'extraction d'informations sémantiques (pour la compréhension) et de détails texturaux (pour la génération) sans compromis majeur.
Architecture SGHC : L'introduction d'une codebook hiérarchique où les sous-codebooks de pixels sont conditionnés par la sémantique permet de résoudre le conflit d'optimisation tout en évitant l'inflation excessive du vocabulaire.
MLLM Unifié : Développement d'un modèle MLLM complet capable de surpasser les modèles spécialisés en compréhension et de rivaliser avec les modèles de génération experts, validant la polyvalence de l'approche.
Analyse Théorique et Empirique : Démonstration que les patches d'image partageant le même code sémantique possèdent intrinsèquement des similarités de pixels, justifiant l'approche hiérarchique.

4. Résultats Expérimentaux

Les expériences ont été menées sur des benchmarks standards (ImageNet-50k, LLaVA-v1.5, GenAI-Bench, MJHQ30K).

Reconstruction d'Image :
- Sur ImageNet-50k (256x256), SemHiTok atteint un rFID de 1.16, surpassant les tokeniseurs unifiés précédents comme VILA-U (1.80) et SDE (2.26), et se rapprochant des modèles de reconstruction pure comme IBQ (1.00) tout en ayant une capacité sémantique.
- À 384x384, le rFID descend à 0.66.
Compréhension Multimodale :
- Dans le cadre LLaVA-v1.5, SemHiTok obtient des résultats SOTA (State-of-the-Art) parmi les tokeniseurs discrets, surpassant TokLIP et VILA-U sur des benchmarks comme POPE, MME-P, SEED et GQA.
- Il comble le fossé entre les tokens discrets et les entrées continues (comme SigLIP).
Génération d'Images :
- Sur GenAI-Bench, le modèle obtient des scores compétitifs (0.83 Basic, 0.64 Advanced), rivalisant avec des modèles spécialisés comme Liquid.
- Sur MJHQ30K, il atteint un gFID de 5.40 (256x256), établissant un nouveau record pour la génération d'images autoregressive unifiée, surpassant des modèles diffusionnels comme SDXL (9.55) et SD v2.1.

5. Signification et Impact

SemHiTok représente une avancée significative dans la recherche sur les modèles multimodaux unifiés.

Efficacité Structurelle : Il démontre qu'il n'est pas nécessaire d'utiliser des architectures complexes à double encodeur ou des entraînements conjoints instables pour unifier compréhension et génération. La structure hiérarchique offre une voie plus stable et efficace.
Scalabilité : En évitant l'explosion du vocabulaire et en maintenant une représentation discrète unique, SemHiTok facilite l'intégration dans les grands modèles de langage existants.
Futur de l'IA Multimodale : Ce travail ouvre la voie à des modèles "tout-en-un" capables de raisonner sur des images et de les générer avec une haute fidélité, réduisant la fragmentation actuelle entre les modèles de compréhension (VLM) et de génération (Diffusion/AR).

En résumé, SemHiTok résout le dilemme "sémantique vs pixel" par une ingénierie intelligente de l'espace de quantification, offrant un compromis optimal pour la prochaine génération de MLLM unifiés.