UniWeTok: An Unified Binary Tokenizer with Codebook Size $\mathit{2^{128}}$ for Unified Multimodal Large Language Model

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que quieres enseñarle a un robot a "ver" y "crear" imágenes al mismo tiempo, como si fuera un artista que también es un crítico de arte. El problema es que las imágenes son como océanos de píxeles (millones de puntos de color), y para que el robot las entienda, necesita comprimirlas en algo más pequeño, como un resumen.

Aquí es donde entra UniWeTok, el protagonista de este paper. Vamos a explicarlo con una analogía sencilla:

1. El Problema: El Dilema del "Resumen Perfecto"

Imagina que tienes que describir una foto compleja (un gato durmiendo en una ventana) a un amigo por teléfono.

Opción A (Reconstrucción): Intentas describir cada pelo del gato y cada rayo de luz. ¡Tu amigo puede "ver" la foto mentalmente, pero tardas horas y te agotas! (Esto es lo que hacen los modelos antiguos: muy detallados, pero lentos y pesados).
Opción B (Semántica): Solo dices: "Es un gato durmiendo". Es rápido y entiende la idea, pero tu amigo no puede "dibujar" la foto exacta porque le faltan los detalles. (Esto es lo que hacen otros modelos: entienden el concepto, pero no pueden recrear la imagen).

Los modelos anteriores tenían que elegir: o eran buenos para reconstruir la imagen (detalle) o para entenderla (significado), pero no para las dos cosas a la vez.

2. La Solución: UniWeTok, el "Diccionario de Código Binario Gigante"

UniWeTok es como un diccionario secreto que traduce cualquier imagen en una secuencia de códigos binarios (ceros y unos).

El Código Binario (2^128): Imagina que tienes un diccionario con 2 elevado a 128 palabras. ¡Es un número tan grande que es casi infinito! Cada "palabra" (o token) en este diccionario es un bloque de información súper denso.
- La analogía: En lugar de usar 256 palabras para describir una foto (como los modelos viejos), UniWeTok usa solo 64 palabras porque cada una de esas palabras contiene una cantidad de información masiva. Es como si en lugar de escribir un libro entero, pudieras resumir toda la historia en un solo párrafo muy denso y rico en significado.

3. ¿Cómo logra hacer esto? (Los Trucos del Maestro)

Para que este "diccionario gigante" funcione y no se vuelva loco, los autores usaron tres trucos ingeniosos:

A. El Entrenamiento con "Maestros" (Distilación Pre-Post)

Imagina que estás aprendiendo a pintar.

El Maestro Pre: Antes de pintar, un profesor experto te dice: "Mira, esto es un gato, no un perro". Te da el contexto.
El Maestro Post: Después de pintar, el profesor mira tu obra y dice: "Muy bien, captaste la esencia, pero aquí falta un poco de luz".
UniWeTok usa dos "maestros" (redes neuronales pre-entrenadas) para enseñarle al modelo: uno antes de comprimir la imagen y otro después. Así, el modelo aprende no solo a guardar los datos, sino a entender el significado de lo que ve.

B. El "Freno de Seguridad" (Activación SigLu)

A veces, cuando intentas comprimir tanto, el modelo se vuelve inestable (como un coche que acelera sin control).

La analogía: Imagina que el modelo está intentando empujar la información hacia los extremos (demasiado positivo o demasiado negativo).
La solución: Introdujeron una función llamada SigLu. Es como poner un freno de seguridad o un "cinturón de seguridad" que obliga a la información a quedarse en un rango seguro (entre -1 y 1). Esto evita que el modelo se desborde y le permite aprender de forma estable, incluso con ese diccionario gigante.

C. El Entrenamiento por Niveles (Curriculum Learning)

No puedes enseñar a un niño a correr una maratón el primer día.

Fase 1: Entrenan con imágenes pequeñas y simples (256x256 píxeles).
Fase 2: Aumentan el tamaño y la variedad (imágenes de diferentes resoluciones).
Fase 3: Se enfocan en lo difícil: rostros humanos y texto.
Este proceso paso a paso asegura que el modelo sea experto en todo, desde una foto borrosa hasta un retrato detallado con letras pequeñas.

4. Los Resultados: ¿Por qué es un cambio de juego?

UniWeTok no solo es inteligente, es eficiente.

Velocidad y Ahorro: Para entrenar a un modelo similar (llamado REPA), necesitaron procesar 262 mil millones de tokens (palabras de datos). UniWeTok logró resultados mejores usando solo 33 mil millones. ¡Es como si aprendieras a tocar el piano en un mes en lugar de en diez años!
Calidad:
- Para crear imágenes: Genera fotos más realistas que los modelos actuales más famosos (como FLUX.1).
- Para entender imágenes: Responde preguntas sobre fotos, lee texto dentro de imágenes y entiende diagramas científicos mejor que muchos modelos especializados.
- Para editar: Puedes decirle "cambia el fondo por el océano" o "haz que el elefante sea de ladrillo", y lo hace con precisión.

En Resumen

UniWeTok es como un traductor universal que convierte imágenes en un lenguaje de código binario súper compacto y rico en significado. Gracias a sus "maestros" de entrenamiento, su "freno de seguridad" y su entrenamiento paso a paso, logra que una sola inteligencia artificial pueda ver, entender, crear y editar imágenes con una calidad y eficiencia que antes parecía imposible.

Es el primer paso real hacia una "IA unificada" que no necesita ser dos robots diferentes (uno para ver y otro para dibujar), sino un solo cerebro que hace todo perfectamente.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: UniWeTok

1. El Problema

Los Modelos de Lenguaje Multimodal Unificados (MLLMs) requieren una representación visual que satisfaga simultáneamente tres objetivos a menudo conflictivos:

Reconstrucción de alta fidelidad: Capacidad de recuperar detalles finos y texturas.
Extracción semántica compleja: Capacidad de capturar conceptos abstractos para tareas de comprensión.
Adecuación generativa: Capacidad de servir como base para la generación autoregresiva de imágenes.

Los tokenizadores visuales existentes suelen fallar en equilibrar estos objetivos dentro de un solo marco. Los tokenizadores continuos sufren de acumulación de errores y colapso de modos durante la generación autoregresiva. Por otro lado, los tokenizadores discretos tradicionales han tenido capacidades de reconstrucción limitadas (pérdida de información) y, aunque métodos recientes han escalado el tamaño del código (codebook) a $2^{128}$ (como WeTok), estos enfoques a menudo carecen de información semántica útil o son difíciles de optimizar para tareas de generación y comprensión simultáneas. Además, el tamaño masivo del códigobook introduce complejidades para las tareas de generación aguas abajo.

2. Metodología

Los autores proponen UniWeTok, un tokenizador discreto unificado diseñado para cerrar esta brecha mediante un códigobook binario masivo ($2^{128}$) y un marco de entrenamiento innovador.

A. Arquitectura del Modelo

Backbone Híbrido: Utiliza una arquitectura que combina bloques residuales convolucionales (para inductores locales y detalles de textura) con bloques de transformadores (para el campo receptivo global y contexto). Esto supera las limitaciones de usar solo CNNs (falta de semántica) o solo Transformers (dificultad con detalles).
Activación SigLu: Se introduce una función de activación específica, SigLu ( $SigLu(x) = \frac{1-e^x}{1+e^x}$ $S i g Lu (x) = \frac{1 - e ^{x}}{1 + e ^{x}}$ ), en la capa final del codificador.
- Función: Restringe la salida del codificador al intervalo $[-1, 1]$ .
- Beneficio: Resuelve el conflicto de optimización entre la pérdida de entropía de los tokens (que empuja los valores hacia infinito) y la pérdida de compromiso (commitment loss), estabilizando el proceso de destilación semántica.
Downsampling: Logra una reducción espacial de 32×, comprimiendo una imagen en solo 64 tokens (para 256x256), reduciendo la longitud de la secuencia en un 75% comparado con otros tokenizadores.

B. Marco de Entrenamiento
El entrenamiento se basa en tres componentes clave para mejorar la capacidad semántica y la priorización generativa:

Destilación Pre-Post (Pre-Post Distillation - PPD):
- Utiliza un codificador semántico pre-entrenado (como un ViT) como "maestro".
- Aplica pérdida de similitud coseno tanto en las características del codificador antes de la cuantización (Pre) como después (Post).
- Esto asegura que los tokens discretos retengan información semántica profunda, no solo información de píxeles.
Prior Consciente de la Generación (Generative-Aware Prior - GAP):
- Introduce un modelo generativo ligero (basado en BitDance) durante el entrenamiento.
- El tokenizador aprende a predecir el siguiente token en una tarea de difusión, lo que inyecta una "prior" generativa en el espacio latente.
- Esto facilita que los tokens discretos sean adecuados para la generación autoregresiva posterior.
Pipeline de Entrenamiento en Tres Etapas:
- Etapa 1: Pre-entrenamiento a gran escala en resolución fija (256x256) para eficiencia.
- Etapa 2: Entrenamiento continuo con múltiples resoluciones para adaptabilidad.
- Etapa 3: Ajuste fino (annealing) en dominios sensibles a la percepción (rostros humanos, texto) para mejorar la calidad en casos de uso específicos.

3. Contribuciones Clave

Tokenizador Unificado con Código Masivo: Es el primer enfoque que integra exitosamente un códigobook binario de tamaño $2^{128}$ con capacidades robustas de extracción semántica y generación, superando la limitación de que los códigos grandes carecían de utilidad semántica.
Mecanismos de Estabilización (SigLu y PPD): La introducción de la activación SigLu y la estrategia de destilación Pre-Post resuelven los problemas de convergencia y pérdida de semántica en tokenizadores binarios de alta capacidad.
Eficiencia Computacional: Logra un rendimiento de generación de clase a imagen (class-to-image) superior con una fracción del costo de entrenamiento.
Modelo MLLM Unificado: Demuestra que un único tokenizador puede alimentar un MLLM capaz de realizar comprensión multimodal, generación de imágenes y edición de imágenes con un solo paradigma de predicción de siguiente token.

4. Resultados

Los experimentos demuestran que UniWeTok establece nuevos estándares (SOTA) en múltiples frentes:

Generación de Imágenes (ImageNet):
- Logra un FID de 1.38 (superando a REPA con 1.42).
- Eficiencia: Requiere entrenar solo con 33B de tokens, comparado con los 262B necesarios para REPA.
- Reduce la cantidad de tokens visuales en un 75% (64 tokens vs 256).
Comprensión Multimodal:
- El modelo unificado (UniWeTok-Chat) muestra capacidades competitivas en benchmarks como SEEDB, POPE, VQAv2 y MMMU, superando a modelos anteriores que separaban la codificación de comprensión y generación.
Generación de Texto a Imagen:
- En el benchmark DPG, obtiene una puntuación de 86.63, superando a FLUX.1 [Dev] (83.84).
Edición de Imágenes:
- En GEdit, logra una puntuación global de 5.09, superando a OmniGen (5.06), demostrando que el enfoque autoregresivo unificado es viable para tareas de edición complejas.

5. Significado e Impacto

UniWeTok representa un avance fundamental en la arquitectura de modelos multimodales. Al demostrar que es posible unificar la compresión robusta, la extracción semántica y la priorización generativa en un solo tokenizador discreto, elimina la necesidad de arquitecturas híbridas complejas que separan la comprensión de la generación (como usar un VQ-VAE para entender y un Diffusion para generar).

Su capacidad para operar con un códigobook masivo ($2^{128}$) sin sacrificar la calidad semántica o la estabilidad de entrenamiento sugiere que el futuro de los MLLMs unificados puede basarse en una representación visual discreta altamente eficiente. Esto no solo reduce drásticamente los costos computacionales de entrenamiento e inferencia, sino que también simplifica el diseño de modelos, permitiendo que un solo sistema maneje tareas de visión complejas (OCR, razonamiento espacial, edición) con una coherencia superior.

El código y los modelos están disponibles públicamente, facilitando la exploración comunitaria de tokenizadores unificados para la próxima generación de IA multimodal.

UniWeTok: An Unified Binary Tokenizer with Codebook Size 2128\mathit{2^{128}}2128 for Unified Multimodal Large Language Model