A Simple Baseline for Unifying Understanding, Generation, and Editing via Vanilla Next-token Prediction

Este trabajo presenta Wallaroo, un modelo autoregresivo sencillo que unifica la comprensión, generación y edición multimodal mediante predicción de tokens siguientes, soportando múltiples resoluciones e idiomas, y demostrando un rendimiento competitivo en diversos benchmarks.

Jie Zhu, Hanghang Ma, Jia Wang, Yayong Guan, Yanbing Zeng, Lishuai Gao, Junqiang Wu, Jie Hu, Leye Wang

Publicado 2026-03-06
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que quieres construir un "supercerebro" de inteligencia artificial que no solo pueda ver y entender el mundo (como un humano), sino que también pueda crear nuevas imágenes desde cero y modificar las existentes, todo en un solo lugar.

Antes de este trabajo, la mayoría de las IAs eran como especialistas: unas eran excelentes entendiendo fotos, otras geniales pintando cuadros, pero pocas podían hacer las tres cosas a la vez sin confundirse.

Aquí te explico qué es Wallaroo, el "supercerebro" que presentan en este informe, usando una analogía sencilla:

🎨 La Analogía del "Chef Polifacético"

Imagina un restaurante.

  • El modelo antiguo (Difusión): Era como tener un chef que solo sabe cocinar platos complejos (crear imágenes) pero necesita que otro chef le explique qué ingredientes hay en la mesa (entender la imagen). No hablan bien entre sí.
  • Wallaroo: Es un chef maestro que tiene una sola receta base: "Predecir el siguiente ingrediente".

En lugar de tener dos cerebros separados, Wallaroo usa un solo cerebro que funciona como un lector de libros. Si le das una foto y una pregunta, "lee" la foto palabra por palabra (o píxel por píxel) y escribe la respuesta. Si le das una descripción, "escribe" la imagen píxel por píxel. Si le das una foto y un pedido de cambio, "reescribe" la parte de la foto que necesitas.

🚀 ¿Cómo funciona Wallaroo? (La Magia Simplificada)

El equipo de investigadores (de la Universidad de Pekín y Meituan) tomó un modelo de lenguaje muy inteligente (llamado Qwen2.5 VL) y le dio tres superpoderes nuevos, pero manteniendo las cosas simples:

  1. Dos Caminos Diferentes para los Ojos:

    • Para entender una foto (decirte qué hay en ella), usa sus "gafas normales" (NaViT), que ven el contexto general.
    • Para crear una foto, usa unas "gafas de pixelado" (un tokenizador VQ). Imagina que convierte la foto en un rompecabezas de piezas discretas (códigos) para poder "escribirla" de nuevo.
    • ¿Por qué? Porque entender y crear requieren ver las cosas de forma distinta. Separar estos caminos evita que el chef se maree.
  2. El Entrenamiento de 4 Etapas (El Gimnasio del Chef):
    No aprendieron todo de golpe. Lo hicieron paso a paso:

    • Paso 1: Le enseñaron a crear imágenes simples.
    • Paso 2: Le enseñaron a entender y crear al mismo tiempo (como leer y escribir a la vez).
    • Paso 3: Le enseñaron a trabajar con fotos de diferentes tamaños (desde pequeñas hasta grandes) y en diferentes idiomas (chino e inglés).
    • Paso 4: Le dieron un entrenamiento final de "edición" para que aprendiera a cambiar cosas en una foto existente (como borrar un objeto o cambiar el fondo).
  3. El Truco de la Edición:
    Para editar, Wallaroo es muy astuto. Mira la foto original con sus "gafas normales" (para entender el significado) y con sus "gafas de pixelado" (para ver los detalles finos). Combina ambas visiones para saber exactamente qué cambiar sin arruinar el resto de la imagen.

🏆 ¿Qué tan bueno es?

Los resultados son impresionantes:

  • Entendimiento: Es tan bueno como los mejores modelos que solo entienden imágenes.
  • Generación: Puede crear imágenes muy buenas, aunque los modelos dedicados solo a pintar (como los que usan "difusión") aún tienen un ligero ventaja en detalles ultra-realistas.
  • Edición: ¡Aquí brilla! Supera a muchos modelos especializados en editar fotos, logrando cambios muy naturales.

💡 ¿Por qué es importante?

Wallaroo demuestra que no necesitas máquinas complejas y separadas para hacer todo. Con una arquitectura simple (solo predecir el siguiente "token" o pieza de información), puedes unificar la comprensión, la creación y la edición.

Es como si descubrieran que un solo instrumento musical (un piano) puede tocar música clásica, jazz y rock, en lugar de necesitar un violín, una batería y una guitarra por separado.

⚠️ Un pequeño detalle a mejorar

Actualmente, el usuario tiene que decirle manualmente al modelo: "Oye, ahora quiero que me describas esta foto" o "Ahora quiero que edites esta otra". El modelo no decide automáticamente qué "botón" apretar. El equipo sugiere que en el futuro, el modelo debería ser tan inteligente que sepa por sí mismo qué tarea hacer según el contexto.

En resumen: Wallaroo es un paso gigante hacia una Inteligencia Artificial General (AGI) que ve, entiende, crea y modifica el mundo visual todo en uno, usando una lógica simple pero poderosa: predecir lo que sigue.