A Simple Baseline for Unifying Understanding, Generation, and Editing via Vanilla Next-token Prediction

O artigo apresenta o Wallaroo, uma linha de base simples baseada em previsão de próximo token que unifica compreensão, geração e edição multimodais, suportando múltiplas resoluções e os idiomas chinês e inglês, com desempenho competitivo em diversos benchmarks.

Jie Zhu, Hanghang Ma, Jia Wang, Yayong Guan, Yanbing Zeng, Lishuai Gao, Junqiang Wu, Jie Hu, Leye Wang

Publicado 2026-03-06
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um super-herói da criatividade chamado Wallaroo. Até agora, a maioria dos "heróis" de inteligência artificial tinha um problema: eles eram especialistas em uma coisa, mas ruins em outras.

  • Alguns eram ótimos em olhar uma foto e descrevê-la (entendimento), mas não conseguiam criar novas imagens.
  • Outros eram mestres em pintar quadros do zero (geração), mas não conseguiam entender o que estava na tela.
  • E editar fotos? Era como pedir para um pintor renascentista consertar uma mancha de café em uma foto digital: eles não sabiam como fazer.

O Wallaroo é diferente. Ele é o primeiro "faz-tudo" que usa uma única técnica simples para fazer tudo isso ao mesmo tempo: entender, criar e editar.

Aqui está como ele funciona, usando analogias do dia a dia:

1. O Segredo: "Adivinhar a Próxima Palavra"

A maioria dos modelos complexos tenta usar duas ferramentas diferentes ao mesmo tempo (como tentar dirigir um carro e pilotar um avião simultaneamente). O Wallaroo, no entanto, usa uma abordagem muito mais simples e natural: prever o próximo item.

Imagine que você está contando uma história para um amigo. Você diz: "Era uma vez um gato que..." e seu amigo sabe que a próxima palavra provavelmente será algo como "pulou" ou "dormiu". O Wallaroo faz exatamente isso, mas com imagens e palavras misturadas. Ele olha para o que já foi dito ou desenhado e adivinha o que vem a seguir, seja uma palavra ou um pedaço de imagem.

2. A Estrutura: Duas Cozinhas, Um Chef

O Wallaroo foi construído sobre um cérebro muito inteligente chamado Qwen2.5 VL (que já era ótimo em entender o mundo). Mas, para poder criar imagens, os autores fizeram uma mudança inteligente:

  • Para Entender: Eles deixaram o cérebro usar sua cozinha original, onde ele analisa a imagem como um todo (como um crítico de arte).
  • Para Criar: Eles adicionaram uma nova cozinha especial. Aqui, a imagem não é vista como um quadro inteiro, mas como um quebra-cabeça de pequenos blocos (chamados de "tokens"). O Wallaroo pega esses blocos e os transforma em uma lista de códigos, como se estivesse escrevendo uma receita de bolo.

Essa separação é crucial. É como ter um tradutor que transforma a imagem em uma lista de ingredientes (códigos) para o chef (o modelo) poder reescrevê-la do zero, sem se confundir com a análise crítica.

3. O Treinamento: Os 4 Passos do Mestre Culinário

Para transformar esse modelo em um gênio, eles não jogaram tudo de uma vez. Foi um treinamento em 4 etapas, como um estágio de chef:

  1. Aquecimento: O modelo aprende apenas a "pintar" a partir de receitas simples (imagens básicas).
  2. A Fusão: Agora, ele estuda livros de arte (entendimento) e receitas (geração) ao mesmo tempo. Ele aprende a conectar o que vê com o que cria.
  3. A Versatilidade: O modelo aprende a lidar com tamanhos diferentes. Antes, ele só pintava quadros quadrados. Agora, ele aprende a pintar retratos, paisagens longas e tudo no meio, usando "dicas" especiais no texto para saber o tamanho desejado.
  4. O Mestre Polímata: Finalmente, ele aprende a editar. Aqui, ele usa uma técnica especial: ele olha para a imagem original e para a nova receita ao mesmo tempo, aprendendo a trocar apenas o que é necessário (como trocar o chapéu de um personagem sem mudar o rosto).

4. O Que Ele Consegue Fazer?

O Wallaroo é impressionante porque:

  • Fala duas línguas: Ele entende e cria imagens tanto em Português quanto em Inglês (e Chinês).
  • Tamanhos variados: Você pode pedir uma imagem pequena ou grande, e ele se adapta.
  • Resultados: Nos testes, ele bateu ou empatou com os melhores modelos do mundo que fazem apenas uma dessas coisas. Ele não é o melhor em tudo (ainda perde um pouco para modelos que só pintam e usam uma técnica diferente chamada "difusão"), mas é o melhor equilíbrio entre entender, criar e editar em um único pacote.

5. O Desafio e o Futuro

O único " defeito" atual é que, como ele transforma imagens em códigos (quebra-cabeças), às vezes os detalhes finos (como a textura da pele ou fios de cabelo) podem ficar um pouco menos nítidos do que em pinturas feitas por modelos mais complexos. É como desenhar com pontos de pixel: fica ótimo de longe, mas perde um pouco de suavidade de perto.

Os autores sugerem que, no futuro, podemos usar o Wallaroo como um "rascunho" e depois usar uma ferramenta de polimento para deixar a imagem perfeita.

Resumo Final

O Wallaroo é como um canivete suíço da Inteligência Artificial. Em vez de ter ferramentas separadas para analisar, desenhar e consertar, ele é uma única ferramenta que faz tudo com uma lógica simples: "o que vem a seguir?". Isso prova que, às vezes, a solução mais simples e unificada pode ser a mais poderosa de todas.