A Simple Baseline for Unifying Understanding, Generation, and Editing via Vanilla Next-token Prediction

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um super-herói da criatividade chamado Wallaroo. Até agora, a maioria dos "heróis" de inteligência artificial tinha um problema: eles eram especialistas em uma coisa, mas ruins em outras.

Alguns eram ótimos em olhar uma foto e descrevê-la (entendimento), mas não conseguiam criar novas imagens.
Outros eram mestres em pintar quadros do zero (geração), mas não conseguiam entender o que estava na tela.
E editar fotos? Era como pedir para um pintor renascentista consertar uma mancha de café em uma foto digital: eles não sabiam como fazer.

O Wallaroo é diferente. Ele é o primeiro "faz-tudo" que usa uma única técnica simples para fazer tudo isso ao mesmo tempo: entender, criar e editar.

Aqui está como ele funciona, usando analogias do dia a dia:

1. O Segredo: "Adivinhar a Próxima Palavra"

A maioria dos modelos complexos tenta usar duas ferramentas diferentes ao mesmo tempo (como tentar dirigir um carro e pilotar um avião simultaneamente). O Wallaroo, no entanto, usa uma abordagem muito mais simples e natural: prever o próximo item.

Imagine que você está contando uma história para um amigo. Você diz: "Era uma vez um gato que..." e seu amigo sabe que a próxima palavra provavelmente será algo como "pulou" ou "dormiu". O Wallaroo faz exatamente isso, mas com imagens e palavras misturadas. Ele olha para o que já foi dito ou desenhado e adivinha o que vem a seguir, seja uma palavra ou um pedaço de imagem.

2. A Estrutura: Duas Cozinhas, Um Chef

O Wallaroo foi construído sobre um cérebro muito inteligente chamado Qwen2.5 VL (que já era ótimo em entender o mundo). Mas, para poder criar imagens, os autores fizeram uma mudança inteligente:

Para Entender: Eles deixaram o cérebro usar sua cozinha original, onde ele analisa a imagem como um todo (como um crítico de arte).
Para Criar: Eles adicionaram uma nova cozinha especial. Aqui, a imagem não é vista como um quadro inteiro, mas como um quebra-cabeça de pequenos blocos (chamados de "tokens"). O Wallaroo pega esses blocos e os transforma em uma lista de códigos, como se estivesse escrevendo uma receita de bolo.

Essa separação é crucial. É como ter um tradutor que transforma a imagem em uma lista de ingredientes (códigos) para o chef (o modelo) poder reescrevê-la do zero, sem se confundir com a análise crítica.

3. O Treinamento: Os 4 Passos do Mestre Culinário

Para transformar esse modelo em um gênio, eles não jogaram tudo de uma vez. Foi um treinamento em 4 etapas, como um estágio de chef:

Aquecimento: O modelo aprende apenas a "pintar" a partir de receitas simples (imagens básicas).
A Fusão: Agora, ele estuda livros de arte (entendimento) e receitas (geração) ao mesmo tempo. Ele aprende a conectar o que vê com o que cria.
A Versatilidade: O modelo aprende a lidar com tamanhos diferentes. Antes, ele só pintava quadros quadrados. Agora, ele aprende a pintar retratos, paisagens longas e tudo no meio, usando "dicas" especiais no texto para saber o tamanho desejado.
O Mestre Polímata: Finalmente, ele aprende a editar. Aqui, ele usa uma técnica especial: ele olha para a imagem original e para a nova receita ao mesmo tempo, aprendendo a trocar apenas o que é necessário (como trocar o chapéu de um personagem sem mudar o rosto).

4. O Que Ele Consegue Fazer?

O Wallaroo é impressionante porque:

Fala duas línguas: Ele entende e cria imagens tanto em Português quanto em Inglês (e Chinês).
Tamanhos variados: Você pode pedir uma imagem pequena ou grande, e ele se adapta.
Resultados: Nos testes, ele bateu ou empatou com os melhores modelos do mundo que fazem apenas uma dessas coisas. Ele não é o melhor em tudo (ainda perde um pouco para modelos que só pintam e usam uma técnica diferente chamada "difusão"), mas é o melhor equilíbrio entre entender, criar e editar em um único pacote.

5. O Desafio e o Futuro

O único " defeito" atual é que, como ele transforma imagens em códigos (quebra-cabeças), às vezes os detalhes finos (como a textura da pele ou fios de cabelo) podem ficar um pouco menos nítidos do que em pinturas feitas por modelos mais complexos. É como desenhar com pontos de pixel: fica ótimo de longe, mas perde um pouco de suavidade de perto.

Os autores sugerem que, no futuro, podemos usar o Wallaroo como um "rascunho" e depois usar uma ferramenta de polimento para deixar a imagem perfeita.

Resumo Final

O Wallaroo é como um canivete suíço da Inteligência Artificial. Em vez de ter ferramentas separadas para analisar, desenhar e consertar, ele é uma única ferramenta que faz tudo com uma lógica simples: "o que vem a seguir?". Isso prova que, às vezes, a solução mais simples e unificada pode ser a mais poderosa de todas.

Each language version is independently generated for its own context, not a direct translation.

Título: Uma Linha de Base Simples para Unificar Compreensão, Geração e Edição via Predição de Próximo Token "Vanilla"

1. Problema e Contexto

O campo da inteligência artificial multimodal tem visto um esforço crescente para unificar a compreensão (análise de imagem e texto) e a geração (criação de imagens) em um único modelo. As abordagens atuais geralmente se enquadram em três categorias, cada uma com limitações:

Codificadores Condicionais Aprimorados: Usam modelos de compreensão como condicionantes para geradores de difusão. Isso cria um fluxo de informação unidirecional (da compreensão para a geração), limitando a interação.
Integração de Autoregressivo e Difusão: Combinam os dois paradigmas dentro de Transformers. No entanto, a presença de ruído na representação de difusão reduz a eficiência da interação de informações.
Predição de Próximo Token (Autoregressivo): Promete alta eficiência e simplicidade estrutural, mas modelos anteriores muitas vezes sofriam com desempenho visual inferior ou conflitos entre as tarefas de compreensão e geração.

O objetivo deste trabalho é investigar se uma abordagem puramente autoregressiva, baseada na predição de próximo token, pode unificar eficazmente a compreensão multimodal, a geração de imagens e a edição de imagens sem sacrificar significativamente o desempenho em nenhuma das tarefas.

2. Metodologia: O Modelo Wallaroo

O Wallaroo é uma linha de base autoregressiva simples construída sobre o Qwen2.5 VL (um modelo de linguagem multimodal de 7B parâmetros). A arquitetura e o treinamento seguem os seguintes princípios:

Arquitetura e Decoplamento Visual:
- Para Compreensão: Mantém o codificador visual nativo (NaViT) do Qwen2.5 VL.
- Para Geração: Adiciona um tokenizador VQ (VQVAE) baseado no LlamaGen para converter imagens em IDs discretos. O codificador visual é decoplado em caminhos separados para evitar conflitos entre a representação de alto nível (compreensão) e baixo nível (geração).
- Para Edição: Utiliza uma abordagem híbrida, combinando as representações do NaViT (semântica/alto nível) e do tokenizador VQ (detalhes/baixo nível) para capturar tanto o contexto quanto os detalhes finos necessários para edições precisas.
- Heads (Cabeças) Específicas: O modelo utiliza cabeças separadas para texto, geração de imagem e edição para evitar conflitos de perda durante o treinamento.
Estratégia de Treinamento em Quatro Estágios:
1. Alinhamento Preliminar de Geração: Ajuste fino do adaptador MLP de geração e da cabeça de geração, congelando o restante do modelo.
2. Pré-treinamento Conjunto (Compreensão + Geração): Treinamento conjunto em dados de compreensão multimodal e texto-para-imagem para alinhar os espaços de representação.
3. Escala de Tamanho e Adaptação Multi-resolução: Aumento do tamanho da imagem de 384x384 para 512x512 e introdução de tokens especiais (<hw_info>, <eol>) para suportar múltiplas resoluções e quebras de linha na geração.
4. Ajuste Fino Unificado: Treinamento final em um conjunto de dados que inclui compreensão, geração e edição (com máscaras aleatórias de 60% nos dados de edição para forçar a geração e não apenas cópia).
Objetivo de Treinamento: Utiliza apenas a perda de predição de próximo token ( $L = -\sum \log P(x_i|x_{<i})$ ) com pesos iguais para todas as tarefas, sem mecanismos complexos de difusão.

3. Contribuições Principais

Unificação Pura: O Wallaroo é um dos primeiros esforços a unificar compreensão, geração e edição em um único modelo autoregressivo simples, sem depender de etapas de difusão.
Suporte Multilíngue e Multi-resolução: O modelo suporta nativamente entrada e saída de imagens em múltiplas resoluções e opera em dois idiomas (Chinês e Inglês).
Simplicidade e Eficiência: Demonstra que a decoplação inteligente dos caminhos de codificação visual e uma estratégia de treinamento em quatro estágios são suficientes para obter desempenho competitivo, evitando a complexidade de modelos híbridos difusivos.

4. Resultados Experimentais

Os experimentos foram realizados em diversos benchmarks de ponta:

Compreensão Multimodal: O Wallaroo alcançou desempenho competitivo, superando a maioria dos modelos unificados anteriores (como Janus-Pro, Mogao, OmniGen2) em benchmarks como MMB, POPE e MME. Ele manteve a capacidade de compreensão do Qwen2.5 VL original, embora tenha havido uma leve degradação em alguns benchmarks específicos devido à integração da geração.
Geração de Imagem (GenEval e DPG): O modelo obteve resultados competitivos em relação a outros modelos autoregressivos (como Janus-Pro e Show-o2), superando-os em certas métricas. No entanto, reconhece-se que ele ainda fica atrás dos modelos baseados em difusão (como OmniGen2 e BAGEL) em termos de qualidade de detalhes, devido à perda inerente da quantização vetorial (VQ).
Edição de Imagem (ImgEdit): O Wallaroo obteve um desempenho geral de 2.92, superando a maioria dos modelos de geração/edição puros (como AnyEdit e OmniGen) e competindo bem com modelos unificados. Curiosamente, o desempenho de edição foi inferior ao do Janus-4o, que foca exclusivamente em geração e edição, sugerindo que a inclusão da compreensão pode introduzir desafios de otimização.

5. Significado e Conclusão

O trabalho do Wallaroo é significativo por validar o potencial de modelos autoregressivos puros para unificar tarefas multimodais complexas.

Descobertas Chave: A pesquisa sugere que a decoplação dos caminhos de codificação visual é crucial para evitar conflitos entre compreensão e geração. Além disso, a edição parece ser um "elo" eficaz que conecta as representações de alto e baixo nível.
Limitações: O modelo ainda sofre com a perda de detalhes de imagem devido à quantização vetorial (VQ) e requer que o usuário selecione manualmente a "cabeça" (função) desejada, o que limita a inteligência dinâmica do sistema.
Futuro: Os autores sugerem que o uso de tokenizadores VQ mais potentes ou a integração de difusão como pós-processamento podem resolver as limitações de qualidade de imagem. Além disso, a ordem dos tokens e os esquemas de codificação posicional são fatores críticos para o desempenho na edição.

Em resumo, o Wallaroo estabelece uma nova linha de base simples e eficaz, provando que a predição de próximo token é uma via viável e promissora para a próxima geração de modelos de inteligência artificial multimodal unificados.

A Simple Baseline for Unifying Understanding, Generation, and Editing via Vanilla Next-token Prediction

1. O Segredo: "Adivinhar a Próxima Palavra"

2. A Estrutura: Duas Cozinhas, Um Chef

3. O Treinamento: Os 4 Passos do Mestre Culinário

4. O Que Ele Consegue Fazer?

5. O Desafio e o Futuro

Resumo Final

Título: Uma Linha de Base Simples para Unificar Compreensão, Geração e Edição via Predição de Próximo Token "Vanilla"

1. Problema e Contexto

2. Metodologia: O Modelo Wallaroo

3. Contribuições Principais

4. Resultados Experimentais

5. Significado e Conclusão

Mais como este

Founder effects shape the evolutionary dynamics of multimodality in open LLM families

From Instructions to Assistance: a Dataset Aligning Instruction Manuals with Assembly Videos for Evaluating Multimodal LLMs

Causal Direct Preference Optimization for Distributionally Robust Generative Recommendation

Graphs RAG at Scale: Beyond Retrieval-Augmented Generation With Labeled Property Graphs and Resource Description Framework for Complex and Unknown Search Spaces

T-MAP: Red-Teaming LLM Agents with Trajectory-aware Evolutionary Search