GoT-R1: Unleashing Reasoning Capability of MLLM for Visual Generation with Reinforcement Learning

O artigo apresenta o GoT-R1, um framework que utiliza aprendizado por reforço e um sistema de recompensa dual para aprimorar o raciocínio semântico-espacial de modelos de geração visual, resultando em melhorias significativas na criação de imagens complexas com relações espaciais precisas.

Autores originais: Chengqi Duan, Rongyao Fang, Yuqing Wang, Kun Wang, Linjiang Huang, Xingyu Zeng, Hongsheng Li, Xihui Liu

Publicado 2026-04-14
📖 4 min de leitura☕ Leitura rápida

Esta é uma explicação gerada por IA do artigo abaixo. Não foi escrita nem endossada pelos autores. Para precisão técnica, consulte o artigo original. Ler aviso legal completo

Each language version is independently generated for its own context, not a direct translation.

Imagine que você pediu a um artista para pintar um quadro com uma descrição muito específica: "Uma borboleta laranja voando à esquerda de uma vela acesa, com um fundo escuro e texturizado".

Se você pedir isso a um artista humano, ele primeiro pensa: "Ok, onde fica a vela? Onde fica a borboleta? De que cor é cada uma?". Ele cria um rascunho mental antes de colocar a tinta no papel.

O problema com os computadores que geram imagens hoje (chamados de modelos de geração visual) é que eles são como artistas que pulam direto para a pintura, sem fazer o rascunho. Eles tentam adivinhar a imagem inteira de uma vez só baseada apenas nas palavras. Quando o pedido é simples ("um gato"), funciona bem. Mas quando o pedido é complexo ("uma borboleta à esquerda da vela"), eles se confundem: às vezes a borboleta aparece à direita, ou a cor está errada, ou os dois objetos se misturam.

O que é o GoT-R1?

O GoT-R1 é uma nova técnica que ensina o computador a fazer exatamente o que o artista humano faz: pensar antes de agir.

Aqui está a analogia principal para entender como funciona:

1. O "Rascunho" (Cadeia de Pensamento)

Antes de gerar a imagem final, o modelo GoT-R1 escreve um "rascunho" ou um "mapa". Ele diz para si mesmo:

"Ok, primeiro vou desenhar uma vela no centro. Suas coordenadas são X e Y. Agora, vou desenhar uma borboleta. O pedido diz 'à esquerda', então vou colocar a borboleta nas coordenadas que ficam à esquerda da vela."

Isso é chamado de Cadeia de Pensamento de Geração (Generation Chain-of-Thought). O modelo não apenas "adivinha" a imagem; ele planeja a lógica dela.

2. O "Treinador" (Reinforcement Learning)

Aqui está a parte genial do GoT-R1. Antigamente, os computadores aprendiam esse "rascunho" apenas copiando exemplos feitos por humanos (como um aluno copiando do quadro). O problema é que o aluno fica preso ao jeito que o professor fez, sem criar soluções melhores.

O GoT-R1 usa uma técnica chamada Aprendizado por Reforço (Reinforcement Learning). Imagine um treinador de cachorro muito inteligente:

  • O computador tenta gerar uma imagem e um rascunho.
  • O treinador (que é um outro modelo de IA super esperto) olha o resultado.
  • Se o computador colocou a borboleta à direita em vez da esquerda, o treinador dá um "choque" (recompensa baixa).
  • Se o computador acertou o plano e a imagem, o treinador dá um "petisco" (recompensa alta).

Com o tempo, o computador descobre sozinho as melhores estratégias para pensar e desenhar, sem precisar que um humano lhe diga exatamente como fazer cada passo. Ele aprende a "pensar de forma criativa" para resolver problemas complexos.

3. O "Juiz" (Recompensas Múltiplas)

O que torna o GoT-R1 especial é que o "treinador" não julga apenas a imagem final. Ele julga todo o processo em quatro etapas:

  1. O Plano vs. O Pedido: O rascunho mental do computador foi fiel ao que você pediu?
  2. O Plano vs. O Espaço: O computador entendeu corretamente "esquerda", "direita", "em cima"? (Para isso, ele transforma os números das coordenadas em desenhos visuais para o treinador entender melhor).
  3. A Imagem vs. O Plano: A pintura final seguiu o rascunho que foi feito?
  4. A Imagem vs. O Pedido: A imagem final ficou bonita e correta?

Se o computador fizer um plano perfeito, mas pintar a imagem errada, ele é punido. Se ele pintar uma imagem bonita, mas o plano estava errado, ele também é punido. Isso força o modelo a ser coerente do início ao fim.

Por que isso é importante?

Antes do GoT-R1, se você pedisse "Um cachorro azul e um gato vermelho sentados em cadeiras diferentes", o computador provavelmente faria um cachorro vermelho ou misturaria os dois.

Com o GoT-R1, o computador:

  1. Pensa: "Preciso de um cachorro azul na cadeira A e um gato vermelho na cadeira B".
  2. Planeja as posições exatas.
  3. Gera a imagem seguindo esse plano rigoroso.

O resultado: Imagens muito mais precisas, onde os objetos estão exatamente onde devem estar, com as cores e características certas, mesmo em cenários muito complicados.

Resumo em uma frase

O GoT-R1 ensina a IA a pensar como um arquiteto (fazendo um plano detalhado) e a aprender como um atleta (recebendo feedback constante para melhorar suas jogadas), resultando em imagens geradas por computador que entendem perfeitamente o que você quer dizer, mesmo quando você pede coisas difíceis.

Afogado em artigos na sua área?

Receba digests diários dos artigos mais recentes que correspondam às suas palavras-chave de pesquisa — com resumos técnicos, no seu idioma.

Experimentar Digest →