MIRA: Multimodal Iterative Reasoning Agent for Image Editing

Each language version is independently generated for its own context, not a direct translation.

Imagine que você pediu a um amigo para reformar a sua sala de estar. Você diz: "Quero o chão de madeira, os armários brancos ficam marrons e o fogão preto".

Se você pedir isso a um sistema de edição de imagem comum (como os atuais), é como se ele fosse um pintor muito rápido, mas um pouco desatento. Ele ouve a ordem e, num piscar de olhos, tenta fazer tudo de uma vez. O resultado? O chão pode ficar com textura estranha, o fogão pode ficar cinza em vez de preto, e os armários podem ter ficado marrons, mas o refrigerador (que você não mencionou) também mudou de cor sem querer. O pintor não "pensou" no que ele fez; ele apenas jogou tinta.

Agora, imagine que você contrata o MIRA (o agente inteligente descrito neste artigo). O MIRA não é apenas um pintor; ele é um arquiteto e um fiscal de obra que trabalha em conjunto com o pintor.

Aqui está como o MIRA funciona, usando uma analogia simples:

1. O Problema: "A Mente Única vs. O Processo Iterativo"

Os modelos antigos tentam adivinhar o resultado final em uma única tentativa (como um chute no escuro). Se a instrução for complexa (com várias partes, como "troque a cor do objeto A, mas mantenha o B igual"), eles se perdem.

O MIRA, em vez disso, usa um ciclo de "Ver, Pensar e Agir". Ele não tenta fazer tudo de uma vez. Ele divide o trabalho em pequenos passos, como se estivesse conversando consigo mesmo e com o pintor a cada momento.

2. Como o MIRA Trabalha (O Ciclo de 3 Passos)

Imagine que o MIRA é um chefe de cozinha supervisionando um chefe de cozinha júnior (o modelo de edição de imagem, como o Flux ou Qwen).

Passo 1: Observar (Percepção)
O MIRA olha para a foto original e para a sua receita (sua instrução). Ele olha também para o que o júnior acabou de fazer.
Exemplo: "Ok, o júnior pintou o chão de madeira. Mas olhe só... ele também pintou o refrigerador de marrom, e eu não pedi isso!"
Passo 2: Pensar (Raciocínio)
O MIRA analisa o erro. Ele não apenas vê o erro; ele entende por que aconteceu e decide qual é a próxima ação mínima necessária para corrigir.
Exemplo: "Preciso dar uma instrução muito específica: 'Mude apenas o refrigerador de volta para branco'. Não vou pedir para refazer a sala inteira, só consertar o refrigerador."
Passo 3: Agir (Ação)
O MIRA envia essa pequena instrução corrigida para o júnior (o modelo de edição). O júnior faz a mudança.
Resultado: A foto agora tem o chão certo e o refrigerador certo.

3. O "Pulo do Gato": O Loop Infinito (até ficar perfeito)

Esse processo se repete. O MIRA olha a nova foto, pensa, e age novamente.

Passo 4: "Espera, ao consertar o refrigerador, o júnior mudou a cor do fogão para branco sem querer. Vou pedir para ele mudar o fogão de volta para preto."
Passo 5: "Tudo certo? Sim. O chão é madeira, os armários são marrons, o refrigerador é branco e o fogão é preto. Pare!"

O MIRA sabe exatamente quando parar. Ele não fica editando até a imagem ficar estranha; ele para assim que a "receita" do cliente é atendida.

4. Por que isso é revolucionário?

Correção de Erros: Se o modelo de edição errar (como pintar o refrigerador errado), o MIRA vê o erro e manda consertar. Modelos antigos não têm essa capacidade de "olhar para trás" e corrigir.
Treinamento Especial: Os criadores do MIRA criaram um banco de dados gigante (150.000 exemplos) onde eles ensinaram o sistema a pensar passo a passo, não apenas a chutar.
Grátis e Poderoso: O MIRA é um "plug-and-play". Isso significa que você pode pegar qualquer modelo de edição de imagem gratuito (open-source) e "colocar" o cérebro do MIRA em cima dele. O resultado é que um sistema gratuito começa a funcionar tão bem (ou até melhor) que os sistemas caros e fechados de empresas gigantes.

Resumo em uma frase

O MIRA transforma a edição de imagem de um "chute único e arriscado" em uma conversa colaborativa e cuidadosa, onde um cérebro inteligente (o agente) guia um executor (o modelo de imagem) passo a passo, corrigindo erros no caminho até que a imagem final seja exatamente o que você pediu.

É como ter um assistente pessoal que não apenas faz o trabalho, mas verifica se o trabalho está certo antes de entregar a você.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema

A edição de imagens guiada por instruções (usando linguagem natural) tornou-se uma ferramenta intuitiva para usuários. No entanto, os modelos de edição baseados em difusão atuais, mesmo os mais avançados (como Qwen-Image-Edit, Flux.1-Kontext) e sistemas proprietários (como GPT-Image), enfrentam dificuldades significativas ao interpretar instruções complexas.

Essas limitações ocorrem principalmente em cenários que exigem:

Raciocínio composicional: Manipular múltiplos objetos e suas relações espaciais.
Cues contextuais: Entender o ambiente da imagem para aplicar mudanças coerentes.
Expressões de referência: Identificar objetos específicos descritos de forma indireta.

Os sistemas atuais tendem a falhar em manter a consistência semântica e a qualidade perceptual, muitas vezes executando uma única instrução estática ("one-shot") que não reflete a intenção do usuário ou que desvia semanticamente do objetivo original.

2. Metodologia: O Agente MIRA

Para resolver isso, os autores propõem o MIRA (Multimodal Iterative Reasoning Agent), um agente de raciocínio multimodal leve, "plug-and-play" e baseado em um ciclo iterativo de Percepção-Raciocínio-Ação.

Arquitetura e Fluxo de Trabalho

Diferente dos sistemas que planejam toda a sequência de edições de uma só vez, o MIRA opera em um loop fechado:

Percepção: O agente (um Modelo de Linguagem Visão-Linguagem - VLM) observa a imagem original ( $I_0$ ), a instrução do usuário ( $C$ ) e o estado atual da edição ( $I_{t-1}$ ).
Raciocínio: O agente analisa a discrepância visual restante entre o estado atual e a instrução final.
Ação: Em vez de gerar a imagem final, o agente prevê uma única instrução de edição atômica ( $u_t$ ).
Execução e Feedback: Uma ferramenta de edição externa (ex: Flux.1, Step1X-Edit) executa essa instrução atômica. A nova imagem é enviada de volta ao agente para o próximo ciclo.
Controle de Parada: Um controlador leve decide se o processo deve continuar ou parar (quando a tarefa está completa).

O MIRA é construído sobre o Qwen2.5-VL-7B-Instruct e atua como uma camada de raciocínio que orquestra editores de código aberto.

3. Principais Contribuições

A. O Conjunto de Dados MIRA-EDITING

Devido à falta de dados públicos para supervisão de raciocínio multi-etapa, os autores criaram um novo dataset de 150.000 pares de amostras.

Processo: Agregação de instruções de múltiplas voltas, reescrita em dois níveis (atômico e holístico) e filtragem baseada em consistência semântica usando modelos de avaliação (ViScore).
Estrutura: Os dados são formatados em três tipos de amostras para treinar o agente:
1. Start: Previsão do primeiro passo.
2. Continue: Refinamento iterativo baseado no feedback visual.
3. Stop: Detecção de conclusão da tarefa.

B. Pipeline de Treinamento de Duas Estágios

O MIRA utiliza uma abordagem híbrida de aprendizado:

Ajuste Fino Supervisionado (SFT): O modelo é treinado para imitar trajetórias de edição de alta qualidade, aprendendo a decompor instruções complexas em passos atômicos.
Otimização de Política Relativa por Grupo (GRPO): Uma fase de aprendizado por reforço onde o modelo gera múltiplas ações candidatas. Uma função de recompensa composta avalia a qualidade da edição (consistência semântica + qualidade perceptual) usando um modelo de recompensa de edição de imagem. Isso permite que o agente aprenda a refinar suas decisões para maximizar a fidelidade visual e semântica.

4. Resultados Experimentais

Os experimentos foram realizados em um benchmark desafiador com 500 amostras, comparando editores de código aberto, sistemas proprietários e as versões aprimoradas pelo MIRA.

Desempenho Superior: Ao integrar o MIRA, editores de código aberto (como Flux.1-Kontext e Qwen-Image-Edit) superaram consistentemente seus equivalentes sem o agente e alcançaram desempenho comparável ou superior a sistemas proprietários de ponta (como GPT-Image e Nano-Banana).
- Exemplo: O Flux.1-Kontext + MIRA obteve ganhos de ~13% em consistência semântica (GPT-SC) e ~4% em qualidade perceptual em relação à versão base.
Robustez a Erros: O loop fechado permite que o MIRA detecte e corrija erros de execução de etapas anteriores (ex: se um objeto é pintado da cor errada, o agente gera uma instrução corretiva na próxima iteração), mitigando a propagação de erros comum em abordagens "one-shot".
Eficiência e Custo: Embora o processo iterativo introduza latência (média de ~48 segundos por imagem em GPU H100), o custo é competitivo frente a sistemas proprietários (que cobram por edição e têm latência variável) e oferece o benefício de ser totalmente de código aberto.
Ablação: A fase de GRPO (RL) provou ser crucial, trazendo melhorias consistentes em todas as métricas em comparação ao treinamento apenas com SFT.

5. Significado e Impacto

O trabalho do MIRA representa uma mudança de paradigma na edição de imagens:

Do "One-Shot" para o "Iterativo": Demonstra que tratar a edição como um processo de raciocínio iterativo, com feedback visual constante, é superior à execução estática de prompts.
Democratização de Alta Qualidade: Permite que modelos de código aberto, que geralmente ficam atrás dos sistemas proprietários em tarefas complexas, atinjam ou superem o estado da arte através de uma camada de raciocínio inteligente e leve.
Interpretabilidade: O processo passo a passo torna o processo de edição mais transparente e controlável, permitindo que o sistema "pense" antes de agir e se corrija se necessário.

Em resumo, o MIRA estabelece um novo padrão para agentes de edição de imagem, provando que a combinação de raciocínio multimodal iterativo com editores de difusão modulares é a chave para a execução precisa e fiel de instruções complexas.