MIRA: Multimodal Iterative Reasoning Agent for Image Editing

O artigo apresenta o MIRA, um agente de raciocínio multimodal iterativo e leve que melhora significativamente a edição de imagens guiada por instruções complexas ao simular interações humano-modelo em múltiplos turnos, utilizando um ciclo de percepção, raciocínio e ação com feedback visual para alcançar resultados competitivos com sistemas proprietários.

Ziyun Zeng, Hang Hua, Jiebo Luo

Publicado 2026-02-26
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você pediu a um amigo para reformar a sua sala de estar. Você diz: "Quero o chão de madeira, os armários brancos ficam marrons e o fogão preto".

Se você pedir isso a um sistema de edição de imagem comum (como os atuais), é como se ele fosse um pintor muito rápido, mas um pouco desatento. Ele ouve a ordem e, num piscar de olhos, tenta fazer tudo de uma vez. O resultado? O chão pode ficar com textura estranha, o fogão pode ficar cinza em vez de preto, e os armários podem ter ficado marrons, mas o refrigerador (que você não mencionou) também mudou de cor sem querer. O pintor não "pensou" no que ele fez; ele apenas jogou tinta.

Agora, imagine que você contrata o MIRA (o agente inteligente descrito neste artigo). O MIRA não é apenas um pintor; ele é um arquiteto e um fiscal de obra que trabalha em conjunto com o pintor.

Aqui está como o MIRA funciona, usando uma analogia simples:

1. O Problema: "A Mente Única vs. O Processo Iterativo"

Os modelos antigos tentam adivinhar o resultado final em uma única tentativa (como um chute no escuro). Se a instrução for complexa (com várias partes, como "troque a cor do objeto A, mas mantenha o B igual"), eles se perdem.

O MIRA, em vez disso, usa um ciclo de "Ver, Pensar e Agir". Ele não tenta fazer tudo de uma vez. Ele divide o trabalho em pequenos passos, como se estivesse conversando consigo mesmo e com o pintor a cada momento.

2. Como o MIRA Trabalha (O Ciclo de 3 Passos)

Imagine que o MIRA é um chefe de cozinha supervisionando um chefe de cozinha júnior (o modelo de edição de imagem, como o Flux ou Qwen).

  • Passo 1: Observar (Percepção)
    O MIRA olha para a foto original e para a sua receita (sua instrução). Ele olha também para o que o júnior acabou de fazer.
    Exemplo: "Ok, o júnior pintou o chão de madeira. Mas olhe só... ele também pintou o refrigerador de marrom, e eu não pedi isso!"

  • Passo 2: Pensar (Raciocínio)
    O MIRA analisa o erro. Ele não apenas vê o erro; ele entende por que aconteceu e decide qual é a próxima ação mínima necessária para corrigir.
    Exemplo: "Preciso dar uma instrução muito específica: 'Mude apenas o refrigerador de volta para branco'. Não vou pedir para refazer a sala inteira, só consertar o refrigerador."

  • Passo 3: Agir (Ação)
    O MIRA envia essa pequena instrução corrigida para o júnior (o modelo de edição). O júnior faz a mudança.
    Resultado: A foto agora tem o chão certo e o refrigerador certo.

3. O "Pulo do Gato": O Loop Infinito (até ficar perfeito)

Esse processo se repete. O MIRA olha a nova foto, pensa, e age novamente.

  • Passo 4: "Espera, ao consertar o refrigerador, o júnior mudou a cor do fogão para branco sem querer. Vou pedir para ele mudar o fogão de volta para preto."
  • Passo 5: "Tudo certo? Sim. O chão é madeira, os armários são marrons, o refrigerador é branco e o fogão é preto. Pare!"

O MIRA sabe exatamente quando parar. Ele não fica editando até a imagem ficar estranha; ele para assim que a "receita" do cliente é atendida.

4. Por que isso é revolucionário?

  • Correção de Erros: Se o modelo de edição errar (como pintar o refrigerador errado), o MIRA vê o erro e manda consertar. Modelos antigos não têm essa capacidade de "olhar para trás" e corrigir.
  • Treinamento Especial: Os criadores do MIRA criaram um banco de dados gigante (150.000 exemplos) onde eles ensinaram o sistema a pensar passo a passo, não apenas a chutar.
  • Grátis e Poderoso: O MIRA é um "plug-and-play". Isso significa que você pode pegar qualquer modelo de edição de imagem gratuito (open-source) e "colocar" o cérebro do MIRA em cima dele. O resultado é que um sistema gratuito começa a funcionar tão bem (ou até melhor) que os sistemas caros e fechados de empresas gigantes.

Resumo em uma frase

O MIRA transforma a edição de imagem de um "chute único e arriscado" em uma conversa colaborativa e cuidadosa, onde um cérebro inteligente (o agente) guia um executor (o modelo de imagem) passo a passo, corrigindo erros no caminho até que a imagem final seja exatamente o que você pediu.

É como ter um assistente pessoal que não apenas faz o trabalho, mas verifica se o trabalho está certo antes de entregar a você.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →