CoEditor++: Instruction-based Visual Editing via Cognitive Reasoning

Each language version is independently generated for its own context, not a direct translation.

Imagine que você pediu a um amigo para editar uma foto antiga da sua família: "Troque o chapéu do vovô por um de palha, mas não mexa no fundo da praia".

Se você pedir isso a um sistema de edição de fotos comum (ou até a alguns modelos de IA atuais), o resultado pode ser desastroso. O sistema pode:

Trocar o chapéu do vovô, mas também apagar a areia da praia.
Colocar o chapéu na cabeça da avó, que estava ao lado.
Ou pior, entender mal e transformar o vovô inteiro em um palhaço.

O problema é que essas IAs agem como se estivessem "adivinhando" o que você quer, sem realmente pensar antes de agir. Elas tentam fazer tudo de uma vez só, o que gera erros.

Aqui entra o CoEditor++, o novo sistema apresentado neste artigo. Para explicar como ele funciona de forma simples, vamos usar uma analogia com uma equipe de produção de cinema.

A Grande Ideia: "Pensar antes de Agir"

O CoEditor++ não tenta ser um "super-herói" que faz tudo sozinho. Em vez disso, ele simula a forma como um editor humano profissional trabalha: dividindo o trabalho em duas etapas distintas e usando um "chefe" para revisar o trabalho.

O sistema é baseado em duas fases cognitivas (mentais):

1. A Fase do "Onde?" (Localização)

Imagine que você tem um diretor de fotografia muito atento. Antes de tocar na imagem, ele olha para a foto e para a sua ordem e pergunta:

"Ok, o usuário quer mudar o chapéu. Mas qual chapéu? E onde exatamente ele está? Vamos desenhar um círculo apenas ao redor do chapéu do vovô, sem tocar na areia ou na avó."

No CoEditor++, isso é feito por um modelo de IA que gera uma "máscara" (um desenho invisível) que isola exatamente a parte que precisa ser mudada. Ele garante que o resto da foto fique intocado.

2. A Fase do "Como?" (Modificação)

Agora que sabemos onde mexer, passamos para o "artista" (o modelo de geração de imagem). Mas não basta dizer "troque o chapéu". O CoEditor++ faz o diretor de fotografia escrever um roteiro detalhado para o artista:

"O roteiro é: Pegue o chapéu de feltro do vovô e substitua por um chapéu de palha de verão, com a mesma iluminação e sombra, mantendo a textura da pele dele."

O artista então cria várias versões dessa troca.

3. O "Espelho" (Reflexão e Seleção)

Aqui está a mágica. Antes de entregar o trabalho final, o CoEditor++ tem um crítico interno (um mecanismo de reflexão).
Ele olha para as várias versões que o artista criou e pergunta:

"Qual dessas versões segue exatamente o que o usuário pediu? Qual delas não estragou o fundo? Qual delas parece mais real?"

Ele escolhe a melhor opção e descarta as que falharam. Se a primeira tentativa não ficou boa, ele tenta de novo, pensando um pouco mais, até encontrar a solução perfeita.

Por que isso é tão importante?

O papel compara o CoEditor++ com os "gigantes" fechados (como o GPT-4o) e outros modelos de código aberto. Os resultados mostram que:

Precisão Cirúrgica: Ele muda apenas o que foi pedido. Se você pedir para remover um objeto, ele não apaga o fundo.
Entendimento Profundo: Ele entende instruções difíceis, como "troque o animal menor por um tigre", entendendo que "menor" é uma comparação e não apenas uma palavra.
Sem Treinamento Carinho: Diferente de outros modelos que precisam ser "ensinados" com milhões de fotos específicas (o que é caro e lento), o CoEditor++ usa peças de código aberto prontas e apenas as organiza de forma inteligente. É como montar um carro de corrida com peças de oficina, mas com um motor de raciocínio superior.
Ético e Seguro: Ele é muito bom em tarefas de "limpeza", como remover conteúdo perigoso ou corrigir injustiças em imagens, sem estragar o resto da foto.

Resumo em uma frase

O CoEditor++ é como um arquiteto de imagens que primeiro desenha o plano (onde mexer), depois escreve as instruções detalhadas (como mexer), e finalmente revisa o trabalho várias vezes antes de entregar, garantindo que a foto fique perfeita, realista e exatamente como você imaginou, sem estragar nada ao redor.

Ele nos ensina que, para editar imagens com inteligência, não basta ter um pincel mágico; é preciso ter um plano mental e um olhar crítico.

CoEditor++: Instruction-based Visual Editing via Cognitive Reasoning

A Grande Ideia: "Pensar antes de Agir"

1. A Fase do "Onde?" (Localização)

2. A Fase do "Como?" (Modificação)

3. O "Espelho" (Reflexão e Seleção)

Por que isso é tão importante?

Resumo em uma frase

1. O Problema

2. Metodologia: CoEditor++

A. Processo Cognitivo de Localização (LCP - Localization Cognitive Process)

B. Processo Cognitivo de Modificação (MCP - Modification Cognitive Process)

3. Principais Contribuições

4. Resultados Experimentais

5. Significado e Impacto

CoEditor++: Instruction-based Visual Editing via Cognitive Reasoning

A Grande Ideia: "Pensar antes de Agir"

1. A Fase do "Onde?" (Localização)

2. A Fase do "Como?" (Modificação)

3. O "Espelho" (Reflexão e Seleção)

Por que isso é tão importante?

Resumo em uma frase

1. O Problema

2. Metodologia: CoEditor++

A. Processo Cognitivo de Localização (LCP - Localization Cognitive Process)

B. Processo Cognitivo de Modificação (MCP - Modification Cognitive Process)

3. Principais Contribuições

4. Resultados Experimentais

5. Significado e Impacto

Mais como este

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities