InterCoG: Towards Spatially Precise Image Editing with Interleaved Chain-of-Grounding Reasoning

O artigo apresenta o InterCoG, um novo framework de raciocínio intercalado de cadeia de ancoragem que, combinado com o dataset GroundEdit-45K, permite edições de imagem espacialmente precisas em cenas complexas e multi-entidades ao primeiro deduzir a localização do alvo via texto, depois ancorá-lo visualmente e finalmente reescrever a descrição da edição.

Yecong Wan, Fan Li, Chunwei Wang, Hao Wu, Mingwen Shao, Wangmeng Zuo

Publicado 2026-03-04
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um amigo muito inteligente, mas um pouco "desastrado" quando o assunto é editar fotos. Se você pedir para ele "trocar a cor da camisa da mulher", ele pode acabar pintando a camisa do homem ao lado, ou até mesmo a árvore de fundo, porque ele não consegue distinguir exatamente qual mulher você quer dizer quando há várias pessoas na foto.

O InterCoG é como dar a esse amigo um novo superpoder: a capacidade de pensar antes de agir, usando uma técnica chamada "Cadeia de Fundamentação Intercalada" (Interleaved Chain-of-Grounding).

Aqui está como funciona, explicado de forma simples:

1. O Problema: "Qual é o alvo?"

Em fotos complexas (como uma festa com muita gente, ou uma rua movimentada), é difícil para a inteligência artificial saber exatamente qual objeto você quer mudar. Se você diz "mude a cor do carro vermelho", e há três carros vermelhos, a IA pode ficar confusa e mudar o errado.

2. A Solução: O Processo de 3 Passos (O "Detetive")

O InterCoG não pula direto para a edição. Ele segue um roteiro de detetive, alternando entre pensar com palavras e olhar com os olhos:

  • Passo 1: O Detetive de Palavras (Raciocínio Textual)
    Primeiro, o modelo lê a foto e o seu pedido e "fala consigo mesmo". Ele descreve a cena em detalhes: "Ok, vejo uma mulher de azul, ela está entre duas crianças, segurando a mão da da esquerda...". Ele usa a lógica para identificar quem é o alvo antes de tocar na imagem. É como se ele estivesse escrevendo um relatório mental para garantir que entendeu o pedido.

  • Passo 2: O Detetive Visual (Fundamentação Visual)
    Depois de pensar, ele aponta o dedo (virtualmente). Ele desenha uma caixa vermelha e uma máscara exatamente em volta da mulher que ele identificou no passo anterior. Isso é como se ele dissesse: "Ah, é ela! A mulher no meio, segurando a mão da criança. É aqui que vou trabalhar." Isso elimina qualquer dúvida sobre onde a edição deve acontecer.

  • Passo 3: A Edição Precisa
    Só agora, com a certeza de quem e onde é o alvo, ele faz a edição (muda a cor da camisa para verde, por exemplo). Como ele já "pintou" a área mentalmente no passo 2, ele não erra o alvo.

3. Por que isso é especial? (A Analogia do Arquiteto)

Pense em outras IAs como um pintor que joga tinta na parede esperando acertar o quadro. O InterCoG é como um arquiteto:

  1. Ele primeiro lê o projeto (o texto).
  2. Ele desenha o esboço no papel (desenha a caixa na imagem).
  3. Só então ele começa a construir (edita a foto).

Isso garante que, mesmo em cenas caóticas com dezenas de pessoas ou objetos, a IA saiba exatamente quem é "a mãe", "o segundo carro" ou "a estátua mais alta", sem confundir com os vizinhos.

4. O Treinamento (A Escola de Detetives)

Para ensinar essa IA a fazer isso, os criadores do InterCoG não usaram apenas fotos antigas. Eles criaram um novo "livro didático" chamado GroundEdit-45K.

  • Eles pegaram milhares de fotos complexas.
  • Ensinaram a IA a primeiro identificar o objeto com texto, depois marcar o objeto visualmente, e só depois editar.
  • Eles criaram um "jogo de treino" (GroundEdit-Bench) onde humanos avaliam se a IA acertou o alvo ou se confundiu.

Resumo da Ópera

O InterCoG é uma nova maneira de ensinar computadores a editar fotos com precisão cirúrgica. Em vez de chutar qual objeto você quer mudar, a IA primeiro raciocina sobre a cena, aponta o objeto exato e depois faz a mudança.

Isso significa que, no futuro, você poderá pedir coisas complexas como "Troque a cor do chapéu do homem que está segurando o cachorro preto, mas não toque no cachorro" e a IA entenderá perfeitamente, sem estragar a foto. É como ter um assistente de edição que realmente "vê" e "entende" a foto antes de mexer em um único pixel.