DragFlow: Unleashing DiT Priors with Region Based Supervision for Drag Editing

O artigo apresenta o DragFlow, um novo framework que supera as limitações das edições por arrasto em modelos DiT ao substituir a supervisão baseada em pontos por uma abordagem baseada em regiões, integrando adaptadores de personalização e modelos de linguagem multimodal para alcançar um estado da arte com maior consistência e fidelidade.

Zihan Zhou, Shilin Lu, Shuli Leng, Shaocong Zhang, Zhuming Lian, Xinlei Yu, Adams Wai-Kin Kong

Publicado 2026-03-03
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem uma foto digital e quer arrastar um objeto dela para outro lugar, como mover um gato de um sofá para o chão, ou mudar a expressão de um rosto. Antigamente, fazer isso com Inteligência Artificial era como tentar mover um vaso de cerâmica usando apenas um palito de dente: você apontava um ponto, a IA tentava adivinhar o resto e, muitas vezes, o resultado ficava estranho, com o objeto esticado, deformado ou com partes do fundo "vazando" para onde não deveriam.

O papel "DragFlow" apresenta uma nova maneira de fazer isso, especialmente para os modelos de IA mais modernos e potentes (chamados de DiT, como o FLUX). Aqui está a explicação simples, usando analogias do dia a dia:

1. O Problema: O "Palito de Dente" vs. O "Mapa Completo"

Os métodos antigos funcionavam como se você estivesse tentando mover um objeto segurando apenas um único ponto (como a ponta do nariz de uma pessoa).

  • A analogia: Imagine tentar empurrar um sofá pesado segurando apenas a ponta de uma das pernas. O sofá pode virar, quebrar ou o chão pode ficar arranhado.
  • O que acontece na IA: Os modelos antigos (como o Stable Diffusion) eram bons em entender "pontos", mas os modelos novos (DiT/FLUX) são muito mais detalhados. Eles veem a imagem como milhões de pequenos pedaços de informação. Se você tenta arrastar apenas um "ponto" nesses modelos novos, a IA fica confusa e o objeto fica distorcido.

2. A Solução: Arrastar por "Regiões" (O Truque do DragFlow)

O DragFlow muda a regra do jogo. Em vez de segurar apenas um ponto, ele trata o objeto como um bloco inteiro.

  • A analogia: Em vez de empurrar o sofá pela perna, você coloca uma esteira rolante embaixo dele e empurra a esteira inteira. O sofá se move como uma unidade coesa, mantendo sua forma e estrutura.
  • Como funciona: O usuário desenha uma "máscara" (uma área) ao redor do objeto que quer mover. A IA então calcula como mover todo esse bloco de uma vez, usando transformações matemáticas (como girar ou esticar suavemente) para garantir que o objeto chegue ao novo lugar sem se desmanchar.

3. Os Três Segredos do DragFlow

Para que isso funcione perfeitamente, o método usa três "superpoderes":

  • A. O Guia de Movimento (Supervisão por Região):
    A IA não olha apenas para onde o ponto foi, mas compara a "textura" e a "forma" de todo o bloco de origem com o bloco de destino. É como se você estivesse comparando duas fotos de um bolo inteiro para garantir que, ao movê-lo, a cobertura de chocolate não derreta. Isso evita que o objeto fique torto.

  • B. O Escudo de Proteção (Preservação do Fundo):
    Quando você move um objeto, o fundo (a parede, o céu) não deve mudar. Métodos antigos às vezes "vazavam" cores do fundo para o objeto ou deixavam buracos.

    • A analogia: Imagine que você está mudando a mobília de uma sala. O DragFlow coloca um plástico protetor (uma máscara rígida) sobre o resto da sala. Ele só permite que a IA mexa onde você desenhou, garantindo que o resto da foto permaneça 100% intacto, sem borrões.
  • C. A Identidade do Objeto (O "Cartão de Identidade"):
    Às vezes, ao mover um rosto ou um objeto, a IA esquece quem é aquele objeto e o transforma em algo genérico.

    • A analogia: É como se você mudasse a roupa de uma pessoa, mas ela continuasse sendo a mesma pessoa, com o mesmo rosto. O DragFlow usa um "cartão de identidade" (chamado de Adapter) que diz à IA: "Ei, lembre-se que este é o gato 'Mimi', não um gato genérico". Isso garante que, mesmo depois de movido, o objeto pareça exatamente o mesmo.

4. O "Tradutor" Inteligente (IA de Linguagem)

Às vezes, o usuário diz algo ambíguo, como "mova o braço para a direita". A IA pode não saber se você quer apenas mover o braço (relocar) ou esticá-lo (deformar).

  • O DragFlow usa um "tradutor" (uma IA de linguagem grande) que olha para a foto e para o seu desenho, e pergunta: "Você quer apenas mudar a posição ou mudar o formato?". Isso evita erros de interpretação.

Resumo Final

O DragFlow é como passar de um "arrastar com um palito de dente" para um "arrastar com uma empilhadeira".

  • Ele foi feito para os modelos de IA mais novos e poderosos.
  • Ele move objetos inteiros, não apenas pontos.
  • Ele protege o fundo da foto.
  • Ele garante que o objeto mantenha sua identidade.

O resultado? Fotos editadas que parecem reais, sem aquelas distorções estranhas que costumavam acontecer, permitindo que qualquer pessoa faça edições complexas com apenas um clique e um arraste.