Bridge Diffusion Model: Bridge Chinese Text-to-Image Diffusion Model with English Communities

O artigo propõe o "Bridge Diffusion Model" (BDM), uma nova arquitetura de rede que permite a geração de imagens com precisão semântica em chinês enquanto mantém a compatibilidade total com o ecossistema de plugins e avanços das comunidades de modelos de difusão nativos em inglês, superando assim as limitações de viés cultural e a necessidade de treinamento a partir do zero.

Shanyuan Liu, Bo Cheng, Yuhang Ma, Liebucha Wu, Ao Ma, Xiaoyu Wu, Dawei Leng, Yuhui Yin

Publicado 2026-03-19
📖 3 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um chef de cozinha de classe mundial (o modelo de geração de imagens em inglês, como o Stable Diffusion). Esse chef é incrível: ele sabe cozinhar pratos deliciosos, conhece todas as técnicas modernas e tem uma equipe gigante de ajudantes (plugins como LoRA, ControlNet, etc.) que podem mudar o sabor, a textura ou o estilo de qualquer prato que ele faz.

O problema? Esse chef só entende inglês. Se você pedir um "prato típico do Dia dos Namorados no Brasil" ou um "dragão chinês com escamas de jade", ele vai tentar traduzir mentalmente, mas o resultado será estranho. Ele pode desenhar um dragão americano ou um prato que parece brasileiro, mas não tem a "alma" da cultura chinesa. Além disso, ele tende a desenhar pessoas brancas e ocidentais porque foi treinado com receitas do mundo ocidental.

Aqui entra o Bridge Diffusion Model (BDM), o "Ponte".

O que é o BDM?

Pense no BDM como uma nova cozinha montada ao lado da cozinha original do chef.

  1. O Chef Principal (Backbone): A estrutura principal da cozinha (o fogão, as panelas, a técnica) continua sendo a do chef inglês original. Isso é ótimo porque significa que você ainda pode usar todos os ajudantes e temperos (plugins) que a comunidade inglesa criou. Você não precisa reinventar a roda.
  2. O Tradutor Especializado (Branch): O BDM adiciona um segundo tradutor na cozinha. Enquanto o chef original ouve o inglês, esse novo tradutor ouve o chinês (ou qualquer outra língua nativa) e diz ao chef: "Ei, quando o cliente pede 'pão de queijo', não pense em 'queese bread' americano. Pense no pão de queijo brasileiro, quente e derretido!"

Como funciona na prática?

  • Sem viés cultural: Se você pedir uma imagem de um "casamento tradicional chinês", o chef inglês sozinho provavelmente desenhará um casamento ocidental. Com o BDM, o tradutor chinês garante que o vestido seja vermelho, o cenário tenha lanternas e as pessoas tenham traços asiáticos, mantendo a qualidade fotográfica do chef original.
  • A Ponte para a Comunidade: A grande mágica é que, como a cozinha principal é a mesma, você pode pegar qualquer "tempero" que a comunidade inglesa criou (como um filtro para fazer o desenho parecer um anime, ou uma ferramenta para controlar a pose da pessoa) e usar no BDM. O BDM é compatível com tudo o que o mundo inglês já fez.
  • O Segredo do Treinamento: Durante o treinamento, os cientistas ensinaram o BDM a ouvir apenas o tradutor chinês para o conteúdo, deixando o ouvido do chef inglês "em silêncio" (com uma string vazia). Isso força o sistema a aprender a cultura chinesa sem perder a estrutura técnica do inglês.

O Resultado Final

O BDM é como uma ponte que conecta duas ilhas:

  1. A ilha da cultura e semântica nativa (onde as imagens fazem sentido culturalmente para falantes de chinês).
  2. A ilha da tecnologia de ponta e plugins (onde estão todas as ferramentas avançadas criadas pela comunidade inglesa).

Em resumo:
Antes, você tinha que escolher: ou usava um modelo que entendia sua cultura, mas era fraco e não tinha ferramentas novas; ou usava um modelo poderoso, mas que não entendia sua cultura e tinha preconceitos.
Com o Bridge Diffusion Model, você tem o melhor dos dois mundos: a inteligência cultural da sua língua nativa, com a potência e as ferramentas de um dos maiores ecossistemas de tecnologia do mundo. É como ter um assistente que fala a sua língua perfeitamente, mas que usa as ferramentas mais modernas do mundo para criar.