Image Generation Models: A Technical History

Este artigo oferece uma pesquisa abrangente sobre a evolução técnica dos modelos de geração de imagens, detalhando desde VAEs e GANs até métodos baseados em difusão, abordando também avanços na geração de vídeo e as questões de responsabilidade e robustez no seu uso.

Rouzbeh Shirvani

Publicado Tue, 10 Ma
📖 6 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um artista genial, mas que nunca viu o mundo real. Ele só consegue pintar o que você descreve para ele. Nos últimos 10 anos, a tecnologia por trás desse "artista" evoluiu de um rabisco confuso para uma obra de arte tão realista que você quase não consegue distinguir do mundo real.

Este artigo é como uma história em quadrinhos da evolução desse artista, mostrando como cada nova geração de tecnologia tentou resolver os problemas da anterior. Vamos viajar por essa história usando analogias simples.

1. O Início: O Esboço (VAEs)

No começo, tínhamos os Autoencoders Variacionais (VAEs).

  • A Analogia: Imagine que você tenta desenhar um gato olhando apenas para uma foto borrada. O VAE tenta "comprimir" a foto em um resumo mental (um código) e depois desenhar de novo baseado nesse resumo.
  • O Problema: Como o resumo era muito genérico, o desenho final ficava sempre borrado, como se fosse uma foto tirada com a câmera tremida. O artista sabia que era um gato, mas não conseguia definir os bigodes ou os olhos com precisão.
  • A Lição: Eles eram ótimos para entender a estrutura, mas ruins em criar detalhes nítidos.

2. O Duelo: O Falsificador vs. O Detetive (GANs)

Logo depois, surgiram as Redes Adversariais Generativas (GANs).

  • A Analogia: Imagine um jogo de xadrez entre dois gênios.
    • O Gerador é um falsificador de dinheiro tentando fazer notas falsas perfeitas.
    • O Discriminador é um detetive de banco tentando achar o falso.
    • Eles jogam juntos: o falsificador melhora para enganar o detetive, e o detetive melhora para não ser enganado.
  • O Resultado: Com o tempo, o falsificador ficou tão bom que criou imagens incrivelmente realistas e nítidas.
  • O Problema: Era um jogo instável. Às vezes, o falsificador desistia e fazia 100 notas iguais (o "colapso de modo"), ou o detetive ficava tão forte que o falsificador parava de aprender. Era difícil de treinar.

3. A Transformação Matemática (Fluxos Normalizadores)

Depois, vieram os Fluxos Normalizadores.

  • A Analogia: Imagine que você tem uma massa de modelar (os dados reais) e quer transformá-la em uma bola de neve perfeita (ruído simples) sem rasgar nada. A mágica é que essa transformação é reversível. Você pode pegar a bola de neve e transformá-la de volta na massa de modelar exatamente como era.
  • O Problema: Era matematicamente perfeito, mas muito lento e difícil de fazer com imagens grandes e complexas. Era como tentar dobrar um lençol gigante em um cubo minúsculo sem criar vincos.

4. A Escrita Sequencial (Transformers e Autoregressivos)

Aí, a tecnologia mudou de "pintar tudo de uma vez" para "escrever uma palavra por vez".

  • A Analogia: É como escrever um livro. Você não escreve a página inteira de uma vez; você escreve a primeira palavra, depois a segunda, prevendo qual é a próxima com base no que já escreveu.
  • O Resultado: Modelos como o DALL-E e o GPT (para imagens) funcionam assim. Eles quebram a imagem em pequenos pedaços (tokens) e os montam um por um.
  • O Problema: É muito lento. Se você quer uma imagem grande, o artista tem que "pensar" em cada pixel sequencialmente. É como tentar construir um arranha-céu tijolo por tijolo, um de cada vez.

5. A Revolução: O Desfazimento de Ruído (Modelos de Difusão)

Aqui chegamos aos Modelos de Difusão, que dominam o cenário hoje (como Midjourney, Stable Diffusion, DALL-E 3).

  • A Analogia: Imagine uma foto de um gato. Você começa jogando um pouco de areia (ruído) sobre ela. Depois joga mais areia, e mais areia, até que a foto se torne apenas uma caixa de areia branca, sem nenhum gato visível.
    • O Modelo de Difusão aprende a fazer o caminho inverso: ele pega a caixa de areia e, passo a passo, remove a areia até revelar o gato escondido.
  • Por que é genial?
    • É muito estável (não tem o problema do "falsificador vs. detetive").
    • Produz imagens de altíssima qualidade.
    • Permite controle: você pode dizer "quero um gato, mas com chapéu" e o modelo ajusta o processo de "limpeza" para incluir o chapéu.
  • Evolução: Começaram limpando pixels direto (lento). Depois, aprenderam a limpar um "esboço mental" (espaço latente) e depois desenhar a imagem final, o que ficou muito mais rápido.

6. O Futuro Imediato: Fluxos Retificados e Matching

Recentemente, surgiram técnicas como Rectified Flow e Flow Matching.

  • A Analogia: Imagine que o modelo de difusão anterior era como dirigir de um ponto A a um ponto B fazendo curvas sinuosas e desnecessárias.
  • A Nova Técnica: Esses novos métodos ensinam o carro a pegar a estrada reta entre A e B. Em vez de dar 1000 voltas para chegar ao destino, ele dá 10 passos diretos. É muito mais rápido e eficiente.

7. O Próximo Nível: Vídeo

Agora, estamos aplicando tudo isso para vídeos.

  • O Desafio: Não basta fazer uma imagem bonita; as imagens precisam se mover de forma coerente. Se um carro passa na frente, ele não pode sumir e reaparecer do nada.
  • A Solução: Modelos como o Sora ou Stable Video Diffusion usam a mesma lógica de "limpeza de ruído", mas olham para o tempo como se fosse mais uma dimensão, garantindo que o movimento faça sentido.

8. O Lado Sombrio: Deepfakes e Segurança

Com grandes poderes vêm grandes responsabilidades.

  • O Perigo: Se podemos criar qualquer imagem ou vídeo realista, podemos criar Deepfakes (falsificações de pessoas reais) para mentir, enganar ou difamar.
  • A Defesa: Os cientistas estão criando "detectives" digitais:
    • Marcas d'água invisíveis: Como um selo de autenticidade que só o computador vê, provando que a imagem foi feita por IA.
    • Detecção de artefatos: Olhando para a frequência da imagem (como uma impressão digital) para ver se há sinais de que foi gerada por computador.

Resumo Final

A história da geração de imagens é uma jornada de tentativa e erro:

  1. Tentamos desenhar de novo (VAEs) -> Ficou borrado.
  2. Tentamos um jogo de gato e rato (GANs) -> Ficou instável.
  3. Tentamos transformar matematicamente (Fluxos) -> Ficou lento.
  4. Tentamos escrever palavra por palavra (Transformers) -> Ficou caro.
  5. Descobrimos a arte de "desfazer o ruído" (Difusão) -> Ficou perfeito, rápido e controlável.

Hoje, temos máquinas que podem criar mundos inteiros a partir de uma frase. O desafio agora não é mais "como fazer isso?", mas sim "como usar isso de forma ética e segura para não enganar o mundo?".