CMT: Mid-Training for Efficient Learning of Consistency, Mean Flow, and Flow Map Models

O artigo apresenta o CMT (Consistency Mid-Training), uma nova etapa intermediária de treinamento que estabiliza e acelera o aprendizado de modelos de mapa de fluxo, como Consistency Models e Mean Flow, alcançando resultados de estado da arte com até 98% menos dados e tempo de GPU em comparação com métodos anteriores.

Zheyuan Hu, Chieh-Hsin Lai, Yuki Mitsufuji, Stefano Ermon

Publicado 2026-02-24
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você quer ensinar um artista a pintar um retrato perfeito, mas em vez de dar a ele uma foto de referência, você o força a aprender desenhando apenas um traço minúsculo de cada vez.

Isso é basicamente como funcionam os Modelos de Difusão atuais (a tecnologia por trás de geradores de imagem como o DALL-E ou Midjourney). Eles começam com uma tela cheia de "ruído" (como estática de TV) e, passo a passo, removem esse ruído até revelar a imagem. O problema? Para chegar a uma imagem nítida, eles precisam dar centenas de passos minúsculos. É como tentar atravessar um oceano a nado, dando apenas um braçada por vez. Demorado e cansativo.

Para resolver isso, surgiram os Modelos de Mapa de Fluxo (como os Consistency Models). A ideia deles é genial: em vez de dar passos pequenos, eles aprendem a dar um salto gigante direto do ruído até a imagem final. É como se o artista aprendesse a pular do oceano para a praia em um único pulo.

O Problema:
Aprender a dar esse "pulo gigante" é muito difícil. Se você tentar ensinar o modelo do zero, ele fica instável, confuso e demora uma eternidade para aprender. Se você tentar usar um modelo antigo (que só sabe dar passos pequenos) como base, ele não sabe fazer o salto, e o treinamento ainda falha ou requer muitos truques complicados.

A Solução: CMT (O "Treinamento Intermediário")
Os autores deste paper, da Sony AI e Stanford, criaram algo chamado CMT (Consistency Mid-Training). Pense no CMT como um curso de "ponte" ou um treinamento intermediário.

Aqui está a analogia simples:

  1. O Aluno (O Modelo): É a rede neural que queremos treinar.
  2. O Professor (O Modelo de Difusão): É um modelo antigo, lento, mas que sabe fazer o trabalho passo a passo com perfeição.
  3. O Método Antigo: Tentar ensinar o aluno a pular direto para a resposta, sem ajuda. Resultado: O aluno cai e se machuca (instabilidade).
  4. O Método CMT:
    • Fase 1 (Pré-treino): O Professor faz o trabalho completo, passo a passo, gerando uma "trilha" perfeita do ruído até a imagem final.
    • Fase 2 (O CMT - A Ponte): Em vez de deixar o aluno tentar adivinhar, o CMT pega essa trilha que o Professor fez e ensina o aluno a mapear qualquer ponto dessa trilha diretamente para o destino final.
      • Imagine que o Professor desenha um caminho de pedras no rio. O CMT pega o aluno e diz: "Olhe para essa pedra aqui no meio do rio. Agora, mostre-me onde é a margem final, sem passar pelas outras pedras." O aluno pratica isso milhares de vezes, aprendendo a lógica do "pulo" sem se perder.
    • Fase 3 (Pós-treino): Agora que o aluno já entendeu a lógica do pulo e tem uma base sólida, ele faz o treinamento final para se tornar um mestre do salto.

Por que isso é incrível?

  • Estabilidade: Como o aluno aprende com uma "trilha" clara e fixa (gerada pelo Professor), ele não fica confuso. O treinamento é muito mais estável.
  • Velocidade e Economia: O paper mostra que, usando esse método, eles conseguem treinar modelos que geram imagens em 1 ou 2 passos (em vez de 100) com uma qualidade de nível mundial (SOTA), mas usando até 98% menos tempo de computador e menos dados do que os métodos anteriores.
  • Versatilidade: Funciona para imagens pequenas (como fotos de gatos) e gigantes (como paisagens em 4K), e até para gerar imagens baseadas em texto.

Resumo da Ópera:
O CMT é como um estagiário inteligente que, antes de tentar fazer o trabalho sozinho, observa o mestre fazendo o trajeto completo e aprende a "atalhar" o caminho de forma segura. O resultado é que conseguimos criar imagens incríveis em segundos, com muito menos custo e esforço do que antes. É uma forma mais inteligente e eficiente de ensinar a máquina a "pular" em direção à perfeição.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →