Just-in-Time: Training-Free Spatial Acceleration for Diffusion Transformers

O artigo apresenta o Just-in-Time (JiT), um novo framework sem necessidade de treinamento que acelera a inferência de Transformers de Difusão explorando a redundância espacial através de uma ODE aproximada e um micro-fluxo determinístico, alcançando até 7x de velocidade no modelo FLUX.1-dev com desempenho quase sem perdas.

Wenhao Sun, Ji Li, Zhaoqiang Liu

Publicado 2026-03-12
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você pediu a um pintor de gênio (um modelo de Inteligência Artificial chamado Diffusion Transformer) para criar uma pintura complexa e detalhada.

O problema é que esse pintor é extremamente meticuloso. Ele não pinta a tela inteira de uma vez. Em vez disso, ele começa com uma tela cheia de "ruído" (como estática de TV) e, passo a passo, remove essa estática para revelar a imagem. Para fazer isso, ele olha para cada ponto da tela, calcula a melhor cor para aquele ponto e repete esse processo centenas de vezes. Isso é lento e consome muita energia, como se você tivesse que calcular a cor de cada pixel individualmente, milhões de vezes, antes de mostrar a imagem final.

A maioria das tentativas anteriores para acelerar isso focava em fazer o pintor dar "pulos" maiores no tempo (pular etapas), mas isso muitas vezes estragava a qualidade da pintura.

O artigo "Just-in-Time" (JiT) propõe uma ideia diferente e brilhante: Pare de pintar tudo o que não precisa ser pintado agora.

A Analogia da Construção de uma Casa

Pense na criação da imagem como a construção de uma casa:

  1. O Erro Comum: A maioria dos métodos tenta construir a fundação, as paredes, o telhado e os detalhes do jardim (como o tipo de flor no vaso) todos ao mesmo tempo, em cada etapa da construção. É um desperdício de energia! Você não precisa saber a cor da flor antes de ter as fundações.
  2. A Solução JiT (Just-in-Time): O JiT age como um mestre de obras inteligente.
    • Fase 1 (Estrutura Global): Ele foca apenas nos pilares principais e nas paredes grossas. Ele ignora completamente os detalhes finos (janelas, texturas, flores). Ele usa apenas uma pequena fração dos "trabalhadores" (tokens) para desenhar o esqueleto da casa.
    • Fase 2 (Detalhes): Conforme a estrutura fica mais sólida, ele começa a adicionar mais trabalhadores para pintar as paredes e fazer os acabamentos.
    • Fase 3 (Refinamento): Só no final, quando a casa está quase pronta, ele traz a equipe completa para colocar os detalhes finais, como o brilho no vidro e as flores no vaso.

Como o JiT faz isso magicamente?

O JiT usa duas ferramentas principais para fazer essa "aceleração espacial" sem precisar reeducar o pintor (o modelo):

  1. O "Lifter" (O Elevador de Velocidade):
    Imagine que o pintor só calculou a cor das paredes principais (os "tokens âncora"). O JiT pega essa informação e, com um truque matemático inteligente, "estica" essa informação para preencher o resto da tela. Ele diz: "Se a parede aqui é azul, assumo que a parede ao lado é uma versão suavizada do azul, sem precisar calcular tudo do zero". Isso economiza 90% do trabalho nos primeiros passos.

  2. O "Micro-Fluxo" (A Ponte Segura):
    Quando o JiT decide adicionar mais trabalhadores (ativar novos detalhes) para preencher a tela, ele precisa garantir que a transição não cause um "choque" ou uma falha na imagem (como uma linha estranha ou borrão). Ele usa uma técnica chamada Micro-Fluxo Determinístico.

    • Analogia: É como se você estivesse enchendo um balde com água. Se você jogar a água de uma vez, ela transborda e faz bagunça. O JiT usa um bico de mangueira que ajusta a pressão perfeitamente para que a água entre suavemente, preenchendo o espaço vazio sem criar ondas ou respingos. Isso garante que, quando os novos detalhes são ativados, eles se encaixam perfeitamente na estrutura já existente.
  3. O "Foco no Importante" (Ativação Guiada pela Importância):
    O JiT não escolhe aleatoriamente onde adicionar detalhes. Ele olha para a imagem e pergunta: "Onde a pintura está mais agitada?". Se a cor está mudando muito rápido em uma área (como a borda de um olho ou uma textura de pele), ele sabe que ali precisa de mais trabalho. Se a área é um céu azul liso, ele deixa em paz. Ele direciona a energia para onde ela é realmente necessária.

Os Resultados

Os autores testaram isso no modelo FLUX.1-dev (um dos melhores do mundo atualmente) e os resultados foram impressionantes:

  • Velocidade: Conseguiram fazer a imagem 4 vezes a 7 vezes mais rápido.
  • Qualidade: A imagem final é quase idêntica àquela feita pelo método lento e tradicional. Não há perda visível de qualidade.
  • Sem Treinamento: Diferente de outros métodos que exigem meses de treinamento para aprender a ser rápido, o JiT funciona "na hora" (Just-in-Time) em qualquer modelo existente.

Resumo em uma frase

O JiT é como um pintor que, em vez de tentar pintar cada detalhe de uma foto de uma vez, primeiro desenha o esboço grosso com poucos traços, e só adiciona os detalhes finos e coloridos no momento exato em que eles são necessários, economizando tempo e energia sem estragar a obra de arte.