Predict to Skip: Linear Multistep Feature Forecasting for Efficient Diffusion Transformers

O artigo apresenta o PrediT, um framework de aceleração sem treinamento para Difusores Transformers que utiliza métodos de passo múltiplo linear para prever e pular etapas de inferência, reduzindo a latência em até 5,54 vezes enquanto preserva a qualidade da geração.

Hanshuai Cui, Zhiqing Tang, Qianli Ma, Zhi Yao, Weijia Jia

Publicado 2026-02-23
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando desenhar um quadro lindo e complexo, mas em vez de fazer tudo de uma vez, você precisa fazer isso passo a passo, começando com uma tela cheia de "ruído" (como uma TV fora do ar) e limpando o ruído aos poucos até que a imagem apareça.

É assim que funcionam os modelos de IA generativa modernos (como os que criam imagens e vídeos). O problema é que esse processo de "limpeza" é muito lento. A IA precisa fazer dezenas de pequenas correções para chegar ao resultado final. É como se você tivesse que dar 50 passos minúsculos para atravessar uma sala, quando poderia dar 10 passos largos.

O artigo que você enviou apresenta uma solução genial chamada PrediT. Vamos explicar como ele funciona usando analogias do dia a dia:

1. O Problema: O "Pulo Cego" vs. O "Pulo Cego"

Para acelerar esse processo, os métodos antigos tentavam pular alguns passos.

  • O jeito antigo (Reutilização Ingênua): Era como se você estivesse andando e, para ganhar tempo, decidisse ficar parado por alguns segundos, achando que o mundo ao seu redor não mudou. O problema é que o mundo muda. Se você ficar parado e depois tentar continuar, você vai estar em um lugar errado, e a imagem fica estranha (borrada ou com defeitos).
  • O jeito do PrediT (Previsão Inteligente): O PrediT percebeu que a imagem não muda de forma aleatória; ela evolui de forma suave, como uma curva. Em vez de ficar parado, o PrediT olha para os últimos passos que você deu e prevê para onde você vai dar o próximo passo.

2. A Solução: O "GPS" e o "Corretor"

O PrediT usa duas ideias principais da matemática (chamadas métodos de Adams-Bashforth e Adams-Moulton), mas podemos imaginar assim:

  • O GPS (O Preditor): O sistema olha para o histórico recente (os últimos 2 ou 3 passos) e desenha uma linha reta ou curva para adivinhar onde a imagem estará no próximo momento. Isso permite pular vários passos de uma vez sem precisar calcular tudo do zero. É como um GPS que diz: "Olha, a estrada está reta, podemos acelerar e pular 3 quilômetros".
  • O Corretor (O Freio de Mão): Às vezes, a estrada faz uma curva fechada ou tem um buraco (o papel chama isso de "regiões de alta dinâmica"). Se o GPS tentar pular muito nesses momentos, você pode bater. O PrediT tem um sensor que avisa: "Ei, aqui a estrada está mudando rápido!". Nesse momento, ele para de pular, calcula o passo com cuidado (usa o "Corretor") para garantir que não vai errar, e só depois volta a acelerar.

3. O Resultado: Mais Rápido, Sem Perder Qualidade

A grande sacada do PrediT é que ele é adaptativo.

  • Quando a imagem está mudando devagar (o céu, o fundo), ele dá pulos gigantes.
  • Quando a imagem está mudando rápido (o rosto de uma pessoa, detalhes complexos), ele dá passos menores e mais cuidadosos.

O que isso significa na prática?

  • Velocidade: O modelo consegue gerar imagens e vídeos até 5 vezes mais rápido. Em vez de esperar 1 minuto, você espera 10 segundos.
  • Qualidade: Ao contrário de métodos antigos que deixavam a imagem borrada ou com "fantasmas", o PrediT mantém a qualidade quase idêntica à original.
  • Economia: Como é mais rápido, gasta menos energia e menos dinheiro de processamento.

Resumo em uma frase

O PrediT é como um motorista experiente que sabe exatamente quando pode acelerar e pular trechos da estrada e quando precisa frear e dirigir com cuidado, permitindo chegar ao destino (a imagem final) muito mais rápido sem bater no muro.

Por que isso é importante?
Isso torna a criação de vídeos e imagens de alta qualidade acessível para mais pessoas, permitindo que computadores comuns (como os de casa) façam tarefas que antes exigiam supercomputadores caros e lentos.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →