Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um chef de cozinha tentando criar o prato perfeito (uma imagem gerada por IA) usando ingredientes (dados) e tempo de cozimento (poder de computador).

Até agora, os chefs de IA sabiam que, se usassem mais ingredientes e mais tempo, o prato ficava melhor. Mas eles não tinham uma receita exata. Eles tinham que adivinhar: "Será que devo usar mais farinha (modelo maior) ou mais ovos (mais dados)?". Isso era caro e demorado, como tentar cozinhar sem saber a quantidade certa.

Este artigo, escrito por pesquisadores para a conferência ICLR 2026, descobriu essa receita secreta para os "Transformadores de Difusão" (DiT), que são os modelos modernos que criam imagens incríveis a partir de texto.

Aqui está a explicação simples, usando analogias do dia a dia:

1. A Grande Descoberta: A Lei do "Tamanho Certo"

Os pesquisadores testaram milhões de combinações, desde cozinhas pequenas até "fábricas gigantes" de computação. Eles descobriram que existe uma relação matemática perfeita (uma lei de potência) entre:

Quanto dinheiro você gasta em energia (orçamento de computação).
O tamanho do seu "chefe de cozinha" (o modelo de IA).
A quantidade de ingredientes que você compra (os dados de treinamento).

A Analogia do Carro:
Imagine que você tem um orçamento fixo para construir um carro.

Se o carro for muito pequeno (modelo pequeno) mas você usar todos os seus recursos para encher o tanque de gasolina (muitos dados), ele não vai andar rápido.
Se o carro for enorme (modelo gigante) mas você tiver apenas um copo de gasolina (poucos dados), ele também não vai andar.
A Lei Descoberta: Existe um ponto de equilíbrio perfeito. Para cada quantidade de dinheiro que você tem, há um tamanho de carro e uma quantidade de gasolina ideais. O papel diz exatamente qual é esse ponto.

2. A Previsão Mágica: "Se eu gastar X, o resultado será Y"

O mais legal é que, uma vez que você conhece essa lei, você pode prever o futuro.

Os pesquisadores disseram: "Se gastarmos uma quantidade absurda de energia (1.5 sextilhão de operações), o modelo perfeito terá cerca de 1 bilhão de parâmetros".
Eles então construíram exatamente esse modelo, gastaram o dinheiro e... o resultado foi exatamente o que a fórmula previu!
É como se um meteorologista dissesse: "Se você gastar R$ 100 em um guarda-chuva, ele vai te proteger 99% das vezes na chuva", e depois você testasse e funcionasse perfeitamente.

3. A Qualidade é Previsível (e Barata de Medir)

Antes, para saber se uma IA estava ficando boa, você precisava gerar milhares de imagens e pedir para humanos avaliarem (o que é caro e lento).
O papel mostra que você não precisa fazer isso. Basta olhar para o "erro de treinamento" (uma medida matemática simples que o computador vê enquanto aprende).

A Analogia do Termômetro: O erro de treinamento é como um termômetro. Se a temperatura (erro) estiver descendo de acordo com a lei, você sabe que o "paciente" (a IA) está ficando saudável e que as imagens geradas ficarão lindas, sem precisar esperar o paciente sair da cama para ver se ele está bem.

4. Funciona em Qualquer Lugar? (Dados Estranhos)

Eles testaram se essa lei funcionava se trocasse os ingredientes. Eles treinaram com fotos de um tipo de site, mas testaram com fotos de outro (como mudar de cozinhar com tomates brasileiros para tomates italianos).
Resultado: A lei continua valendo! O "sabor" muda um pouco (o prato fica um pouco mais ou menos gostoso dependendo do tomate), mas a relação entre o tamanho do chef, o tempo de cozimento e a qualidade final permanece a mesma. Isso significa que a regra é universal.

5. A Ferramenta para Economizar Dinheiro

Por que isso importa para o mundo real?
Imagine que uma empresa quer criar uma IA nova. Em vez de gastar milhões de dólares testando 100 configurações diferentes de modelos e dados (o que é como jogar dinheiro fora), eles podem:

Fazer testes pequenos e baratos.
Usar a "Lei de Escala" descoberta neste papel.
Calcular matematicamente qual será o melhor tamanho de modelo e a quantidade de dados para o orçamento deles.

Isso evita desperdício e permite que as empresas saibam exatamente quanto investir para obter o melhor resultado possível.

Resumo em uma frase

Este papel descobriu a "tabela de conversão" perfeita para a inteligência artificial de imagens: ele nos diz exatamente quanto "chef" e quantos "ingredientes" precisamos para cada "dinheiro" gasto, permitindo prever resultados incríveis com muito menos tentativa e erro.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: Leis de Escala para Transformers de Difusão (DiT)

1. Problema e Motivação

As Leis de Escala (Scaling Laws) são fundamentais para modelos de linguagem grandes (LLMs), permitindo prever o desempenho ótimo com base no orçamento computacional, tamanho do modelo e quantidade de dados. No entanto, para Modelos de Difusão, especificamente os Transformers de Difusão (DiT), essas leis permanecem pouco exploradas.

O Desafio: Embora se saiba empiricamente que modelos maiores de difusão geram imagens de melhor qualidade, não existia uma formulação explícita que relacionasse o orçamento computacional ( $C$ ), o tamanho do modelo ( $N$ ), a quantidade de dados ( $D$ ) e a perda de treinamento ( $L$ ).
Consequência: A ausência dessas leis obriga os pesquisadores a realizar buscas heurísticas caras e ineficientes para determinar o equilíbrio ideal entre tamanho do modelo e dados para um orçamento fixo.

2. Metodologia

Os autores realizaram experimentos abrangentes para caracterizar o comportamento de escala dos DiTs na síntese de imagem texto-para-imagem.

Configurações Experimentais

Orçamento Computacional: Variação de $1 \times 10^{17}$ a $6 \times 10^{18}$ FLOPs.
Arquitetura: Utilizaram uma arquitetura Transformer "vanilla" (padrão) com modificações mínimas, concatenando tokens de texto, imagem e tempo (condicionamento in-context).
Dados: Um conjunto de dados de 108 milhões de pares imagem-texto amostrados do Laion-Aesthetic, com legendas reescritas pelo modelo LLAVA 1.5.
Formulação de Difusão: Utilizaram Rectified Flow (RF) com predição de velocidade ( $v$ -prediction) e amostragem de timesteps Logit-Normal (LN).
Métricas de Avaliação:
- Perda de Treinamento: Estimada via Monte Carlo.
- Métricas de Geração: FID (Fréchet Inception Distance), GenEval e modelos de preferência humana (HPSv2.1, ImageReward).
- Verificação de Verossimilhança: Variational Lower Bound (VLB) e Verossimilhança Exata (via ODEs).

Abordagem de Análise

Curvas IsoFLOP: Para cada orçamento computacional fixo, treinaram múltiplos modelos com tamanhos variados. Ajustaram uma parábola à curva de perda para identificar o ponto ótimo (tamanho de modelo e quantidade de dados que minimizam a perda).
Ajuste de Potência: Com os pontos ótimos de diferentes orçamentos, ajustaram equações de lei de potência para relacionar $C$ , $N$ , $D$ e $L$ .
Extrapolação: Usaram as leis derivadas para prever o desempenho em orçamentos muito maiores ( $1.5 \times 10^{21}$ FLOPs) e validaram treinando um modelo real nessas especificações.
Generalização: Testaram a transferência das leis em dados fora de domínio (COCO, Flickr30k, JourneyDB) e em diferentes arquiteturas (Cross-Attention vs. In-Context).

3. Contribuições Principais

Primeira Formulação Explícita de Leis de Escala para DiT: Estabelecem a primeira relação matemática direta entre orçamento computacional, tamanho do modelo, dados e perda para Transformers de Difusão.
Previsão de Desempenho em Grande Escala: Demonstraram que é possível prever com alta precisão a perda de treinamento e a qualidade de geração (FID) para modelos com 1 bilhão de parâmetros treinados com um orçamento de $1.5 \times 10^{21}$ FLOPs, apenas baseando-se em dados de orçamentos menores.
Correlação entre Perda e Qualidade de Geração: Provaram que a tendência da perda de pré-treinamento segue a mesma lei de potência das métricas de geração (como FID), permitindo usar a perda como um proxy confiável e barato para avaliar a qualidade da síntese.
Benchmark Preditivo: Propõem o uso das leis de escala como um benchmark para avaliar a qualidade de dados e arquiteturas em custos computacionais reduzidos, analisando os expoentes das leis de potência.

4. Resultados Chave

Relações de Escala Derivadas

Os autores encontraram que as variáveis ótimas seguem as seguintes relações de lei de potência em relação ao orçamento computacional $C$ :

Tamanho Ótimo do Modelo ( $N_{opt}$ ):
$N_{opt} \propto C^{0.5681}$
Quantidade Ótima de Dados ( $D_{opt}$ ):
$D_{opt} \propto C^{0.4319}$
Isso indica que, sob as configurações atuais, o tamanho do modelo deve crescer ligeiramente mais rápido do que a quantidade de dados à medida que o orçamento aumenta.
Perda de Treinamento ( $L$ ):
$L \propto C^{-0.0273}$
FID (Qualidade de Geração):
$FID \propto C^{-0.234}$

Validação

Precisão de Extrapolação: Ao treinar um modelo de 1B parâmetros com o orçamento previsto de $1.5 \times 10^{21}$ FLOPs, a perda final e o FID corresponderam quase perfeitamente às previsões das curvas ajustadas.
Generalização (Out-of-Domain): As leis de escala mantiveram-se válidas ao testar modelos treinados no Laion5B no conjunto de validação do COCO. Houve um deslocamento vertical (offset) nos valores absolutos (devido à complexidade do dataset), mas a tendência de potência (slope) permaneceu idêntica.
Comparação de Arquiteturas: Ao comparar In-Context Transformers com Cross-Attention Transformers, observou-se que o Cross-Attention possui uma inclinação mais acentuada na curva de perda, indicando maior eficiência de escala (melhor desempenho com o mesmo orçamento).

5. Significado e Impacto

Este trabalho preenche uma lacuna crítica na compreensão teórica dos modelos de difusão modernos.

Eficiência de Recursos: Permite que pesquisadores e engenheiros alocem orçamentos computacionais de forma ótima, evitando o desperdício de recursos em configurações subótimas de modelo/dados.
Avaliação de Baixo Custo: Oferece uma maneira de avaliar a qualidade de novos datasets ou arquiteturas treinando apenas modelos pequenos e extrapolando o desempenho esperado para escalas maiores, economizando milhões em custos de computação.
Fundamentação Teórica: Estabelece que os DiTs compartilham propriedades de escala previsíveis semelhantes aos LLMs, sugerindo que a escalabilidade é uma característica intrínseca da arquitetura Transformer aplicada à difusão, independentemente do domínio de dados (desde que a distribuição seja consistente).

Em suma, o artigo transforma a escalabilidade dos DiTs de um processo de "tentativa e erro" caro em uma disciplina previsível e matematicamente fundamentada.

Scaling Laws For Diffusion Transformers