Imagine que você é um juiz em uma competição de culinária. Cada chef (um modelo de IA generativa) apresenta um prato, e você dá a eles uma nota baseada no quão delicioso o prato parece e sabe. No mundo da geração de imagens por IA, essa pontuação é chamada de FID (Distância de Fréchet Inception). Quanto menor a pontuação, melhor o prato.

Por anos, a comunidade tratou essa pontuação como um fato perfeito e imutável. Se o Chef A recebe uma pontuação de 34,0 e o Chef B recebe 33,5, todos assumem que o Chef B é definitivamente melhor.

Este artigo, "The FID Lottery" (A Loteria do FID), argumenta que isso é uma ilusão perigosa. Os autores afirmam que a pontuação que você vê não é apenas uma medida da habilidade do chef; é também uma medida de sorte.

Aqui está a decomposição de suas descobertas usando analogias simples:

1. As Duas Loterias

Os autores dizem que toda vez que uma IA gera uma imagem, duas "loterias" diferentes estão sendo jogadas:

A Loteria do Treinamento (A Grande): Antes mesmo do chef começar a cozinhar, ele joga os dados em três coisas:
1. Os Ingredientes: Como os dados são embaralhados e ordenados.
2. A Configuração da Despensa: Como o cérebro da IA (pesos) é inicializado no início.
3. O Processo de Cozimento: Um tipo específico de "ruído" (estática aleatória) é adicionado à receita em cada etapa do treinamento.
- O Resultado: Mesmo que dois chefs sigam exatamente a mesma receita, aquele que teve o lançamento de dados "sortudo" durante o treinamento acabará com um prato ligeiramente diferente (e muitas vezes melhor).
A Loteria da Geração (A Pequena): Depois que o prato é cozido, o chef precisa montá-lo. Ele tem que escolher um ponto de partida aleatório para a guarnição final.
- O Resultado: Se você pedir ao mesmo chef para montar o prato 10 vezes, as pontuações variarão ligeiramente, mas não muito.

A Grande Descoberta: Os autores descobriram que retreinar o modelo (jogar a Loteria do Treinamento novamente) altera a pontuação 3,2 vezes mais do que apenas remontar o mesmo prato (jogar a Loteria da Geração).

2. O "Piso de Ruído" Oculto

O artigo revela que existe um "piso de ruído" para essas pontuações.

Imagine que a pontuação é um termômetro. Os autores descobriram que a temperatura flutua naturalmente entre 1% e 2% apenas por causa da sorte, mesmo que o chef não faça nada diferente.
O Problema: Muitos artigos recentes de IA alegam ter melhorado a pontuação em quantidades minúsculas (por exemplo, de 34,0 para 33,8). Os autores argumentam que, se a melhoria for menor do que esse "gap de sorte" de 1–2%, ela pode não ser uma melhoria real de fato. Pode ser apenas que os dados sortudos caíram a seu favor naquela vez.

3. Maior nem sempre é Melhor (Em relação à Sorte)

Você pode pensar que, se construir uma IA maior e mais poderosa (uma cozinha maior), o fator de sorte desapareceria.

A Descoberta: Não. Quer a IA seja pequena ou enorme, o "gap de sorte" permanece aproximadamente o mesmo percentual (1–2%).
A Analogia: É como jogar dados. Quer você jogue um único dado ou mil dados, a aleatoriedade ainda está lá. Tornar o modelo maior não torna os dados menos aleatórios.

4. O "Bilhete Dourado" (Sorte do Sorteio)

Os autores descobriram que algumas execuções de treinamento são incrivelmente sortudas.

A Descoberta: Uma semente de treinamento "sortuda" (um começo sortudo) pode alcançar a mesma pontuação de alta qualidade que uma semente "azarada", mas pode fazer isso duas vezes mais rápido.
A Implicação: Se um pesquisador afirma que seu novo método tornou o treinamento 2x mais rápido, eles podem estar apenas comparando seu método antigo "azarado" contra uma nova execução "sortuda". Eles podem não ter realmente melhorado o código; eles apenas tiveram sorte com os dados.

5. Ajustando a Orientação (O "Molho Secreto")

O artigo também examinou uma configuração chamada "Classifier-Free Guidance" (CFG), que é como um botão que diz à IA o quão estritamente seguir um comando (prompt).

A Descoberta: Se você ajustar este botão perfeitamente para cada uma das execuções de treinamento, você pode reduzir o gap de ruído pela metade.
A Armadilha: Fazer isso altera as classificações. A semente "sortuda" que era a nº 1 antes pode cair para a nº 5 depois que você ajusta o botão. É como se você ajustasse a temperatura do forno para cada bolo individualmente; aquele que era o melhor a 350°F pode não ser o melhor a 360°F.

As Novas Regras do Jogo

Com base nessas descobertas, os autores sugerem uma nova maneira de relatar resultados para que paremos de ser enganados pela sorte:

Não confie em um único número: Não relate apenas uma pontuação. Relate uma "margem de erro" (um intervalo) baseada na execução do treinamento várias vezes com diferentes sementes.
Ignore vitórias minúsculas: Se um novo método melhora a pontuação em menos de ~1,3%, trate-o como "inconclusivo". É provável que seja apenas ruído.
Ajuste o botão: Se você estiver usando orientação (guidance), ajuste-a especificamente para cada execução, mas lembre-se de que isso altera quais execuções são consideradas "melhores".

Em resumo: O artigo nos diz que, no mundo da geração de imagens por IA, a sorte desempenha um papel massivo. Temos tratado flutuações aleatórias como avanços científicos. Para saber se um novo método é realmente melhor, precisamos realizar o experimento muitas vezes e ver se a melhoria se sustenta contra o "ruído" da loteria.

Resumo Técnico: A Loteria do FID: Quantificando a Aleatoriedade Oculta na Avaliação de Modelos Generativos

Declaração do Problema

A Distância de Fréchet Inception (FID) serve como o padrão de fato para avaliar modelos de geração de imagens. No entanto, a comunidade tipicamente reporta um único número de FID derivado de um único modelo treinado usando uma única semente de amostragem. Este artigo argumenta que o reporte de um número único obscurece uma significativa "lacuna de reprodutibilidade" causada pela aleatoriedade inerente aos pipelines de treinamento e geração.

Os autores identificam duas "loterias" distintas que introduzem variância nos escores de FID:

A Loteria do Treinamento: Ocorre uma vez por execução de treinamento, impulsionada pela inicialização aleatória de pesos, ordenação de dados (embaralhamento de minibatches), ruído Gaussiano injetado por passo pela perda de correspondência de fluxo (flow-matching) e não-determinismo de hardware (deriva de bits em execução multi-GPU).
A Loteria da Geração: Ocorre durante a amostragem, impulsionada pelo ruído inicial aleatório ( $x_T \sim \mathcal{N}(0, I)$ ) extraído para cada imagem gerada.

A prática convencional muitas vezes mitiga a loteria da geração ao tirar a média sobre múltiplas sementes de amostragem, mas ignora a loteria do treinamento. O artigo postula que a variância introduzida pelo retreinamento de um modelo (mesmo com a mesma receita) é significativamente maior do que a variância introduzida pela reamostragem de um modelo fixo, tornando reivindicações de FID de semente única potencialmente inconclusivas.

Metodologia

Os autores tratam o FID como uma variável aleatória definida sobre um painel de dois eixos de $N$ sementes de treinamento independentes e $K$ sementes de amostragem.

Configuração Experimental: O estudo utiliza Scalable Interpolant Transformers (SiT) treinados em ImageNet condicional de classe (256×256) usando correspondência de fluxo condicional.
Escala: Os experimentos cobrem centenas de redes SiT em quatro tamanhos de modelo (S, B, L, XL) e orçamentos de treinamento de até 2 milhões de passos.
Decomposição de Variância: Os autores isolam sistematicamente as fontes de aleatoriedade criando condições controladas onde apenas uma fonte varia por vez (por exemplo, variando apenas a inicialização, apenas a ordem dos dados ou apenas o ruído de treinamento por passo) enquanto mantém as outras constantes.
Métricas:
- $\sigma_{within}$ : Variância entre sementes de amostragem para um modelo treinado fixo.
- $\sigma_{between}$ : Variância entre as médias de diferentes sementes de treinamento.
- Coeficiente de Variação (CoV): $\sigma/\mu$ , usado para normalizar a variância entre diferentes magnitudes de FID (ex: guiado vs. não guiado).
Protocolo GS-FID: Os autores introduzem um protocolo de "FID de Seção Áurea" (Golden-Section FID) onde as escalas de Classifier-Free Guidance (CFG) são ajustadas individualmente para cada par (semente de treinamento, semente de amostragem) usando busca de seção áurea para minimizar o FID por célula.

Principais Resultados

1. A Variabilidade de Treinamento Domina a Variabilidade de Avaliação

Retreinar um modelo com uma semente diferente move o escore de FID 3,2× mais do que redesenhar amostras de uma rede fixa.

Em um experimento SiT-B/2, o desvio padrão entre sementes ( $\sigma_{between} \approx 0,44$ ) foi 3,2 vezes maior que o desvio padrão dentro da semente ( $\sigma_{within} \approx 0,14$ ).
O CoV para sementes de treinamento é aproximadamente 1,3%, enquanto o CoV para sementes de amostragem é de apenas ~0,4%.
Aumentar o orçamento de amostragem (mais $K$ ) reduz o tremor dentro da semente, mas deixa o envelope dominante entre sementes intocado.

2. Fontes de Variância de Treinamento

A loteria do treinamento é impulsionada por três fatores principais, ordenados por contribuição para a variância:

Ruído de Treinamento por Passo: O novo ruído Gaussiano injetado em cada passo de gradiente pela perda de correspondência de fluxo é o maior contribuinte (reproduzindo 77% da variância base).
Inicialização Aleatória: Contribui significativamente (67% da base).
Ordenação de Dados: Contribui menos, mas introduz uma forma de distribuição distinta (um núcleo denso com uma cauda longa superior), sugerindo ocorrências ocasionais de "execuções ruins" em vez de variância contínua.

Não-Determinismo de Hardware: A deriva de bits em execução multi-GPU foi considerada negligenciável, contribuindo com menos variância do que a loteria de amostragem.

3. O Piso de CoV de 1–2% é Invariante de Escala

Aumentar o computo (passos de treinamento) ou o tamanho do modelo (S para XL) não elimina a variância.

O CoV permanece estável dentro de uma banda de 1–2% (mediana de 1,30%) em todos os tamanhos de modelo e checkpoints de treinamento.
Modelos maiores não resultam em dispersões de FID proporcionalmente mais apertadas; o ruído relativo do piso é uma propriedade da métrica e da função de perda, não da escala.
A estabilidade de ranking (correlação de rankings de sementes ao longo do tempo) é fraca antes de ~1M de passos, o que significa que os rankings de checkpoints iniciais são maus preditores do desempenho final.

4. O Impacto da Orientação Livre de Classificador (CFG)

GS-FID: Ajustar o CFG individualmente para cada par de sementes (GS-FID) reduz o spread relativo pela metade (o CoV cai de 1,26% para 0,67%).
Remanejamento de Ranking: No entanto, este ajuste altera quais sementes performam melhor. A correlação de Spearman entre os rankings não guiados e guiados é de apenas 0,73. Uma semente selecionada como "melhor" via FID não guiado não é confiavelmente a melhor sob orientação otimizada.
Janelas de Taxa de Aprendizado (LR): Sob GS-FID, a LR ideal não é um ponto único, mas uma "janela" plana (aproximadamente 1,7× de largura) onde LRs adjacentes produzem escores de FID indistinguíveis.

5. A "Sorte do Sorteio"

A escolha da semente de treinamento impacta significativamente a eficiência. Uma semente "sortuda" pode atingir o mesmo alvo de FID com até 2× menos computo que uma semente "azarada" (ex: atingindo um alvo em 1M de passos que uma semente azarada só alcança em 2M). Isso implica que artigos de semente única que alegam ganhos de velocidade podem estar apenas se beneficiando de uma semente favorável em vez de melhorias arquitetônicas.

Significância e Recomendações

O artigo conclui que a prática atual de reportar um único número de FID é insuficiente para uma avaliação rigorosa. Os autores propõem um novo protocolo de avaliação:

Reportar Barras de Erro: Em vez de um número único, reporte o FID sobre várias sementes de treinamento (ex: 5–10) para capturar a loteria do treinamento.
Limiares Inconclusivos: Trate qualquer lacuna de FID abaixo do CoV de ~1,3% medido empiricamente (ou ~2% para segurança) como inconclusiva. Alegações de melhoria devem exceder este piso de ruído para serem consideradas reais.
Otimização por Célula: Ao usar CFG, utilize a orientação ótima por célula (GS-FID) em vez de um valor global fixo, reconhecendo que isso altera o ranking das sementes.
Evitar Cherry-Picking: Reconheça que selecionar a única melhor semente de um grande grupo pode fabricar melhorias impressionantes que são meros artefatos estatísticos da loteria das sementes.

Os autores enfatizam que estas descobertas são específicas para a combinação SiT/Flow-Matching/ImageNet/Inception-V3, mas sugerem que o "piso de 1–2%" pode ser uma característica geral das métricas de avaliação generativa modernas, instando a comunidade a adotar padrões de reporte estatístico mais robustos.

The FID Lottery: Quantifying Hidden Randomness in Generative-Model Evaluation