The FID Lottery: Quantifying Hidden Randomness in Generative-Model Evaluation

Este artigo revela que o Frechet Inception Distance (FID) exibe uma aleatoriedade oculta significativa impulsionada primariamente pelas sementes de treinamento em vez de variações de amostragem, motivando uma recomendação para reportar o FID com barras de erro e tratar pequenas lacunas de desempenho como estatisticamente inconclusivas.

Autores originais: Nicolas Dufour, Alexei A. Efros, Patrick Pérez

Publicado 2026-06-19
📖 5 min de leitura🧠 Leitura aprofundada

Autores originais: Nicolas Dufour, Alexei A. Efros, Patrick Pérez

Artigo original sob licença CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Esta é uma explicação gerada por IA do artigo abaixo. Não foi escrita nem endossada pelos autores. Para precisão técnica, consulte o artigo original. Ler aviso legal completo

Imagine que você é um juiz em uma competição de culinária. Cada chef (um modelo de IA generativa) apresenta um prato, e você dá a eles uma nota baseada no quão delicioso o prato parece e sabe. No mundo da geração de imagens por IA, essa pontuação é chamada de FID (Distância de Fréchet Inception). Quanto menor a pontuação, melhor o prato.

Por anos, a comunidade tratou essa pontuação como um fato perfeito e imutável. Se o Chef A recebe uma pontuação de 34,0 e o Chef B recebe 33,5, todos assumem que o Chef B é definitivamente melhor.

Este artigo, "The FID Lottery" (A Loteria do FID), argumenta que isso é uma ilusão perigosa. Os autores afirmam que a pontuação que você vê não é apenas uma medida da habilidade do chef; é também uma medida de sorte.

Aqui está a decomposição de suas descobertas usando analogias simples:

1. As Duas Loterias

Os autores dizem que toda vez que uma IA gera uma imagem, duas "loterias" diferentes estão sendo jogadas:

  • A Loteria do Treinamento (A Grande): Antes mesmo do chef começar a cozinhar, ele joga os dados em três coisas:

    1. Os Ingredientes: Como os dados são embaralhados e ordenados.
    2. A Configuração da Despensa: Como o cérebro da IA (pesos) é inicializado no início.
    3. O Processo de Cozimento: Um tipo específico de "ruído" (estática aleatória) é adicionado à receita em cada etapa do treinamento.
    • O Resultado: Mesmo que dois chefs sigam exatamente a mesma receita, aquele que teve o lançamento de dados "sortudo" durante o treinamento acabará com um prato ligeiramente diferente (e muitas vezes melhor).
  • A Loteria da Geração (A Pequena): Depois que o prato é cozido, o chef precisa montá-lo. Ele tem que escolher um ponto de partida aleatório para a guarnição final.

    • O Resultado: Se você pedir ao mesmo chef para montar o prato 10 vezes, as pontuações variarão ligeiramente, mas não muito.

A Grande Descoberta: Os autores descobriram que retreinar o modelo (jogar a Loteria do Treinamento novamente) altera a pontuação 3,2 vezes mais do que apenas remontar o mesmo prato (jogar a Loteria da Geração).

2. O "Piso de Ruído" Oculto

O artigo revela que existe um "piso de ruído" para essas pontuações.

  • Imagine que a pontuação é um termômetro. Os autores descobriram que a temperatura flutua naturalmente entre 1% e 2% apenas por causa da sorte, mesmo que o chef não faça nada diferente.
  • O Problema: Muitos artigos recentes de IA alegam ter melhorado a pontuação em quantidades minúsculas (por exemplo, de 34,0 para 33,8). Os autores argumentam que, se a melhoria for menor do que esse "gap de sorte" de 1–2%, ela pode não ser uma melhoria real de fato. Pode ser apenas que os dados sortudos caíram a seu favor naquela vez.

3. Maior nem sempre é Melhor (Em relação à Sorte)

Você pode pensar que, se construir uma IA maior e mais poderosa (uma cozinha maior), o fator de sorte desapareceria.

  • A Descoberta: Não. Quer a IA seja pequena ou enorme, o "gap de sorte" permanece aproximadamente o mesmo percentual (1–2%).
  • A Analogia: É como jogar dados. Quer você jogue um único dado ou mil dados, a aleatoriedade ainda está lá. Tornar o modelo maior não torna os dados menos aleatórios.

4. O "Bilhete Dourado" (Sorte do Sorteio)

Os autores descobriram que algumas execuções de treinamento são incrivelmente sortudas.

  • A Descoberta: Uma semente de treinamento "sortuda" (um começo sortudo) pode alcançar a mesma pontuação de alta qualidade que uma semente "azarada", mas pode fazer isso duas vezes mais rápido.
  • A Implicação: Se um pesquisador afirma que seu novo método tornou o treinamento 2x mais rápido, eles podem estar apenas comparando seu método antigo "azarado" contra uma nova execução "sortuda". Eles podem não ter realmente melhorado o código; eles apenas tiveram sorte com os dados.

5. Ajustando a Orientação (O "Molho Secreto")

O artigo também examinou uma configuração chamada "Classifier-Free Guidance" (CFG), que é como um botão que diz à IA o quão estritamente seguir um comando (prompt).

  • A Descoberta: Se você ajustar este botão perfeitamente para cada uma das execuções de treinamento, você pode reduzir o gap de ruído pela metade.
  • A Armadilha: Fazer isso altera as classificações. A semente "sortuda" que era a nº 1 antes pode cair para a nº 5 depois que você ajusta o botão. É como se você ajustasse a temperatura do forno para cada bolo individualmente; aquele que era o melhor a 350°F pode não ser o melhor a 360°F.

As Novas Regras do Jogo

Com base nessas descobertas, os autores sugerem uma nova maneira de relatar resultados para que paremos de ser enganados pela sorte:

  1. Não confie em um único número: Não relate apenas uma pontuação. Relate uma "margem de erro" (um intervalo) baseada na execução do treinamento várias vezes com diferentes sementes.
  2. Ignore vitórias minúsculas: Se um novo método melhora a pontuação em menos de ~1,3%, trate-o como "inconclusivo". É provável que seja apenas ruído.
  3. Ajuste o botão: Se você estiver usando orientação (guidance), ajuste-a especificamente para cada execução, mas lembre-se de que isso altera quais execuções são consideradas "melhores".

Em resumo: O artigo nos diz que, no mundo da geração de imagens por IA, a sorte desempenha um papel massivo. Temos tratado flutuações aleatórias como avanços científicos. Para saber se um novo método é realmente melhor, precisamos realizar o experimento muitas vezes e ver se a melhoria se sustenta contra o "ruído" da loteria.

Afogado em artigos na sua área?

Receba digests diários dos artigos mais recentes que correspondam às suas palavras-chave de pesquisa — com resumos técnicos, no seu idioma.

Experimentar Digest →