A systematic assessment of Large Language Models for constructing two-level fractional factorial designs

Este artigo realiza uma avaliação sistemática de modelos de linguagem de grande escala (GPT e Gemini) para a construção de projetos fatoriais fracionários de dois níveis, demonstrando que eles conseguem gerar designs ótimos para até oito fatores em 8, 16 e 32 corridas, embora sua eficácia diminua conforme o número de fatores aumenta.

Alan R. Vazquez, Kilian M. Rother, Marco V. Charles-Gonzalez

Publicado Fri, 13 Ma
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um cozinheiro tentando criar o prato perfeito para uma festa enorme. Você tem muitos ingredientes (os fatores) e precisa decidir quais combinações testar para ver o que fica mais gostoso, mas não tem tempo nem dinheiro para cozinhar todas as combinações possíveis (isso seria um design fatorial completo).

Para resolver isso, você usa uma "receita inteligente" chamada design fatorial fracionário. Em vez de testar tudo, você testa apenas uma fração estratégica das combinações, garantindo que ainda consiga descobrir o que é importante. Tradicionalmente, os cozinheiros (ou estatísticos) usavam livros de receitas antigos ou softwares caros para encontrar essas combinações perfeitas.

Mas, e se pudéssemos pedir para um chef de cozinha robótico superinteligente (uma Inteligência Artificial) criar essa receita para nós? É exatamente isso que este artigo investiga.

O que os autores fizeram?

Os autores pegaram dois dos "robôs chef" mais famosos do mundo: o GPT-5.1 (do ChatGPT) e o Gemini 2.5 Flash (do Google). Eles deram a esses robôs uma tarefa específica: criar essas "receitas de experimentos" (chamadas de designs fatoriais) para diferentes tamanhos de festa (8, 16 ou 32 pratos) e com diferentes quantidades de ingredientes (de 4 a 26 fatores).

Para falar com os robôs, eles não apenas pediram "faça uma receita". Eles usaram uma técnica especial chamada "Zero-shot Chain of Thought" (Pensamento em Cadeia sem Exemplos).

  • A Analogia: Imagine que você não está apenas dando uma ordem seca ao robô. Você está dizendo: "Você é um chef de estatística experiente. Pense passo a passo sobre como misturar os ingredientes para obter o melhor resultado possível, sem desperdício. Mas, por favor, me entregue apenas a tabela final da receita, sem explicar o porquê de cada passo."

O que eles descobriram?

Os autores testaram 36 cenários diferentes e compararam as receitas criadas pelos robôs com as "melhores receitas do mundo" (que já existem nos livros de estatística).

Aqui estão os resultados principais, traduzidos para o dia a dia:

  1. Para festas pequenas e médias (8 a 16 pratos com poucos ingredientes):

    • O Gemini foi um gênio absoluto. Ele conseguiu criar a receita perfeita quase que 100% das vezes, igualando os melhores livros de estatística.
    • O GPT também foi muito bom, mas às vezes errava um pouco a mão ou não conseguia encontrar a combinação perfeita em todas as tentativas.
  2. Para festas grandes e complexas (32 pratos com muitos ingredientes):

    • Aqui, os robôs começaram a se confundir. Quando o número de ingredientes aumentava (acima de 8 ou 9), eles muitas vezes falhavam em criar uma receita válida. Às vezes, esqueciam de um ingrediente, misturavam coisas que não deveriam, ou simplesmente diziam: "Não consigo fazer isso".
    • O Gemini ainda foi um pouco melhor que o GPT, especialmente para festas de 32 pratos com 6 ingredientes, onde acertou em cheio todas as vezes. Mas, para combinações mais complexas, ambos perderam o rumo.

A Lição Principal

O artigo nos ensina que a Inteligência Artificial já é incrivelmente útil para tarefas de estatística do dia a dia, especialmente para problemas comuns e de tamanho médio. Se você precisa planejar um experimento simples no trabalho, pode confiar no Gemini (ou no GPT) para gerar a tabela de testes.

No entanto, não jogue fora seus livros de estatística ainda. Quando o problema fica muito complexo (muitos fatores), os robôs ainda não são confiáveis o suficiente para substituir o conhecimento humano e os softwares especializados. Eles são como aprendizes de chef: ótimos para o básico, mas ainda precisam de supervisão para as receitas de alta gastronomia.

Em resumo: A IA chegou para ajudar a criar experimentos, mas por enquanto, ela é um excelente assistente para o "básico bem feito", e não um substituto total para o especialista humano em problemas muito difíceis.