A systematic assessment of Large Language Models for constructing two-level fractional factorial designs

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um cozinheiro tentando criar o prato perfeito para uma festa enorme. Você tem muitos ingredientes (os fatores) e precisa decidir quais combinações testar para ver o que fica mais gostoso, mas não tem tempo nem dinheiro para cozinhar todas as combinações possíveis (isso seria um design fatorial completo).

Para resolver isso, você usa uma "receita inteligente" chamada design fatorial fracionário. Em vez de testar tudo, você testa apenas uma fração estratégica das combinações, garantindo que ainda consiga descobrir o que é importante. Tradicionalmente, os cozinheiros (ou estatísticos) usavam livros de receitas antigos ou softwares caros para encontrar essas combinações perfeitas.

Mas, e se pudéssemos pedir para um chef de cozinha robótico superinteligente (uma Inteligência Artificial) criar essa receita para nós? É exatamente isso que este artigo investiga.

O que os autores fizeram?

Os autores pegaram dois dos "robôs chef" mais famosos do mundo: o GPT-5.1 (do ChatGPT) e o Gemini 2.5 Flash (do Google). Eles deram a esses robôs uma tarefa específica: criar essas "receitas de experimentos" (chamadas de designs fatoriais) para diferentes tamanhos de festa (8, 16 ou 32 pratos) e com diferentes quantidades de ingredientes (de 4 a 26 fatores).

Para falar com os robôs, eles não apenas pediram "faça uma receita". Eles usaram uma técnica especial chamada "Zero-shot Chain of Thought" (Pensamento em Cadeia sem Exemplos).

A Analogia: Imagine que você não está apenas dando uma ordem seca ao robô. Você está dizendo: "Você é um chef de estatística experiente. Pense passo a passo sobre como misturar os ingredientes para obter o melhor resultado possível, sem desperdício. Mas, por favor, me entregue apenas a tabela final da receita, sem explicar o porquê de cada passo."

O que eles descobriram?

Os autores testaram 36 cenários diferentes e compararam as receitas criadas pelos robôs com as "melhores receitas do mundo" (que já existem nos livros de estatística).

Aqui estão os resultados principais, traduzidos para o dia a dia:

Para festas pequenas e médias (8 a 16 pratos com poucos ingredientes):
- O Gemini foi um gênio absoluto. Ele conseguiu criar a receita perfeita quase que 100% das vezes, igualando os melhores livros de estatística.
- O GPT também foi muito bom, mas às vezes errava um pouco a mão ou não conseguia encontrar a combinação perfeita em todas as tentativas.
Para festas grandes e complexas (32 pratos com muitos ingredientes):
- Aqui, os robôs começaram a se confundir. Quando o número de ingredientes aumentava (acima de 8 ou 9), eles muitas vezes falhavam em criar uma receita válida. Às vezes, esqueciam de um ingrediente, misturavam coisas que não deveriam, ou simplesmente diziam: "Não consigo fazer isso".
- O Gemini ainda foi um pouco melhor que o GPT, especialmente para festas de 32 pratos com 6 ingredientes, onde acertou em cheio todas as vezes. Mas, para combinações mais complexas, ambos perderam o rumo.

A Lição Principal

O artigo nos ensina que a Inteligência Artificial já é incrivelmente útil para tarefas de estatística do dia a dia, especialmente para problemas comuns e de tamanho médio. Se você precisa planejar um experimento simples no trabalho, pode confiar no Gemini (ou no GPT) para gerar a tabela de testes.

No entanto, não jogue fora seus livros de estatística ainda. Quando o problema fica muito complexo (muitos fatores), os robôs ainda não são confiáveis o suficiente para substituir o conhecimento humano e os softwares especializados. Eles são como aprendizes de chef: ótimos para o básico, mas ainda precisam de supervisão para as receitas de alta gastronomia.

Em resumo: A IA chegou para ajudar a criar experimentos, mas por enquanto, ela é um excelente assistente para o "básico bem feito", e não um substituto total para o especialista humano em problemas muito difíceis.

Each language version is independently generated for its own context, not a direct translation.

Aqui está um resumo técnico detalhado do artigo em português:

Título: Avaliação Sistemática de Modelos de Linguagem de Grande Escala (LLMs) para a Construção de Projetos Fatoriais Fracionários de Dois Níveis

1. Problema e Motivação

O projeto de experimentos (DoE) é fundamental para analisar processos complexos com eficiência. Tradicionalmente, projetos fatoriais fracionários de dois níveis ($2^{m-p}$) são obtidos a partir de catálogos em livros-texto padrão (como Wu e Hamada, 2011) ou softwares estatísticos (JMP, Minitab, R).
Com o advento da Inteligência Artificial Generativa (GenAI), surgiram grandes modelos de linguagem (LLMs) como o ChatGPT (GPT) e o Gemini, capazes de gerar texto e código. Embora esses modelos tenham demonstrado potencial para realizar tarefas matemáticas e de engenharia, não havia avaliação sistemática anterior sobre a qualidade dos projetos fatoriais fracionários gerados por eles. O objetivo deste estudo é verificar se LLMs modernos podem substituir ou auxiliar ferramentas tradicionais na construção desses projetos estatísticos otimizados.

2. Metodologia

Os autores realizaram uma avaliação sistemática comparando dois modelos populares: GPT-5.1 e Gemini 2.5 Flash.

Tarefa: Construir projetos fatoriais fracionários de dois níveis com tamanhos de execução (runs) de 8, 16 e 32, variando o número de fatores de 4 a 26. Foram testados 36 tarefas distintas.
Abordagem de Prompting: Desenvolveu-se um template de Zero-shot Chain-of-Thought (Zero-shot-CoT). O prompt incluiu:
- Role (Papel): Definir o LLM como especialista em DoE.
- Contexto: Especificar o objetivo (maximizar resolução e minimizar aberração) e os parâmetros (número de fatores $m$ , runs $n$ , níveis -1 e +1).
- Raciocínio: Instruir o modelo a "pensar passo a passo".
- Formato de Saída: Restringir a resposta a uma tabela em formato CSV (valores -1 ou 1), evitando explicações textuais para facilitar a avaliação automática.
Execução: Cada tarefa foi executada 10 vezes independentemente por cada modelo, totalizando 360 projetos gerados por modelo.
Critérios de Avaliação:
- Resolução: Comprimento da palavra mais curta na relação de definição.
- Aberração Mínima (Minimum Aberration): Critério para diferenciar projetos com a mesma resolução, minimizando a confusão (aliasing) de efeitos de baixa ordem.
- Aberração de Momento Mínima (Minimum Moment Aberration): Utilizada para lidar com designs não regulares e reduzir a complexidade computacional para muitos fatores.

3. Contribuições Principais

Primeira Avaliação Sistemática: O estudo é pioneiro em avaliar a capacidade de LLMs de ponta na construção de designs estatísticos experimentais rigorosos.
Template de Prompt Otimizado: Desenvolvimento de um template Zero-shot-CoT específico para DoE, que força a saída em formato estruturado (CSV) para validação automática.
Benchmarking de Desempenho: Estabelecimento de um conjunto de 36 tarefas como referência para futuras comparações de LLMs em tarefas de engenharia estatística.
Análise de Viabilidade: Determinação clara de onde os LLMs são confiáveis e onde falham em comparação com o estado da arte (catálogos ótimos).

4. Resultados

Os resultados foram analisados comparando os designs gerados com os designs ótimos conhecidos (mínima aberração):

Desempenho Geral:
- Os LLMs conseguiram construir designs ótimos para casos menores, mas a performance degradou significativamente à medida que o número de fatores e a complexidade aumentavam.
- Gemini 2.5 Flash superou consistentemente o GPT-5.1, especialmente em termos de consistência.
Detalhes por Tamanho de Execução (Runs):
- 8 Runs (4 a 7 fatores):
  - O Gemini obteve designs de aberração mínima em 100% das execuções para todos os fatores testados.
  - O GPT-5.1 também foi muito eficaz, encontrando designs ótimos na maioria das vezes, embora com ligeira variação na consistência para 5 e 6 fatores.
- 16 Runs (5 a 15 fatores):
  - O Gemini obteve designs ótimos para 5 a 8 fatores em pelo menos 80% das vezes. Para 9 a 15 fatores, a performance caiu, embora ainda gerasse designs com resolução aceitável.
  - O GPT-5.1 foi eficaz até 8 fatores, mas falhou consistentemente em encontrar designs ótimos para 12 fatores e teve dificuldade com 13-15 fatores.
- 32 Runs (6 a 26 fatores):
  - O Gemini foi perfeito para 6 fatores (100% de sucesso em encontrar o design ótimo). Para 7 e 8 fatores, encontrou o ótimo pelo menos uma vez.
  - Para mais de 9 fatores, ambos os modelos tiveram dificuldade em gerar designs válidos (muitas vezes falhando em gerar a tabela ou gerando designs não conformes) e, quando geravam, raramente atingiam a aberração mínima.
Falhas Comuns:
- Em tarefas complexas (muitos fatores), os modelos frequentemente falharam em gerar a tabela completa (erros de formatação, linhas faltantes) ou declararam incapacidade de gerar o design.
- Designs gerados para casos complexos muitas vezes não eram projetos $2^{m-p}$ regulares, resultando em resoluções baixas (1 ou 2).

5. Significado e Conclusões

Recomendação Prática: O estudo recomenda o uso do Gemini 2.5 Flash com o prompt desenvolvido para construir projetos de 8 runs (4-7 fatores) e 32 runs (6 fatores), bem como 16 runs (5-8 fatores). Estes são os casos mais comuns na prática industrial.
Limitações: Para projetos com mais fatores ou tamanhos de execução maiores, os LLMs atuais (mesmo os mais avançados) não são confiáveis para substituir softwares estatísticos dedicados ou livros-texto. A probabilidade de sucesso cai drasticamente abaixo de 50% para configurações mais complexas.
Futuro: Os autores sugerem que o uso de Few-shot prompting (com exemplos de raciocínio passo a passo) ou RAG (Retrieval-Augmented Generation), alimentando o modelo com livros de DoE, poderia melhorar significativamente o desempenho.
Impacto: O trabalho demonstra que, embora a IA Generativa tenha potencial para auxiliar em tarefas estatísticas rotineiras, ela ainda não substitui o conhecimento especializado e as ferramentas dedicadas para problemas de otimização combinatória complexos como o projeto de experimentos de alta dimensão.

A systematic assessment of Large Language Models for constructing two-level fractional factorial designs

O que os autores fizeram?

O que eles descobriram?

A Lição Principal

Título: Avaliação Sistemática de Modelos de Linguagem de Grande Escala (LLMs) para a Construção de Projetos Fatoriais Fracionários de Dois Níveis

1. Problema e Motivação

2. Metodologia

3. Contribuições Principais

4. Resultados

5. Significado e Conclusões

Mais como este

Efficient semiparametric estimation of marginal treatment effects with genetic instrumental variables

Functional Bias and Tangent-Space Geometry in Variational Inference

Shape-constrained density estimation with Wasserstein projection

Estimation of heterogeneous principal effects under principal ignorability

Uncertainty quantification for critical energy systems during compound extremes via BMW-GAM