A systematic assessment of Large Language Models for constructing two-level fractional factorial designs

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que eres un chef que quiere probar miles de recetas diferentes para encontrar la combinación perfecta de ingredientes. Pero tienes un problema: tu cocina es pequeña, solo tienes espacio para cocinar 8, 16 o 32 platos a la vez. ¿Cómo decides qué ingredientes probar juntos para no desperdiciar espacio y, al mismo tiempo, descubrir qué combinación es la mejor?

En el mundo de la estadística y la ingeniería, esto se llama Diseño de Experimentos. Los científicos usan una herramienta llamada "diseño factorial fraccional" para hacer exactamente eso: probar muchos factores (ingredientes) con muy pocas pruebas (platos).

Aquí es donde entra la historia de este artículo, que es como un examen de cocina para las nuevas inteligencias artificiales.

🤖 Los Protagonistas: Dos "Cocineros" Digitales

Los autores del estudio, Alan, Kilian y Marco, decidieron poner a prueba a dos de los "cocineros" digitales más famosos del momento: GPT-5.1 (de ChatGPT) y Gemini 2.5 Flash (de Google).

La idea era sencilla: ¿Pueden estas inteligencias artificiales, que normalmente escriben poemas o resuelven problemas de matemáticas, diseñar estos experimentos científicos complejos por sí solas?

📝 La Receta: El "Prompt" (La Instrucción)

Para ponerlos a prueba, los autores no les dieron una receta completa. En su lugar, les dieron una instrucción maestra (llamada prompt).

Imagina que le dices a un chef novato: "Eres un experto en cocina. Quiero que prepares un menú de 8 platos con 4 ingredientes. Piensa paso a paso, pero solo dame la lista de ingredientes, sin explicarme nada más. Usa comas para separar los ingredientes."

A esto los autores le llamaron "Zero-shot Chain of Thought". Es como decirle al robot: "Piensa paso a paso, pero no me des ejemplos previos, solo usa tu conocimiento general".

🔬 El Examen: 36 Retos Diferentes

Les dieron a los robots 36 tareas diferentes. Algunas eran fáciles (cocinar 8 platos con 4 ingredientes) y otras muy difíciles (cocinar 32 platos con hasta 26 ingredientes).

Los autores evaluaron las "recetas" que salieron de los robots basándose en dos reglas de oro:

Resolución: ¿Puedes distinguir claramente qué ingrediente afecta al sabor? (Si la resolución es baja, es como si mezclaras sal y azúcar y no supieras cuál hizo la comida salada).
Aberración Mínima: ¿Es la combinación más eficiente posible? (Como si pudieras probar todas las combinaciones posibles con el menor número de platos posible).

🏆 Los Resultados: ¿Quién ganó la medalla de oro?

Aquí viene la parte divertida, porque los resultados no fueron iguales para ambos:

1. El "Novato" Consistente (GPT-5.1):
Este modelo fue decente. Cuando los experimentos eran pequeños (8 o 16 platos con pocos ingredientes), a veces acertaba la receta perfecta. Pero cuando la cocina se llenaba de ingredientes (más de 8 factores), se confundía. A menudo olvidaba pasos, dejaba espacios vacíos en la lista o proponía recetas que no funcionaban.

Analogía: Es como un estudiante que sabe las tablas de multiplicar, pero si le pides que resuelva un problema de física complejo, empieza a inventar números.

2. El "Chef" Estrella (Gemini 2.5 Flash):
¡Este fue el ganador! Gemini fue increíblemente consistente.

En los experimentos pequeños (8 platos), acertó la receta perfecta el 100% de las veces.
En los medianos (16 platos), acertó casi siempre.
Incluso en el reto más difícil de 32 platos con 6 ingredientes, logró la receta perfecta en todas sus intentos.
Analogía: Es como un chef que, aunque nunca ha visto la receta escrita, olfatea los ingredientes y sabe exactamente cómo combinarlos para obtener el plato perfecto, una y otra vez.

🚦 La Conclusión: ¿Deberíamos confiar en la IA para esto?

Los autores nos dan un consejo muy práctico, como si fuera un letrero en la puerta de la cocina:

Para tareas pequeñas y comunes: ¡Sí! Puedes usar a Gemini (con la instrucción correcta) para diseñar tus experimentos. Es rápido, barato y muy preciso. Es como usar una app de navegación para ir al supermercado: funciona perfecto.
Para tareas grandes y complejas: ¡Cuidado! Si tu experimento tiene muchos ingredientes (más de 8 o 10), la IA todavía se equivoca. En esos casos, es mejor usar los libros de texto clásicos o el software estadístico tradicional (como JMP o Minitab). Es como si, para construir un rascacielos, confiaras en un arquitecto humano experto en lugar de en una IA que aún está aprendiendo.

💡 El Mensaje Final

Este estudio nos dice que la Inteligencia Artificial ha dado un salto gigante. Ya no solo puede escribir correos electrónicos; puede ayudar a los ingenieros y científicos a planear experimentos reales. Pero, como en cualquier nueva tecnología, hay que saber cuándo usarla y cuándo pedir ayuda a un humano experto.

¡Y eso es todo! La IA está aprendiendo a cocinar, y por ahora, Gemini parece ser el chef más prometedor para menús pequeños. 🍽️🤖

Each language version is independently generated for its own context, not a direct translation.

Aquí presento un resumen técnico detallado del artículo en español, estructurado según los puntos solicitados:

Resumen Técnico: Evaluación Sistemática de Modelos de Lenguaje Grandes para la Construcción de Diseños Factoriales Fraccionarios de Dos Niveles

1. Planteamiento del Problema

Los diseños factoriales fraccionarios de dos niveles ($2^{m-p}$) son herramientas estadísticas fundamentales en el Diseño de Experimentos (DoE) para estudiar múltiples factores con un número limitado de corridas. Tradicionalmente, estos diseños se obtienen de catálogos estandarizados en libros de texto (como Wu y Hamada, o Montgomery) o software estadístico (JMP, Minitab, R).

El problema central de este estudio es la incertidumbre sobre la capacidad de los Modelos de Lenguaje Grandes (LLMs) modernos, como GPT y Gemini, para generar estos diseños de manera autónoma. Aunque los LLMs han demostrado éxito en otras áreas (optimización, generación de código), no se había evaluado sistemáticamente la calidad de los diseños factoriales que pueden producir, ni si pueden igualar o superar a los diseños óptimos conocidos en términos de criterios estadísticos rigurosos.

2. Metodología

Los autores evaluaron dos clases populares de LLMs: GPT-5.1 (versión por defecto de ChatGPT) y Gemini 2.5 Flash (versión por defecto de Gemini).

Tareas de Evaluación: Se definieron 36 tareas de construcción de diseños con tamaños de corrida ( $n$ ) de 8, 16 y 32, y un número de factores ( $m$ ) que varió de 4 a 26.
Técnica de Prompting (Zero-shot-CoT): Se desarrolló una plantilla de instrucción (prompt) avanzada que no incluye ejemplos previos (zero-shot), pero sí utiliza la técnica de "Cadena de Pensamiento" (Chain of Thought).
- Rol: Se asignó al LLM la persona de "experto en diseño de experimentos".
- Contexto y Objetivo: Se especificó la necesidad de maximizar la resolución y minimizar la aberración.
- Formato de Salida: Se exigió estrictamente una tabla en formato CSV (valores -1 y 1) sin texto explicativo, para facilitar la evaluación automatizada.
Procedimiento: Se ejecutaron 10 réplicas independientes de cada tarea para cada modelo, generando un total de 360 diseños por modelo.
Criterios de Evaluación:
- Resolución: Longitud de la palabra más corta en la relación definidora.
- Aberración Mínima (Minimum Aberration): Criterio para diferenciar diseños con la misma resolución, minimizando la confusión de efectos de bajo orden.
- Aberración de Momento Mínima (Minimum Moment Aberration): Un criterio computacionalmente más eficiente y versátil (aplicable a diseños no regulares) que es equivalente a la aberración mínima para diseños regulares.

3. Contribuciones Clave

Primera Evaluación Sistemática: Este es el primer estudio que evalúa cuantitativamente la capacidad de los LLMs para construir diseños factoriales fraccionarios de dos niveles bajo criterios estadísticos rigurosos.
Desarrollo de una Plantilla de Prompting Especializada: Creación de una plantilla Zero-shot-CoT optimizada para generar tablas de diseño en formato CSV, demostrando cómo el prompting estructurado puede alinear la salida de un LLM con necesidades técnicas específicas.
Benchmarks de Rendimiento: Se estableció un conjunto de 36 tareas como referencia para evaluar futuras versiones de LLMs en tareas de ingeniería estadística.
Código y Datos Abiertos: Los autores publicaron todo el código (Python/R) y los datos en GitHub, permitiendo la reproducibilidad del estudio.

4. Resultados Principales

Desempeño General:

Gemini 2.5 Flash superó consistentemente a GPT-5.1 en términos de consistencia y calidad.
Ambos modelos lograron construir diseños óptimos (con aberración mínima) para tamaños de corrida pequeños (8 y 16 corridas) con un número limitado de factores.
El rendimiento decae significativamente a medida que aumenta la complejidad (número de factores y corridas), fallando en generar diseños válidos o óptimos para configuraciones más grandes.

Detalles por Tamaño de Corrida:

8 Corridas (4-7 factores):
- Gemini: Logró una tasa de éxito del 100%, generando diseños de aberración mínima en todas las 10 ejecuciones para todos los factores probados.
- GPT-5.1: También encontró diseños óptimos, pero con menor consistencia (ej. 8/10 veces para 5 factores, 5/10 para 6 factores).
16 Corridas (5-15 factores):
- Gemini: Fue altamente efectivo para 5 a 8 factores (tasa de éxito $\ge$ 80% para diseños óptimos). Para 11 y 12 factores, la consistencia disminuyó.
- GPT-5.1: Funcionó bien hasta 8 factores, pero falló en encontrar el diseño de aberración mínima para 12 factores y mostró menor consistencia en factores superiores.
32 Corridas (6-26 factores):
- Gemini: Fue capaz de generar el diseño óptimo de 32 corridas con 6 factores en el 100% de las ejecuciones. Para 7 y 8 factores, encontró diseños óptimos al menos una vez, pero la tasa de éxito bajó drásticamente para más de 9 factores.
- GPT-5.1: Fue moderadamente efectivo solo para el diseño de 6 factores. Para diseños con más factores, fue ineficaz, a menudo generando diseños no conformes (con entradas faltantes o inviables) o resoluciones muy bajas.

Limitaciones:

Ambos modelos fallaron consistentemente en construir diseños óptimos para configuraciones con más de 8-9 factores en 16 corridas, o más de 6-8 factores en 32 corridas.
En tareas complejas, los modelos a menudo rechazaron la tarea o generaron tablas con errores de formato que requerían corrección manual.

5. Significado e Implicaciones

Viabilidad para Prácticas Comunes: Dado que la mayoría de los experimentos industriales reales involucran entre 4 y 8 factores, los LLMs (especialmente Gemini 2.5 Flash) son herramientas viables y potentes para generar diseños iniciales en estos escenarios comunes, ofreciendo una alternativa rápida a los catálogos tradicionales.
Advertencia para Casos Complejos: Para diseños con muchos factores o corridas grandes, los LLMs actuales no deben reemplazar a los métodos estadísticos establecidos (libros de texto, software especializado como JMP o Minitab), ya que su fiabilidad es insuficiente.
Futuro de la IA en Estadística: El estudio sugiere que técnicas como Few-shot prompting (con ejemplos de razonamiento) o Retrieval-Augmented Generation (RAG) con bases de conocimiento de DoE podrían mejorar significativamente el rendimiento de los LLMs en tareas de diseño experimental en el futuro.
Herramienta de Benchmarking: El conjunto de tareas desarrollado sirve como un estándar para medir el progreso de las futuras generaciones de modelos de IA en tareas de ingeniería y estadística.

En conclusión, el artículo demuestra que los LLMs modernos tienen el potencial de automatizar la construcción de diseños factoriales fraccionarios para aplicaciones prácticas estándar, pero aún requieren supervisión humana y herramientas tradicionales para problemas de alta complejidad.

A systematic assessment of Large Language Models for constructing two-level fractional factorial designs

🤖 Los Protagonistas: Dos "Cocineros" Digitales

📝 La Receta: El "Prompt" (La Instrucción)

🔬 El Examen: 36 Retos Diferentes

🏆 Los Resultados: ¿Quién ganó la medalla de oro?

🚦 La Conclusión: ¿Deberíamos confiar en la IA para esto?

💡 El Mensaje Final

Resumen Técnico: Evaluación Sistemática de Modelos de Lenguaje Grandes para la Construcción de Diseños Factoriales Fraccionarios de Dos Niveles

1. Planteamiento del Problema

2. Metodología

3. Contribuciones Clave

4. Resultados Principales

5. Significado e Implicaciones

Más como este

Efficient semiparametric estimation of marginal treatment effects with genetic instrumental variables

Functional Bias and Tangent-Space Geometry in Variational Inference

Shape-constrained density estimation with Wasserstein projection

Estimation of heterogeneous principal effects under principal ignorability

Uncertainty quantification for critical energy systems during compound extremes via BMW-GAM