A systematic assessment of Large Language Models for constructing two-level fractional factorial designs

Each language version is independently generated for its own context, not a direct translation.

🧪 1. 배경: 실험실의 '효율성' 문제

우리가 새로운 약을 만들거나 자동차 엔진을 개선할 때, 수많은 변수 (재료, 온도, 압력 등) 를 바꿔가며 실험해야 합니다. 하지만 모든 경우의 수를 다 실험하면 시간과 돈이 너무 많이 듭니다.

그래서 통계학자들은 **'부분 요인 설계 (Fractional Factorial Design)'**라는 방법을 씁니다.

비유: 모든 메뉴를 다 맛보지 않고도, 가장 핵심적인 조합만 골라 메뉴판을 만드는 **'최적화된 시식 코스'**라고 생각하세요. 이 '시식 코스'를 어떻게 짜느냐에 따라 실험의 결과가 얼마나 정확한지가 결정됩니다.

전통적으로 이 '최적 코스'는 전문 서적이나 통계 프로그램에서 찾아냈습니다. 하지만 최근 AI 가 이 일을 대신할 수 있을까요?

🤖 2. 실험 내용: AI 에게 "최고의 실험 설계표를 짜줘!"

저자들은 ChatGPT(GPT-5.1) 와 구글의 Gemini(Gemini 2.5 Flash) 라는 두 가지 최신 AI 에게 다음과 같은 미션을 주었습니다.

미션: "너는 통계 실험 설계 전문가야. 8 번, 16 번, 혹은 32 번의 실험 횟수 안에서, 4 개부터 26 개까지의 변수를 다루는 가장 완벽한 실험 설계표를 만들어줘."

AI 가 이 일을 잘 하려면 단순히 "표만 만들어줘"라고 말하는 것보다, **"단계별로 생각해보고 (Chain of Thought), 전문가처럼 행동하며, 정해진 형식대로만 답해"**라고 상세히 지시해야 합니다. 저자들은 AI 에게 이런 '명령어 (프롬프트)'를 정교하게 설계해서 입력했습니다.

📊 3. 결과: AI 는 얼마나 잘했을까?

두 AI 의 성능을 비교한 결과는 다음과 같습니다.

✅ 성공한 경우 (작은 실험)

8 번 실험 (4~7 개 변수): 두 AI 모두 완벽한 점수를 받았습니다. 특히 Gemini 는 10 번 시도 중 10 번 모두 정답을 맞췄습니다.
- 비유: 작은 파티 (8 명) 의 좌석 배치를 정하는 일은 AI 가 아주 잘해냅니다.
16 번 실험 (5~8 개 변수): 두 AI 모두 꽤 잘했습니다. 특히 8 개 이하의 변수일 때는 거의 완벽했습니다.
32 번 실험 (6 개 변수): Gemini 는 10 번 중 10 번 정답을 맞췄습니다.

❌ 실패한 경우 (큰 실험)

변수가 많아지거나 실험 횟수가 늘어날수록: AI 는 혼란에 빠졌습니다.
- GPT-5.1: 16 번 실험에서 변수가 9 개를 넘으면, 혹은 32 번 실험에서 변수가 9 개를 넘으면 제대로 된 표를 만들지 못하거나 엉뚱한 답을 냈습니다.
- Gemini: 16 번 실험에서 변수가 11~12 개를 넘으면, 32 번 실험에서 변수가 10 개를 넘으면 실패했습니다.
- 비유: 파티 인원이 20 명 이상으로 불어나고, 좌석 배치가 복잡해지면 AI 는 "죄송합니다, 이 정도는 못 하겠어요"라고 하거나, 엉뚱한 좌석 배치를 만들어냅니다.

💡 4. 결론 및 조언

이 연구는 **"AI 는 간단한 실험 설계는 훌륭하게 하지만, 복잡한 문제는 아직 인간 전문가나 전문 소프트웨어가 더 낫다"**는 것을 보여줍니다.

추천: 만약 여러분이 **소규모 실험 (변수 8 개 이하)**을 계획 중이라면, Gemini 2.5 Flash 를 이용해 AI 에게 설계표를 짜달라고 요청해도 좋습니다.
주의: 하지만 **대규모 실험 (변수 9 개 이상)**이라면, AI 에게 맡기기보다 전문 서적 (우와 하마다, 몽고메리 저서) 이나 JMP, Minitab 같은 전문 소프트웨어를 사용하는 것이 안전합니다.

🔮 5. 미래 전망

저자들은 "지금의 AI 는 아직 완벽하지 않지만, 기술이 발전하면 더 복잡한 문제도 풀 수 있을 것"이라고 말합니다. 마치 초보 운전자가 작은 도로에서는 잘 운전하지만, 복잡한 고속도로에서는 아직 숙련된 운전자 (전문가) 가 필요한 것과 같습니다.

한 줄 요약:

"AI 는 작은 실험 설계는 '천재'지만, 복잡한 실험 설계는 아직 '인간 전문가'의 도움이 필요합니다."

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

배경: 실험 설계 (DoE) 분야에서 2-level 부분 요인 설계 (Two-level fractional factorial designs, $2^{m-p}$) 는 제한된 실행 횟수 (runs) 로 많은 요인 (factors) 의 주효과와 상호작용을 연구하기 위해 널리 사용됩니다. 전통적으로 이러한 설계는 표준 교재나 통계 소프트웨어 (JMP, Minitab, R 의 FrF2 패키지 등) 에 포함된 카탈로그에서 도출됩니다.
문제:** 최근 생성형 AI(Generative AI) 와 대규모 언어 모델 (LLM) 이 급부상하면서, LLM 을 통해 이러한 실험 설계를 직접 생성할 수 있게 되었습니다. 그러나 LLM 이 생성한 2-level 부분 요인 설계의 품질이 체계적으로 평가된 바가 없습니다.
연구 목적: ChatGPT(GPT-5.1) 와 Google Gemini(Gemini 2.5 Flash) 와 같은 최신 LLM 들이 8, 16, 32 회 실행 (runs) 을 가진 설계와 4~26 개의 요인을 가진 설계에서 최적의 실험 설계를 구성할 수 있는지, 그리고 그 품질이 기존 최적 설계와 비교하여 어떠한지 체계적으로 평가하는 것입니다.

2. 방법론 (Methodology)

2.1 평가 기준 (Evaluation Criteria)

LLM 이 생성한 설계의 품질을 평가하기 위해 다음 통계적 기준을 사용했습니다.

해 (Resolution): 정의 관계 (defining relation) 에서 가장 짧은 단어 (word) 의 길이. 주효과와 2-요인 상호작용의 교란 (aliasing) 을 피하는 능력을 나타냅니다.
최소 왜곡 (Minimum Aberration): 동일한 해상도를 가진 설계들 중에서 저차수 효과의 교란을 최소화하는 설계. 단어 길이 패턴 (WLP) 을 왼쪽에서 오른쪽으로 순차적으로 최소화하는 기준으로 평가합니다.
최소 모멘트 왜곡 (Minimum Moment Aberration): 요인 수가 많을 때 WLP 계산의 복잡성을 줄이기 위해 도입된 기준. 실행 간 유사성을 기반으로 한 모멘트 패턴을 최소화하는 방식으로, 비정규 설계 (non-regular designs) 포함 모든 2-level 설계에 적용 가능합니다.

2.2 프롬프트 엔지니어링 (Prompting Strategy)

LLM 의 성능을 극대화하기 위해 Zero-shot Chain-of-Thought (CoT) 기법을 활용한 프롬프트 템플릿을 개발했습니다.

역할 부여 (Role): LLM 을 "실험 설계 (DoE) 의 전문가"로 설정하여 통계적 지식을 활성화했습니다.
맥락 (Context): 목표 (최대 해상도 및 최소 왜곡 달성), 요인 수 ( $m$ ), 실행 수 ( $n$ ), 인코딩 방식 (-1, 1) 을 명시했습니다.
단계별 추론 (Chain-of-Thought): "단계별로 생각하세요 (Think step by step)"라는 문구를 포함시켜 LLM 의 논리적 추론 능력을 유도했습니다.
출력 형식 (Output Format): 설명 텍스트를 배제하고, CSV 형식의 표만 생성하도록 지시했습니다. 이는 후속 Python 코드를 통한 자동화된 품질 평가 (해석 및 왜곡 계산) 를 가능하게 했습니다.

2.3 실험 설정

모델: GPT-5.1 (ChatGPT 기본 모델) 과 Gemini 2.5 Flash (Google 기본 모델).
작업: 8, 16, 32 회 실행을 가진 설계에 대해 4~26 개의 요인까지 총 36 가지 작업 (Task) 을 정의했습니다.
반복: 각 작업당 10 회 독립적인 실행을 수행하여 총 360 개의 설계를 각 모델별로 생성했습니다.
평가: 생성된 설계가 형식 (compliant) 을 준수하는지 확인한 후, 최적 설계 (최소 왜곡 설계) 와 비교하여 해상도와 모멘트 왜곡 패턴을 분석했습니다.

3. 주요 결과 (Key Results)

3.1 GPT-5.1 모델 성능

8 회 실행 (8-run): 4~~7 개 요인까지 최적 설계 (Minimum Aberration Design) 를 성공적으로 생성했습니다. 특히 4 개와 7 개 요인에서는 10 회 중 10 회, 5~~6 개 요인에서는 8~5 회 성공했습니다.
16 회 실행 (16-run): 5~8 개 요인까지는 높은 일관성으로 최적 설계를 생성했습니다 (최소 8 회 이상 성공). 하지만 12 개 요인 이상에서는 성능이 저하되거나 설계 생성에 실패하는 경우가 발생했습니다.
32 회 실행 (32-run): 6 개 요인 설계에서는 최적 설계를 생성했으나, 7 개 요인 이상으로 갈수록 성능이 급격히 떨어졌습니다. 9 개 요인 이상에서는 최적 설계를 찾지 못하거나 비규칙적인 설계 (non-2m-p design) 를 생성하는 경우가 많았습니다.

3.2 Gemini 2.5 Flash 모델 성능

8 회 실행: 모든 요인 (4~7 개) 에 대해 100% 성공률로 최적 설계를 생성했습니다.
16 회 실행: 5~8 개 요인에서 80% 이상의 성공률로 최적 설계를 생성했습니다. 9 개 요인 이상에서는 성능이 저하되었으나, GPT-5.1 보다 일관성이 높았습니다.
32 회 실행: 6 개 요인 설계에서 10 회 중 10 회 (100%) 최적 설계를 생성했습니다. 7~9 개 요인에서는 일부 성공했으나, 10 개 요인 이상에서는 실패율이 높았습니다.

3.3 종합 비교

Gemini 2.5 Flash가 GPT-5.1 보다 전반적으로 더 높은 일관성과 정확성을 보였습니다.
두 모델 모두 8, 16, 32 회 실행에 대해 6~8 개 요인 범위 내에서는 기존 통계 소프트웨어나 교재에서 제공하는 최적 설계와 동등한 품질의 설계를 생성할 수 있음을 입증했습니다.
요인 수가 9 개를 초과하거나 실행 수가 32 회 이상인 복잡한 설계의 경우, 두 모델 모두 최적 설계를 일관되게 생성하지 못했습니다.

4. 주요 기여 (Key Contributions)

체계적 평가 프레임워크: LLM 을 이용한 실험 설계 생성의 품질을 평가하기 위한 첫 번째 체계적인 벤치마크를 제시했습니다.
Zero-shot CoT 프롬프트 개발: 예시 (few-shot) 없이도 LLM 이 복잡한 통계적 설계 작업을 수행할 수 있도록 유도하는 고품질 프롬프트 템플릿을 개발했습니다.
모델 성능 비교: 최신 LLM 두 가지 (GPT-5.1, Gemini 2.5 Flash) 의 구체적인 강점과 약점을 실험 설계 분야에서 정량화했습니다.
실무적 가이드라인: LLM 을 실험 설계에 활용할 수 있는 구체적인 범위 (예: 8 회 실행 4~7 요인, 32 회 실행 6 요인 등) 를 제시하여 실무자가 언제 LLM 을 신뢰하고 언제 전통적 도구를 사용해야 하는지 판단 기준을 마련했습니다.

5. 의의 및 시사점 (Significance)

실무 적용 가능성: 통계 소프트웨어에 익숙하지 않거나 빠른 프로토타이핑이 필요한 경우, LLM 을 통해 소규모 실험 설계 (특히 8~16 회 실행, 8 개 이하 요인) 를 신속하게 생성할 수 있음을 입증했습니다.
한계와 주의점: LLM 은 복잡한 설계 (고차원 요인, 많은 실행 수) 에서는 여전히 실패할 수 있으므로, 중요한 연구나 고비용 실험에서는 전통적인 통계 교재나 전문 소프트웨어를 사용하는 것이 안전함을 강조했습니다.
미래 연구 방향:
- Few-shot Prompting: 최적의 설계 생성 과정을 예시로 포함하는 프롬프트 기법의 효과 검증.
- RAG (Retrieval-Augmented Generation): DoE 관련 전문 서적이나 논문을 데이터베이스로 구축하여 LLM 에게 제공함으로써 정확도 향상 가능성 탐구.
- 차세대 모델 평가: 본 연구의 36 가지 작업 세트를 향후 등장하는 더 강력한 LLM 들의 성능 벤치마크로 활용 제안.

이 논문은 인공지능이 통계적 실험 설계 분야에 진입할 수 있는 가능성을 보여주었으나, 동시에 현재의 기술적 한계와 신뢰성 있는 적용 범위를 명확히 규명했다는 점에서 중요한 의의를 가집니다.