Estimating Item Difficulty Using Large Language Models and Tree-Based Machine Learning Algorithms

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"시험 문제의 난이도를 AI 가 얼마나 잘 예측할 수 있을까?"**라는 질문에 답하는 연구입니다.

기존에 시험 문제를 만들 때, 문제의 난이도를 정확히 알기 위해서는 수많은 학생들에게 문제를 풀게 하고 그 결과를 분석하는 **'현장 시험 (Field-testing)'**을 해야 했습니다. 하지만 이 과정은 시간도 많이 걸리고 비용도 많이 듭니다. 그래서 연구자들은 **"문제 내용만 보고 AI 가 난이도를 예측할 수 없을까?"**라고 생각했습니다.

이 연구는 초등학교 1 학년에서 5 학년까지의 수학·국어 문제 5,000 개 이상을 가지고 두 가지 방법을 실험했습니다.

1. 두 가지 실험 방법: "직관" vs "분석"

연구진은 거대 언어 모델 (LLM, 예: GPT-4o) 을 두 가지 방식으로 활용했습니다.

방법 A: "직관적인 전문가" (Direct Estimation)

비유: AI 에게 **"이 문제를 보고 난이도를 1 점부터 100 점까지 점수로 매겨봐"**라고 바로 물어보는 방식입니다.
결과: AI 는 전체적으로 꽤 잘 맞췄습니다. 하지만 초등학교 저학년 (유치원, 1 학년) 문제에서는 점수가 잘 맞지 않았습니다. 마치 경험이 많은 요리사가 "이 요리는 매운가?"라고 물었을 때, 아주 매운 고추와 아주 약한 고추는 잘 구별하지만, 아주 약한 고추와 전혀 매운맛이 없는 고추의 미묘한 차이는 헷갈리는 것과 비슷합니다.

방법 B: "세부 분석가 + 통계 전문가" (Feature-Based Strategy)

비유: AI 에게 "난이도 점수만 매겨"라고 하지 않고, **"이 문제의 특징을 하나하나 분석해 줘"**라고 시켰습니다.
- 예: "문장이 얼마나 복잡한가?", "그림이 있는가?", "추론이 필요한가?", "오답이 얼마나 헷갈리게 만들어졌는가?" 등 20 가지 이상의 세부 지표를 채점하게 한 뒤, 그 데이터를 **통계 모델 (랜덤 포레스트, 그래디언트 부스팅)**에 넣어 최종 난이도를 계산했습니다.
결과: 이 방법이 압도적으로 잘 나왔습니다. 특히 저학년 문제에서도 정확도가 매우 높았습니다.

2. 왜 방법 B 가 더 잘했을까요?

**방법 A (직관)**는 AI 에게 모든 것을 한 번에 판단하게 했습니다. AI 가 머릿속으로 복잡한 요인들을 모두 고려해서 "한 번에" 점수를 매기려다 보니, 미묘한 차이를 놓치는 경우가 많았습니다.
**방법 B (분석)**는 **"분업"**을 했습니다.
1. AI(분석가): 문제의 특징을 아주 세밀하게 분류하고 채점합니다. (예: "이 문제는 문장이 길고, 추론이 필요해.")
2. 통계 모델(통계자): AI 가 채점한 세부 점수들을 받아서, "아, 문장이 길고 추론이 필요한 문제는 보통 어렵구나"라는 패턴을 학습하여 최종 난이도를 계산합니다.

이처럼 AI 의 언어 이해 능력과 기계 학습의 패턴 분석 능력을 합친 것이 가장 좋은 결과를 낳았습니다.

3. 연구의 핵심 교훈 (실생활에 비유하면?)

초등 저학년 문제는 까다롭다: 유치원이나 1 학년 문제는 난이도 차이가 미미해서 AI 가 구별하기 어렵습니다. (비유: 100 미터 달리기에서 0.01 초 차이 나는 기록을 구별하는 것은 매우 어렵습니다.) 하지만 고학년으로 갈수록 문제의 복잡도가 다양해져 AI 가 잘 구별합니다.
단순한 텍스트 분석은 부족하다: 예전에는 '문장 길이'나 '어휘 난이도' 같은 표면적인 데이터만 썼는데, 이는 AI 가 문제를 풀 때 필요한 **생각의 깊이 (인지적 부하)**를 잡아내지 못했습니다. AI 는 이런 깊은 생각까지 분석해 낼 수 있습니다.
미래의 가능성: 이 기술이 발전하면, 새로운 시험 문제를 만들 때 수천 명의 학생에게 미리 풀게 할 필요 없이, AI 가 난이도를 예측해 줍니다. 이렇게 되면 시험 개발 비용이 크게 줄어들고, 더 빠르게 좋은 시험을 만들 수 있게 됩니다.

4. 연구자들이 제안하는 7 단계 워크플로우

이 연구를 바탕으로 다른 전문가들이 비슷한 시스템을 만들 때 따라야 할 7 단계가 제안되었습니다.

데이터 준비: 충분한 수의 문제와 정답 (난이도) 데이터 모으기.
전문가 인터뷰: 어떤 요소가 문제를 어렵게 만드는지 전문가 (교사, 개발자) 와 토론하여 '체크리스트' 만들기.
AI 모델 선택: 성능이 좋은 AI 모델 고르기.
프롬프트 작성: AI 에게 체크리스트에 따라 문제를 분석하라고 지시하는 명령어 (프롬프트) 정교하게 만들기.
데이터 검증: AI 가 분석한 결과가 일관성이 있는지 확인하고, 쓸모없는 데이터는 제거하기.
모델 학습: AI 가 분석한 데이터를 바탕으로 난이도를 예측하는 통계 모델 훈련시키기.
검증: 훈련하지 않은 새로운 문제 (보이지 않는 데이터) 로 모델의 성능을 테스트하기.

요약

이 논문은 **"AI 가 시험 문제의 난이도를 바로 점수로 매기는 것보다는, 문제의 특징을 세밀하게 분석하게 한 뒤 그 결과를 통계 모델에 넣는 것이 훨씬 정확하다"**는 것을 증명했습니다. 이는 교육 평가 분야에서 AI 를 활용해 더 효율적이고 정확한 시험을 만들 수 있는 새로운 길을 열어주었습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 제기 (Problem)

현황: 교육 평가에서 문항 난이도를 추정하기 위해 필드 테스트 (실제 학생 대상 사전 시험) 를 수행하는 것은 시간과 비용이 많이 소요되며, 문항 노출 및 보안 문제도 야기합니다.
기존 방법의 한계:
- 전문가 (SME) 의 수동 평가는 시간이 걸리고 일관성이 부족할 수 있습니다.
- 기존 자연어 처리 (NLP) 기반 접근법 (문장 길이, 단어 빈도, 가독성 공식 등 표면적 특징 사용) 은 예측 정확도가 낮아 (상관관계 $r \approx .32$ ) 복잡한 인지적 요인을 포착하지 못했습니다.
- "AI 를 응시자로 간주"하는 접근법 (LLM 이 학생처럼 답을 내게 함) 은 난이도 파라미터를 직접 추정하는 데 있어 신뢰도가 낮거나 ( $r \approx .08 \sim .59$ ) 한계가 있었습니다.
연구 목표: 대규모 언어 모델 (LLM) 의 언어 이해 및 추론 능력을 활용하여, 필드 테스트 없이 문항 내용만으로 K-5 수학 및 독해 문항의 난이도를 정확히 예측할 수 있는 방법론을 개발하고 검증하는 것입니다.

2. 연구 방법론 (Methodology)

데이터: Edmentum 의 'Exact Path Diagnostic'에서 추출한 K-5 학년 수학 (2,564 개) 및 독해 (2,606 개) 문항 총 5,170 개.
- 기준치 (Ground Truth): 라쉬 (Rasch) IRT 모델을 통해 실제 학생 데이터로 교정된 문항 난이도 파라미터 ( $b$ 값).
- 데이터 분할: 훈련 세트 (3,970 개) 와 홀드아웃 (테스트) 세트 (1,200 개) 로 분할하며, 난이도 분포가 균일하도록 층화 표본 추출 (Stratified Sampling) 을 적용.
사용 모델: OpenAI 의 GPT-4o (Temperature=0 으로 설정하여 출력 일관성 확보).
접근 방식 1: 직접 추정법 (Direct LLM Estimation)
- 방식: 제로샷 (Zero-shot) 프롬프트를 통해 LLM 에게 문항 내용을 분석하고 1~100 점 척도로 난이도를 직접 점수화하도록 지시.
- 후처리: LLM 의 점수를 라쉬 로그이트 (Rasch logit) 척도와 정렬하기 위해 Z-score 변환 및 선형 회귀 모델을 적용.
접근 방식 2: 특징 기반 모델링 (Feature-Based Estimation)
- 특징 도출: 수학 및 독해 과목 전문가 (SME) 와의 포커스 그룹 인터뷰를 통해 문항 난이도에 영향을 미치는 20 가지 (수학) 및 13 가지 (독해) 인지/언어적 특징 (예: 인지 부하, 지식의 깊이 (DOK), 오답의 함정성, 추론 필요성 등) 을 도출.
- LLM 활용: LLM 에게 각 문항을 분석하여 위 특징들을 점수화 (1~10 점 척도 또는 Y/N) 하도록 지시.
- 머신러닝 모델: LLM 이 추출한 특징과 메타데이터 (학년, 단어 수, 문항 유형 등) 를 입력 변수로 사용하여 랜덤 포레스트 (Random Forest) 및 그래디언트 부스팅 머신 (Gradient Boosting Machine, GBM/XGBoost) 모델을 훈련시켜 난이도를 예측.
비교 기준 (Benchmarks):
- 더미 회귀 (Dummy Regressor): 학년별 평균 난이도만 예측.
- TF-IDF + 랜덤 포레스트: 전통적인 NLP 기반 텍스트 특징.
- 메타데이터 전용 모델: LLM 특징 없이 메타데이터만 사용.

3. 주요 결과 (Results)

A. 직접 추정법 (Direct LLM Estimation)

전체적 성과: 모든 학년을 합산했을 때 예측값과 실제값 간 상관관계가 높았음 (수학 $r=.83$ , 독해 $r=.81$ ).
학년별 편차: 저학년 (K, 1 학년) 에서는 예측 정확도가 낮았으며, 더미 회귀 모델보다 성능이 떨어지는 경우도 발생함. 고학년 (3~5 학년) 으로 갈수록 정확도가 향상됨.
오차: 전체 RMSE 는 수학 0.91, 독해 0.86 으로 더미 회귀보다 낮았으나, 저학년에서는 개선 폭이 미미함.

B. 특징 기반 모델링 (Feature-Based Estimation)

성능 우위: 직접 추정법보다 압도적으로 우수한 성능을 보임.
- 수학: 랜덤 포레스트 및 GBM 모두 $r=.87$ 의 높은 상관관계를 보였으며, RMSE 는 0.81~0.83 수준으로 더미 회귀 (1.01) 및 TF-IDF 기반 모델보다 크게 개선됨.
- 독해: $r=.87$ 의 상관관계, RMSE 0.72~0.73 수준으로 모든 벤치마크를 상회함.
저학년 개선: 저학년 (K, 1 학년) 에서도 특징 기반 모델은 더미 회귀보다 낮은 오차를 기록하며, 직접 추정법의 한계를 극복함.
특징 중요도 (Feature Importance):
- 수학: 학년, 단어 수, 시각 자료 사용 여부, 학생 참여도, 오답의 함정성 등이 중요.
- 독해: **문장 구조의 복잡성 (Syntax Complexity)**이 가장 중요한 특징으로 부각되었으며, 어휘 복잡성, 추론 필요성, 인지 부하 등 LLM 이 추출한 심층 특징들이 높은 예측력을 보임.

4. 주요 기여 (Key Contributions)

새로운 패러다임 제시: LLM 을 단순한 '응시자 시뮬레이터'가 아닌, **정교한 특징 추출기 (Feature Extractor)**로 활용하고 이를 머신러닝 모델에 결합하는 하이브리드 접근법의 유효성을 입증.
심층적 특징 추출의 가치: 전통적인 NLP(단어 수, 문장 길이 등) 나 단순 메타데이터만으로는 설명되지 않는 **인지적 복잡성 (Cognitive Load, DOK, 추론 요구도 등)**을 LLM 이 정량화할 수 있음을 보여줌.
실용적 워크플로우 제안: 교육 평가 전문가를 위해 문항 난이도 추정을 위한 7 단계 워크플로우(데이터 선정, 특징 도출, 모델 선택, 프롬프트 생성, 검증, 훈련, 검증) 를 구체적으로 제시.
저학년 난이도 예측 개선: 기존 연구에서 어려웠던 저학년 문항의 난이도 예측 정확도를 특징 기반 모델을 통해 크게 향상시킴.

5. 의의 및 시사점 (Significance)

비용 및 시간 절감: 대규모 필드 테스트에 대한 의존도를 줄이고, 문항 개발 주기를 단축하여 교육 평가의 효율성을 극대화할 수 있음.
적응형 평가 지원: 실시간으로 문항 난이도를 예측하여 적응형 테스트 (Adaptive Testing) 의 문항 선별 및 개인화된 학습 경로 제공을 가능하게 함.
향후 연구 방향:
- 현재는 제로샷 프롬프트와 특징 추출에 집중했으나, 향후 더 큰 데이터셋이 확보된다면 **LLM 파인튜닝 (Fine-tuning)**을 통한 성능 향상 가능성 탐구 필요.
- 과학, 사회과 등 다른 과목 및 고학년으로의 일반화 연구 필요.
- LLM 출력의 변동성 (Variability) 을 줄이기 위한 추가적인 안정성 검증 필요.

결론적으로, 본 연구는 LLM 을 활용한 직접적인 난이도 점수 부여보다는, LLM 이 추출한 심층적인 인지/언어적 특징을 머신러닝 모델에 입력하는 방식이 K-5 교육 평가 문항의 난이도를 예측하는 데 가장 정확하고 신뢰할 수 있는 방법임을 입증했습니다.