Beyond Scores: Explainable Intelligent Assessment Strengthens Pre-service Teachers' Assessment Literacy

Each language version is independently generated for its own context, not a direct translation.

🍳 1. 문제 상황: "점수만 알려주는 구식 오븐"

전통적인 교사 교육이나 기존의 평가 프로그램은 학생들의 성적표를 줄 때, 마치 **"이 요리는 80 점입니다"**라고만 알려주는 구식 오븐과 비슷합니다.

현실: "이 학생은 수학이 부족해요"라고 점수만 알려주면, 예비 교사들은 당황합니다. "어디가 부족할까? 개념을 못 이해했을까? 아니면 문제가 너무 어려웠을까?"라고 추측만 할 뿐, 정확한 원인을 알 수 없습니다.
결과: 교사들은 점수라는 숫자에만 의존하게 되고, 학생에게 맞는 맞춤형 지도를 하기가 어려워집니다. 마치 요리사가 "이 요리는 짜요"라고만 듣고, "소금이 너무 많이 들어갔나, 아니면 간을 맞추는 타이밍이 늦었나?"를 알 수 없는 상황과 같습니다.

🛠️ 2. 해결책: "XIA 라는 똑똑한 스마트 오븐"

연구팀은 **'XIA'**라는 새로운 시스템을 만들었습니다. 이 시스템은 단순히 점수를 알려주는 게 아니라, **"왜 그 점수가 나왔는지"**를 **설명 (Explanation)**해 줍니다.

이 시스템은 두 가지 핵심 기능을 제공합니다:

대조적 설명 (Contrastive Explanation): "왜 A 라는 결과가 나왔고, B 는 아니었을까?"를 보여줍니다.
- 비유: "만약 이 학생이 2 번 문제를 맞췄다면 점수가 10% 더 올라갔을 거예요. 하지만 3 번 문제를 틀렸기 때문에 이 부분이 핵심 약점입니다"라고 비교해 줍니다.
반사실적 설명 (Counterfactual Explanation): "만약 상황이 달라졌다면 어떻게 될까?"를 시뮬레이션해 줍니다.
- 비유: "만약 이 학생이 이 개념을 100% 이해하고 있었다면, 이 세 문제를 모두 맞췄을 것입니다. 하지만 현재 상태에서는 틀릴 확률이 높아요"라고 가상 시나리오를 보여줍니다.

이것은 마치 스마트 오븐이 **"이 요리가 실패한 이유는 소금 양이 5g 부족해서가 아니라, 온도가 20 도 낮았기 때문입니다. 만약 온도를 20 도 높였으면 어땠을까요?"**라고 상세히 알려주는 것과 같습니다.

🧪 3. 실험: "요리 실습 수업"

연구팀은 21 명의 예비 교사 (요리사 지망생) 를 세 그룹으로 나누어 실험했습니다.

그룹 A (점수만 보는 그룹): 아무런 도구 없이 점수만 보고 판단.
그룹 B (데이터만 보는 그룹): 점수, 문제 난이도, 오답 패턴 등 통계 데이터는 제공받지만, '왜'에 대한 설명은 없음.
그룹 C (XIA 사용 그룹): 데이터뿐만 아니라, **AI 가 이유를 설명해주는 스마트 오븐 (XIA)**을 사용.

📈 4. 결과: "점수보다 '이유'가 중요했다"

실험 결과는 놀라웠습니다.

그룹 C (XIA 사용) 의 변화: 이 그룹의 교사들은 단순히 "학생이 틀렸다"고 판단하는 것을 넘어, **"학생이 왜 틀렸는지 (이유)"**를 근거로 분석하게 되었습니다.
- 비유: 그들은 이제 "요리가 실패했다"고만 말하지 않고, "소금 양이 부족해서 실패했다"거나 "불이 약해서 실패했다"고 구체적인 이유를 말하며, 다음 요리를 어떻게 고쳐야 할지 계획을 세웠습니다.
성적 향상: XIA 를 사용한 그룹은 학생들의 학습 상태를 판단할 때 실수가 크게 줄었습니다. 특히, "이 학생이 정말로 개념을 몰라서 틀린 건가, 아니면 운이 나빠서 틀린 건가?" 같은 애매한 상황에서 **큰 실수 (Outlier)**를 막아내는 능력이 가장 뛰어났습니다.
사고의 변화: 점수에 매몰되던 사고방식에서, **"증거에 기반한 판단"**으로 사고가 바뀌었습니다.

💡 5. 핵심 교훈: "왜 (Why) 가 중요해"

이 연구가 우리에게 주는 메시지는 매우 명확합니다.

"단순히 정답 (점수) 을 알려주는 것은 충분하지 않습니다. 그 정답에 이르는 '과정'과 '이유'를 설명해 주어야 비로소 교사는 학생을 제대로 이해하고, 더 나은 교육을 설계할 수 있습니다."

마치 요리사가 레시피의 '왜'를 이해해야 비로소 훌륭한 요리사가 될 수 있듯, AI 가 설명해주는 평가 도구는 예비 교사들이 단순한 점수 판정기를 넘어, 학생의 학습을 돕는 진정한 교육자로 성장하도록 돕는 다리가 되어줍니다.

🚀 결론

이 연구는 **"설명 가능한 AI (Explainable AI)"**가 교육 현장에서 어떻게 쓰여야 하는지 보여줍니다. AI 가 단순히 "결과"만 던져주는 것이 아니라, **"이유"와 "대안"**을 함께 제시할 때, 비로소 교사는 학생을 위한 진정한 맞춤형 교육을 할 수 있게 됩니다.

Each language version is independently generated for its own context, not a direct translation.

이 논문은 "Beyond Scores: Explainable Intelligent Assessment Strengthens Pre-service Teachers'Assessment Literacy" (점수를 넘어: 설명 가능한 지능형 평가가 예비 교사의 평가 문해력을 강화한다) 로, 예비 교사들이 교육 평가 데이터를 해석하고 수업 결정에 활용하는 능력인 **평가 문해력 (Assessment Literacy, AL)**을 향상시키기 위해 설계된 XIA(eXplainable Intelligent Assessment) 플랫폼과 그 효과를 검증한 연구입니다.

다음은 논문의 기술적 요약입니다.

1. 연구 배경 및 문제 정의 (Problem)

배경: 개인화된 교육과 데이터 기반 교육이 확대되면서, 교사는 정교한 평가 데이터 (예: 인지 진단 평가, CDA) 를 해석하여 수업 전략을 수정할 수 있어야 합니다.
문제점:
- 기존 교사 양성 프로그램은 이론 중심이며, 실제 디지털 평가 도구는 불투명한 점수나 복잡한 통계 파라미터만 제공합니다.
- 예비 교사들은 이러한 기술적 출력을 교육적 통찰로 전환하는 데 어려움을 겪으며, 직관이나 단순 점수에 의존하는 경향이 있습니다.
- 기존 설명 가능한 AI(XAI) 연구는 주로 학생 피드백에 집중되어 있으며, 교사의 진단적 추론과 수업 결정을 지원하는 설명 메커니즘은 부족합니다.
핵심 질문: 어떻게 하면 AI 기반 평가 도구의 '블랙박스'를 열어 교사가 모델의 추론 과정을 이해하고, 반성적 사고를 통해 평가 문해력을 기를 수 있게 할 수 있는가?

2. 방법론 (Methodology)

2.1 시스템 설계: XIA 플랫폼

연구팀은 예비 교사의 인터뷰와 기존 문헌을 바탕으로 두 가지 설계 요구사항 (R1, R2) 과 세 가지 설계 원칙을 도출하여 XIA 를 개발했습니다.

설계 요구사항:
- R1 (의사결정 지원): 점수 외의 신호 (문항 난이도, 변별도, 오류 패턴 등) 를 시각화하여 교사가 학습자 상태를 파악하고 다음 수업을 계획할 수 있도록 지원.
- R2 (시각화된 진단 추론): 모델의 추론 과정을 투명하게 보여주며, **대조적 설명 (Contrastive)**과 **반사실적 설명 (Counterfactual)**을 제공.
시스템 아키텍처:
- 백엔드: 학생 응답 데이터와 Q-행렬 (지식 구성 요소 매핑) 을 입력받아 **NeuralCD(신경망 기반 인지 진단 모델)**를 통해 지식 습득 확률을 추정.
- 프론트엔드 (두 가지 인터페이스):
  1. 수업 의사결정 지원 인터페이스: 문항 난이도, 정답률, 지식 구성 요소 (KC) mastery 분포, 개인 vs 집단 비교 등 다차원 통계 제공.
  2. 진단 추론 및 설명 인터페이스:
    - 대조적 설명: "왜 이 결과가 나왔는가?" (예: 문항 1 정답/문항 2 오답 vs 문항 1 오답/문항 2 정답 시 모델 추론의 변화 비교).
    - 반사실적 설명: "만약 다른 조건이었다면?" (예: 교사가 학생의 mastery 를 34% 라고 생각할 때, 34% mastery 라면 어떤 응답 패턴이 예상되는지 시뮬레이션).

2.2 사용자 연구 (User Study)

참여자: 중국 내 21 명의 예비 교사 (수학/기술 교육 전공).
실험 설계: 3 군 (Control, Decision-Support, Full-Support) × 2 시점 (Pre-test, Post-test) 혼합 방법론 연구.
- Control Group (CG, n=7): 도구 지원 없음.
- Decision-Support Group (DSG, n=7): 통계적 의사결정 지원 인터페이스만 사용.
- Full-Support Group (FSG, n=7): 통계적 지원 + 설명 가능한 추론 인터페이스 (대조/반사실적 설명) 사용.
측정 도구:
- 평가 정확도: 학생의 지식 습득도 (Mastery) 를 추정하는 오차 (MAE, RMSE) 측정.
- 설문지: 평가 문해력의 3 가지 하위 요소 (반성적 사고, 자기조절 학습, 평가 인식) 측정.
- 인터뷰: 도구 사용 경험, 정보 수용 전략, 추론 과정 변화에 대한 질적 분석.

3. 주요 결과 (Results)

3.1 정량적 결과

평가 문해력 (설문지):
- 반성적 사고 (Reflection) 및 자기조절 (Self-regulation): DSG 와 FSG 모두 CG 대비 유의미한 향상을 보임. (FSG 가 가장 큰 향상).
- 평가 인식 (Assessment Awareness): FSG 만 유의미한 향상을 보임. (통계적 정보만 제공된 DSG 는 변화가 미미함). 이는 깊은 수준의 평가 인식 변화에는 설명적 지원이 필수적임을 시사.
평가 정확도 (Accuracy):
- FSG: 평균 절대 오차 (MAE) 와 제곱근 평균 오차 (RMSE) 가 통계적으로 유의하게 감소 ( $p < 0.05$ ). 특히 RMSE 감소는 **심각한 오류 (outlier mistakes)**를 줄였음을 의미.
- DSG: 오차 감소 경향은 보였으나 통계적 유의성은 미미함.
- CG: 유의미한 변화 없음.

3.2 질적 결과 (인터뷰)

FSG (Full-Support): 점수 중심의 판단에서 증거 기반 추론으로 전환. "문항 난이도와 변별도를 함께 고려한다", "시스템의 설명이 내 직관을 교정해 주었다" 등의 의견 도출. 대조적/반사실적 설명을 통해 모델의 논리를 검증하고 자신의 판단을 재조정하는 과정이 관찰됨.
DSG (Decision-Support): 다차원 지표를 인지하기 시작했으나, 이를 체계적으로 통합하는 데는 한계가 있음.
CG (Control): 점수만으로는 부족함을 인지했으나 구체적인 전략을 제시하지 못함.

4. 주요 기여 (Key Contributions)

교사 대상 설명 가능 평가 도구를 위한 설계 지식:
- 교사의 진단적 추론을 지원하는 두 가지 설계 요구사항 (의사결정 지원, 시각화된 추론) 과 세 가지 설계 원칙 (명확성 및 추적 가능성, 충분성과 간결성, 실행 가능성) 을 제시.
설명 가능 평가 지원 시스템 아키텍처:
- CDA 기반 학습자 모델링, 설명 생성, 교사 중심 상호작용 설계를 통합한 XIA 플랫폼을 구현. 이는 다른 평가 도구 개발을 위한 참조 아키텍처 제공.
설명적 발판 (Scaffolding) 과 평가 문해력 구성 요소 간의 경험적 증거:
- 통제된 연구를 통해 설명적 지원이 교사의 반성, 자기조절, 평가 인식 및 평가 정확도 향상에 기여함을 입증. 특히 대조적/반사실적 설명이 교사의 인과적 정신 모델 (Causal Mental Model) 형성에 핵심적 역할을 함을 보임.

5. 의의 및 결론 (Significance)

이론적 의의: 평가 문해력 함양을 위해 단순한 지식 전달이 아닌, 실제 과업에 내재된 (task-embedded) 반성적 실천과 설명적 발판이 필수적임을 입증.
실무적 의의:
- 교사가 AI 의 '블랙박스'를 신뢰하고 활용하기 위해서는 모델이 **어떻게 결론에 도달했는지 (Why)**와 **만약 조건이 달라지면 어떻게 될지 (What-if)**를 보여줄 수 있어야 함.
- XIA 는 교사가 직관적 판단에서 증거 기반의 체계적 진단으로 전환하는 것을 돕는 도구로서, 개인화 교육의 실현을 위한 교사의 역량 강화에 기여함.
한계 및 향후 과제: 단일 세션 실험의 한계로 장기적 효과를 검증하기 위한 종단 연구 필요. 또한, 설명 유형 (대조적 vs 반사실적) 의 독립적 효과를 분리하기 위한 더 정교한 실험 설계 필요.

요약하자면, 이 연구는 지능형 평가 시스템이 단순히 점수를 제공하는 것을 넘어, 설명 가능한 AI 기법을 통해 교사의 추론 과정을 시각화하고 교정해 줄 때, 예비 교사의 평가 문해력과 실제 수업 결정 능력이 유의미하게 향상됨을 입증했습니다.