Human-in-the-Loop LLM Grading for Handwritten Mathematics Assessments

이 논문은 생성형 AI 시대의 대면 평가 필요성에 부응하여, 해답 키 및 채점 기준 개발부터 자동화된 스캔과 다중 LLM 채점, 인간 검증까지 이어지는 인간-루프 LLM 채점 워크플로우를 제안하고, 이를 통해 채점 시간을 약 23% 단축하면서도 공정한 채점 정확도를 유지할 수 있음을 실증했습니다.

Arne Vanhoyweghen, Vincent Holst, Melika Mobini, Lukas Van de Voorde, Tibo Vanleke, Bert Verbruggen, Brecht Verbeken, Andres Algaba, Sam Verboven, Marie-Anne Guerry, Filip Van Droogenbroeck, Vincent Ginis

게시일 2026-03-16
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎓 핵심 이야기: "AI 는 훌륭한 '보조교사', 하지만 최종 결정권은 '선생님'에게"

과거에는 선생님들이 손으로 쓴 학생들의 시험지를 일일이 채점하느라 밤을 새우곤 했습니다. 하지만 최근 생성형 AI 가 발달하면서, 집에서 과제를 할 때 AI 가 대신 풀어주는 경우가 늘어나서 수업 시간에 직접 손으로 풀게 하는 시험이 다시 중요해졌습니다. 문제는 이 손으로 쓴 시험지를 채점하는 게 너무 힘들고 시간이 많이 걸린다는 거죠.

이 연구는 **"AI 가 채점의 80% 를 대신하고, 사람이 마지막 20% 를 확인하는 방식 (Human-in-the-loop)"**을 실제로 적용해 보았습니다.

🛠️ 어떻게 작동할까요? (3 단계 프로세스)

이 시스템은 마치 정교한 공장처럼 작동합니다.

  1. 정답지 만들기 (Solution Keys):
    • 선생님이 먼저 완벽한 정답과 풀이 과정을 만듭니다. 마치 요리사에게 레시피를 미리 준비해 주는 것과 같습니다.
  2. 채점 규칙 만들기 (Grading Keys):
    • AI 가 혼란스러워하지 않도록 아주 상세한 '채점 가이드'를 줍니다.
    • 예시: "분모와 분자가 0 이라는 걸 알아차리면 2 점, 인수분해를 잘하면 4 점..." 처럼 점수를 아주 구체적으로 나누어 줍니다.
    • 중요: AI 는 지시를 문자 그대로 따르므로, "부분 점수 주세요" 같은 막연한 말보다는 "이 단계가 맞으면 2 점, 틀리면 0 점"처럼 명확해야 합니다.
  3. 채점과 확인 (The Workflow):
    • 스캔 및 익명화: 학생 이름을 가리고 답안지만 AI 에게 줍니다. (사생활 보호)
    • 5 번 반복 채점: AI 는 같은 답안을 5 번이나 채점합니다. AI 도 가끔은 기분이 변하거나 (확률적 특성) 실수를 할 수 있기 때문입니다.
    • 최고점 선택: 학생에게 불리하지 않게 5 번 중 가장 높은 점수를 provisional(임시) 점수로 잡습니다.
    • 사람의 최종 확인 (Human Verification): AI 가 점수를 매긴 후, 선생님이 그 결과를 한 번 더 훑어봅니다. AI 가 "이건 이상하네?"라고 생각되면 선생님이 바로 수정합니다.

📊 결과는 어땠나요?

이 시스템을 두 개의 대학 수학 수업에 적용해 보니 놀라운 결과가 나왔습니다.

  • ⏱️ 시간 단축: 채점 시간이 약 23% 줄어들었습니다.
    • 비유: 선생님이 100 개의 시험지를 채점하는 데 10 시간이 걸렸다면, 이제는 7 시간 40 분이면 충분해진 셈입니다.
  • 🤝 공정한 채점: AI 가 매긴 점수와 사람이 매긴 점수의 차이가, 사람과 사람이 채점했을 때의 차이보다 더 작거나 비슷했습니다.
    • 비유: 보통 채점하는 선생님 A 와 B 가 같은 답안을 봐도 점수가 1~2 점씩 다를 수 있는데, AI 는 그보다 더 일관된 기준을 적용했습니다.
  • 🛡️ 안전장치: 가끔 AI 가 엉뚱한 점수를 매기는 '실수'가 있었지만, 사람이 마지막에 확인하는 단계에서 모두 잡아냈습니다.

💡 왜 이 방식이 중요한가요?

이 연구는 **"AI 가 선생님을 대체하는 것"이 아니라, "선생님을 도와주는 도구"**로 사용해야 함을 보여줍니다.

  • AI 의 역할: 반복적이고 지루한 채점 작업을 빠르게 처리하고, 기준을 일정하게 유지하게 합니다. (안정적인 '보조교사')
  • 사람의 역할: AI 가 놓친 예외적인 경우나, 창의적인 풀이법을 판단하고 최종 책임을 집니다. (최종 결정권자)

🚀 결론

이 논문은 **"AI 를 잘 활용하면, 선생님들은 채점 스트레스에서 해방되어 학생들에게 더 빠르고 질 좋은 피드백을 줄 수 있다"**는 희망적인 메시지를 전합니다.

마치 자율주행 자동차가 운전의 대부분을 하지만, 위험 상황에서는 운전자가 핸들을 잡는 것과 같습니다. AI 가 채점의 '엔진'이 되고, 사람이 '조향장치'가 되어 함께 일할 때, 교육은 더 효율적이고 공정해질 수 있습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →