Towards interpretable models for language proficiency assessment: Predicting the CEFR level of Estonian learner texts

이 논문은 다양한 언어적 특성을 선별하여 에스토니아어 학습자 텍스트의 CEFR 등급을 약 90%의 정확도로 예측하고 해석 가능한 모델을 구축함으로써, 에스토니아어 학습 환경의 자동 평가 시스템 개발에 기여한 연구 결과를 요약합니다.

Kais Allkivi

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 비유: "스무고개" 게임과 언어 실력 측정기

상상해 보세요. AI 가 학생의 글을 읽을 때, 마치 "스무고개" 게임을 하는 것과 같습니다.

  • 기존 방식 (블랙박스): "이 글은 C1 급이야!"라고만 말해줍니다. 왜 C1 인지 설명해주지 않아서 학생은 "내가 뭘 잘해서 C1 이 된 거지?"라고 궁금해합니다.
  • 이 연구의 방식 (투명한 창): AI 는 "이 글은 단어 수가 많고, 문장이 길며, 문법 오류가 적고, 어려운 단어를 썼기 때문에 C1 급입니다"라고 구체적으로 설명해 줍니다.

저자는 AI 가 단순히 점수만 매기는 게 아니라, **"왜 그렇게 판단했는지"**를 이해할 수 있도록 (해석 가능한 모델) 만들려고 했습니다.

2. 비유: "신체 검사"를 통한 언어 진단

연구진은 학생들의 글을 분석할 때, 의사가 환자의 건강 상태를 진단하듯 4 가지 주요 지표를 측정했습니다.

  1. 어휘 (Lexical) - "옷장 속 옷의 다양성"

    • 단순히 옷이 많은지 (단어 수) 보다는, 다양한 옷을 입었는지 (유일한 단어의 수), 고급스러운 옷을 입었는지 (어려운 단어) 를 봅니다.
    • 결과: 실력이 늘수록 옷장 (단어장) 이 더 다양해지고, 고급스러운 옷 (어려운 단어) 을 더 많이 입는다는 걸 발견했습니다.
  2. 문법 형태 (Morphological) - "레고 블록 조립의 정교함"

    • 에스토니아어는 단어의 끝이 상황에 따라 많이 변합니다. 이를 레고 블록에 비유하면, 초급자는 큰 블록만 쓰고, 상급자는 작은 블록들을 정교하게 조립해 복잡한 구조를 만듭니다.
    • 결과: 실력이 높을수록 문법적 변화 (격, 단수/복수 등) 를 더 다양하고 정확하게 사용했습니다.
  3. 표면적 특징 (Surface) - "글의 길이와 크기"

    • 글자 수, 문장 수, 문장의 길이 등을 재는 것입니다.
    • 결과: 실력이 높을수록 글이 길어지고 문장도 더 길어지는 경향이 있었습니다. (하지만 글자 수만으로는 실력을 다 판단할 수 없다는 점도 발견했습니다.)
  4. 오류 (Error) - "실수 횟수"

    • 철자나 문법 실수가 얼마나 많은지 봅니다.
    • 결과: 실력이 높을수록 실수가 줄어듭니다. 특히 문법 교정 도구가 잡아낸 오류가 실력 판단에 큰 도움을 줍니다.

3. 비유: "레시피"를 섞어 최고의 요리를 만들기

연구진은 이 4 가지 지표 중 어떤 것이 진짜 실력을 잘 보여주는지 실험해 보았습니다.

  • 실험 1: 모든 지표를 다 넣었을 때 vs. 가장 신뢰할 수 있는 지표만 선별했을 때.
    • 결과: 모든 지표를 다 넣으면 AI 가 "이건 시험 문제 유형 때문에 C1 이네"라고 착각할 수 있었습니다 (예: 특정 주제만 다룰 때만 쓰이는 단어). 하지만 신뢰할 수 있는 지표만 골라 넣은 레시피를 쓰니, 어떤 글 (이메일, 에세이 등) 이든 일관되게 실력을 잘 판단했습니다.
  • 최고의 레시피: 단어 다양성 + 문법 변화 + 글의 길이 + 문법 오류를 모두 섞은 혼합 모델이 가장 정확했습니다. (정확도 약 98%!)

4. 놀라운 발견: "시간이 흐르면서 글이 더 어려워졌다"

연구진은 2010 년과 2017~2020 년의 시험 글을 비교했습니다.

  • 비유: 10 년 전의 학생들과 지금의 학생들을 비교했더니, 같은 등급 (예: C1) 을 받아도 요즘 학생들의 글이 훨씬 더 정교하고 복잡해졌습니다.
  • 마치 10 년 전에는 "간단한 레시피"로 C1 급 요리를 만들었다면, 지금은 "고급 레시피"를 써야 C1 급으로 인정받는 상황이 된 것입니다. 이는 교육이 발전했기 때문일 수 있습니다.

5. 결론: 이 연구가 우리에게 주는 메시지

이 연구는 단순히 "AI 가 채점한다"는 것을 넘어, **"왜 그 글이 그 수준인지"**를 설명해 주는 투명한 도구를 만들었습니다.

  • 실용성: 이 기술은 에스토니아어 학습 환경 (ELLE) 에 이미 적용되어, 학생들이 글을 쓸 때 "너의 단어 다양성이 부족해" 또는 "문장이 너무 짧아" 같은 구체적인 피드백을 받을 수 있게 했습니다.
  • 의의: AI 가 채점할 때 "어떻게 판단했는지"를 알 수 있어야 학생과 선생님도 믿고 사용할 수 있습니다. 이 연구는 바로 그 신뢰할 수 있는 AI 채점 시스템의 길을 닦았습니다.

한 줄 요약:

이 연구는 AI 가 학생의 글을 읽을 때, 단순히 점수만 매기는 게 아니라 **"어떤 단어와 문법 실력이 실력을 결정했는지"**를 투명하게 설명해 주는 똑똑한 언어 코치를 개발하는 데 성공했습니다.