From Prompting to Preference Optimization: A Comparative Study of LLM-based Automated Essay Scoring

본 논문은 영어 제 2 언어 작문 자동 채점 (AES) 을 위해 프롬프팅, 파인튜닝, RAG, 선호도 최적화 등 주요 LLM 기반 접근법들을 통합 벤치마크에서 비교 분석하여, k-SFT 와 RAG 를 결합한 구성이 93% 의 F1 점수로 가장 우수한 성능을 보임을 입증했습니다.

Minh Hoang Nguyen, Vu Hoang Pham, Xuan Thanh Huynh, Phuc Hong Mai, Vinh The Nguyen, Quang Nhut Huynh, Huy Tien Nguyen, Tung Le

게시일 2026-03-09
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"에세이 채점 로봇이 어떻게 더 똑똑해졌는가?"**에 대한 이야기입니다.

과거에는 컴퓨터가 학생의 영어 에세이를 채점할 때, 단순히 문법 오류 개수나 글자 수 같은 '표면적인 지표'만 봤습니다. 하지만 최근 등장한 **거대 언어 모델 (LLM, 예: GPT-4 등)**은 인간처럼 글을 읽고 맥락을 이해할 수 있게 되었습니다.

이 연구는 **"어떤 방식으로 이 똑똑한 AI 를 채점관으로 훈련시키는 것이 가장 좋은가?"**를 비교 실험한 결과입니다. 마치 새로운 요리사를 훈련시키는 네 가지 방법을 비교해 본 것과 같습니다.


🍳 4 가지 훈련 방법 (비유로 설명)

연구진은 IELTS(영어 시험) 에세이 채점을 위해 4 가지 다른 훈련 방식을 시도했습니다.

1. 전통적인 분류기 (Discrimative Fine-tuning)

  • 비유: "오직 점수만 외우는 기계"
  • 설명: AI 에게 수천 개의 에세이와 정답 점수를 보여주고, "이건 6 점, 저건 7 점"이라고 강제로 외우게 합니다.
  • 결과: 점수는 어느 정도 맞지만, 왜 그 점수를 줬는지 설명을 못 합니다. 마치 정답만 암기한 학생처럼, 조금만 다른 문제가 나오면 당황합니다.

2. 프롬프팅 (Prompting / Zero-shot)

  • 비유: "지시만 내리는 지휘자"
  • 설명: AI 를 훈련시키지 않고, 채점관 역할을 하라고 말만 해줍니다. (예: "너는 IELTS 채점관이야. 이 글을 읽고 점수를 줘.")
  • 결과: 훈련 비용은 들지 않지만, AI 의 기분에 따라 점수가 들쑥날쑥합니다. 어떤 날은 완벽하고, 어떤 날은 엉망이 될 수 있습니다.

3. 지시 미세 조정 + 검색 (Instruction Tuning + RAG)

  • 비유: "교과서와 모범 답안을 보고 공부한 우수생"
  • 설명: AI 에게 채점 기준 (Rubric) 을 자세히 가르치고, 채점할 때마다 **유사한 모범 답안 (검색된 예시)**을 옆에 펼쳐두게 합니다.
  • 결과: 가장 점수가 정확합니다. 기준에 맞춰 꼼꼼히 채점하며, 실수도 적습니다. 마치 시험 직전 모의고사를 많이 풀어본 학생 같습니다.

4. 선호도 최적화 (SFT + DPO + RAG)

  • 비유: "선생님의 피드백을 받아 성숙한 멘토"
  • 설명: 점수만 맞추는 게 아니라, "사람들이 어떤 피드백을 더 좋아할까?"를 학습시킵니다. AI 가 인간 채점관처럼 "이 부분은 좋지만, 저 부분은 다듬으면 더 좋아질 거야"라고 자연스럽게 조언합니다.
  • 결과: 점수 정확도는 3 번 방법과 비슷하지만, 학생에게 주는 조언 (피드백) 이 훨씬 자연스럽고 따뜻합니다.

🏆 최종 결과: 무엇이 가장 좋을까?

연구진은 이 네 가지 방법을 비교한 후 다음과 같은 결론을 내렸습니다.

  1. 가장 정확한 채점: **"3 번 방법 (지시 + 검색)"**이 최고였습니다.

    • 비유: 시험 문제와 정답지를 옆에 두고 꼼꼼히 채점하는 엄격한 채점관입니다.
    • 성적: 정확도 99% 에 가까운 F1 점수 93% 를 기록했습니다.
  2. 가장 좋은 피드백: **"4 번 방법 (선호도 최적화)"**이 가장 좋았습니다.

    • 비유: 학생의 성장을 돕는 친절한 멘토입니다. 점수만 알려주는 게 아니라, "어떻게 고쳐야 할지"를 인간처럼 설명해 줍니다.
  3. 비용과 성능의 균형 (트레이드오프):

    • 저렴하지만 덜 정확한 방법: 1 번과 2 번 (훈련 비용은 적지만, 신뢰도가 낮음).
    • 비싸지만 정확한 방법: 3 번과 4 번 (컴퓨터 자원과 시간이 많이 들지만, 결과가 훌륭함).

💡 이 연구가 우리에게 주는 메시지

이 논문은 **"AI 에게 에세이를 채점하게 할 때, 단순히 점수만 맞추게 하는 것보다, 채점 기준을 가르치고 모범 답안을 보여주는 것이 훨씬 효과적"**임을 증명했습니다.

  • 시험을 치르는 상황 (고난도): 3 번 방법을 쓰세요. (정확한 점수 필요)
  • 학생이 공부하는 상황 (형성 평가): 4 번 방법을 쓰세요. (자연스러운 조언 필요)

결론적으로, AI 가 인간처럼 글을 읽고 공정하게 평가하려면 "단순한 암기"나 "지시만"이 아니라, 구체적인 기준과 예시를 바탕으로 훈련되어야 한다는 것을 이 연구는 보여줍니다.