Implicit Grading Bias in Large Language Models: How Writing Style Affects Automated Assessment Across Math, Programming, and Essay Tasks

본 연구는 수학 및 프로그래밍 과목에서는 편향이 미미했으나 에세이 과목에서는 문법 오류, 비격식적 표현, 비모국어적 문구 등 작성 스타일에 따라 콘텐츠의 정확성과 무관하게 대규모 언어 모델 (LLM) 이 심각한 채점 편향을 보인다는 사실을 규명했습니다.

원저자: Rudra Jadhav, Janhavi Danve, Sonalika Shaw

게시일 2026-03-20✓ Author reviewed
📖 4 분 읽기☕ 가벼운 읽기

이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"인공지능 (AI) 이 학생의 글을 채점할 때, 내용이 똑같아도 글씨체나 말투가 다르면 불공정하게 점수를 깎아주는가?"**라는 질문을 던집니다.

결론부터 말씀드리면, "네, 그렇습니다. 특히 에세이나 글쓰기 과제에서는 AI 가 매우 편파적으로 행동합니다."

이 복잡한 연구를 일상적인 비유와 쉬운 한국어로 설명해 드리겠습니다.


🍎 핵심 비유: "맛있는 사과 vs. 껍질이 벗겨진 사과"

상상해 보세요. 두 개의 사과가 있습니다.

  1. 사과 A: 껍질이 매끄럽고, 빨갛고, 아주 예쁘게 다듬어진 사과입니다.
  2. 사과 B: 껍질이 약간 벗겨져 있고, 모양이 조금 투박하지만, 안쪽의 과육과 맛은 사과 A 와 100% 똑같은 사과입니다.

이제 AI 채점관 (LLaMA, Qwen 같은 거대 언어 모델) 이 이 두 사과를 평가하라고 합니다. AI 는 "맛만 보고 점수를 매겨라. 껍질이나 모양은 무시해라"라는 지시를 받습니다.

하지만 결과는 어떨까요?

  • 수학이나 프로그래밍 문제 (정답이 명확한 경우): AI 는 "아, 이 사과도 저 사과도 맛은 똑같구나!"라고 생각하며 똑같은 점수를 줍니다.
  • 에세이나 글쓰기 문제 (정답이 주관적인 경우): AI 는 "저 사과는 껍질이 투박하고 말투가 너무 구어체 (반말) 라서... 아마 내용도 덜 깊겠지?"라고 무의식적으로 착각합니다. 그래서 맛은 같은데 껍질이 투박한 사과 B 에게는 점수를 깎아줍니다.

이 논문은 바로 이 **"무의식적인 편견"**을 과학적으로 증명했습니다.


🔍 연구가 무엇을 했나요?

연구진은 180 개의 학생 답안을 만들어 AI 에게 채점하게 했습니다. 내용은 모두 정답이었지만, 글쓰기 스타일만 세 가지로 바꿔보았습니다.

  1. 문법 실수: 철자나 문법이 조금 틀린 경우 (예: "I go to school yesterday" → "I went to school yesterday" 대신 "I go to school yesterday"라고 씀).
  2. 비격식적인 말투: 친구에게 말하듯 편하게 쓴 경우 (예: "너 5 빼고 2 로 나누면 4 가 돼"라고 씀).
  3. 외국인 특유의 표현: 영어를 모국어로 하지 않는 사람이 쓰는 독특한 문장 구조 (예: "우리는 양쪽에서 5 를 빼면 2x 가 8 이 됨").

그리고 AI 에게 **"내용만 보고 점수 줘. 글쓰기 스타일은 무시해"**라고 아주 명확하게 지시했습니다.


📊 결과는 어땠나요? (놀라운 발견)

1. "과목에 따라 편견이 다르다" (가장 중요한 발견)

  • 수학 & 프로그래밍: AI 는 거의 편견이 없었습니다. 정답이 명확하니까 "정답이다"라고만 보고, 글씨체가 어떻든 상관없었습니다.
  • 에세이 & 글쓰기: 여기서 대폭발이 일어났습니다. AI 는 내용이 완벽해도, 글쓰기 스타일이 조금만 어색하면 점수를 확 깎았습니다.

2. "가장 큰 벌점은 '비격식적인 말투'였다"

AI 는 특히 친구처럼 편하게 쓴 말투 (Informal Language) 를 가장 싫어했습니다.

  • LLaMA라는 AI 는 비격식적인 글을 썼을 때 평균 1.9 점을 깎았습니다. (10 점 만점 기준)
  • Qwen이라는 AI 도 1.2 점을 깎았습니다.
  • 비유하자면: 두 학생의 지능과 지식은 똑같은데, 한 학생은 "교수님, 이 문제는 이렇게 풀립니다"라고 정중하게 썼고, 다른 학생은 "야, 이거 이렇게 하면 돼"라고 썼을 때, AI 는 후자를 B+ 에서 C+ 로 떨어뜨리는 엄청난 차이를 만들었습니다.

3. "명령을 들어도 안 들었어요"

연구진은 AI 에게 "절대로 글씨체 때문에 점수 깎지 마!"라고 명령을 내렸습니다. 하지만 AI 는 그 명령을 무시하고 여전히 편견을 보였습니다.

  • 비유: AI 는 마치 "이 아이는 옷차림이 촌스러우니까 머리가 나쁘겠지"라고 생각하는 선입견이 뇌 (데이터) 에 너무 깊게 박혀 있어서, "아니야, 옷차림과 머리는 상관없어!"라고 외쳐도 그 선입견을 지울 수 없는 상태였습니다.

💡 왜 이런 일이 일어날까요?

AI 는 인터넷에 있는 수많은 책, 뉴스, 논문 같은 격식 있고 딱딱한 글로 배웠습니다.

  • AI 의 생각: "격식 있는 글 = 좋은 글 = 지적인 사람"
  • AI 의 생각: "편하게 쓴 글 = 나쁜 글 = 지식이 부족한 사람"

이런 선입견이 AI 의 뇌에 깊이 박혀 있어서, 학생이 "지식은 있는데 표현이 투박한" 경우를 보면 AI 는 그 학생의 지식을 제대로 보지 못하고, 오히려 "표현이 투박하니까 지식이 부족하겠지"라고 착각하는 것입니다.

⚠️ 이것이 왜 문제일까요?

이건 단순히 점수 문제가 아닙니다.

  • 공정성 문제: 영어를 모국어로 하지 않는 학생, 혹은 학교 교육보다 실생활에서 언어를 배운 학생들은 AI 에게 불이익을 받습니다.
  • 기회 박탈: 이 점수가 장학금이나 진급에 영향을 준다면, 똑똑한 학생이 단순히 '글쓰기 스타일' 때문에 기회를 잃게 됩니다.

🛠️ 연구진이 제안하는 해결책

  1. AI 도입 전 '편견 테스트' 필수: 학교나 기관이 AI 채점 시스템을 도입하기 전에, "내용은 같은데 글쓰기 스타일만 다른지"로 테스트해봐야 합니다.
  2. 주관적 과제는 사람이 채점: 에세이나 논술처럼 정답이 명확하지 않은 과제는 AI 가 아닌 사람이 채점해야 합니다.
  3. AI 교육 개선: AI 가 다양한 스타일의 글을 학습하도록 다시 훈련시켜야 합니다.

📝 한 줄 요약

"AI 는 수학 문제에서는 공정한 심판이지만, 글쓰기 과제에서는 '글씨체'와 '말투'를 보고 학생의 지능을 판단하는 편견 있는 심판입니다. 우리는 AI 가 모든 학생에게 공평하게 대우받도록 시스템을 다시 설계해야 합니다."

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →