Who Benchmarks the Benchmarks? A Case Study of LLM Evaluation in Icelandic

이 논문은 아이슬란드어용 대규모 언어 모델 (LLM) 벤치마크가 검증되지 않은 합성 또는 기계 번역 데이터를 사용하여 심각한 오류를 포함하고 평가의 타당성을 훼손할 수 있음을 지적하며, 저/중자원 언어에 대한 검증된 평가 방법의 필요성을 강조합니다.

Finnur Ágúst Ingimundarson, Steinunn Rut Fri{\dh}riksdóttir, Bjarki Ármannsson, Iris Edda Nowenstein, Stein{\th}ór Steingrímsson

게시일 2026-03-18
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

"시험지를 누가 채점하나?" 아이슬란드어 AI 평가의 진실

이 논문은 **"우리가 AI(대형 언어 모델) 의 능력을 측정하는 시험지가 정말로 신뢰할 수 있는가?"**라는 근본적인 질문에서 시작합니다. 특히 자료가 부족한 '저자원 언어'인 아이슬란드어를 사례로 들어, 현재 AI 평가 방식에 숨겨진 치명적인 결함들을 파헤칩니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드리겠습니다.


1. 핵심 비유: "번역된 수학 문제지"의 함정

상상해 보세요. 한국 학생들에게 미국 초등학교 과학 시험지를 주고 성적을 매기려 합니다. 그런데 이 시험지를 아무도 검토하지 않고 기계 번역기로 아이슬란드어로만 번역했다고 칩시다.

  • 문제 1 (문화적 불일치): "네바다 주의 강수량이 적은 이유"를 묻는 문제가 나옵니다. 아이슬란드 학생들에게 네바다의 기후는 전혀 관련이 없습니다. 마치 "제주도 해녀가 사용하는 도구"를 묻는 문제를 미국 학생에게 내는 것과 비슷합니다.
  • 문제 2 (번역 오류): 번역기가 '과일'을 '동물'로 잘못 번역하거나, 전문 용어를 엉뚱한 단어로 바꿉니다. 예를 들어, '과일'이 '칠면조 (동물)'로 번역되어, 정답이 '칠면조'가 되어버리는 기이한 상황이 발생합니다.
  • 문제 3 (생성된 거짓말): AI 가 시험지를 직접 만들게 했다면, AI 는 사실과 다른 내용을 만들어낼 수 있습니다. "김정은의 아들 이름이 '시구르요'다"라고 거짓말을 하며, 정답을 그 부모로 유도하는 식입니다.

이 논문은 **"이렇게 엉망으로 만들어진 시험지로 아이슬란드어 AI 의 능력을 평가하는 것은, 엉터리 시험지로 학생을 평가하는 것과 같다"**고 경고합니다.

2. 연구팀이 발견한 '진짜' 문제들

연구팀은 아이슬란드어 AI 평가에 쓰이는 여러 시험지 (벤치마크) 를 직접 분석했습니다. 결과는 충격적이었습니다.

  • 인간이 만든 시험지 vs 기계가 만든 시험지:
    • 인간이 번역하고 검증한 시험지: 오류가 거의 없었습니다. (예: 'WinoGrande' 시험지)
    • 기계 번역이나 AI 가 만든 시험지: 거의 절반 이상이 심각한 오류를 품고 있었습니다. 특히 'HellaSwag' 같은 시험지는 100% 에 가깝게 오류가 발견되어 아예 폐기해야 할 수준이었습니다.
  • 통계적 신뢰도: 기계 번역된 시험지들은 AI 가 "왜 틀렸는지"가 아니라 "우연히 맞춘 것"처럼 높은 점수를 받을 수 있게 만들었습니다. 마치 수학 문제를 풀지 않고 답지만 외운 학생이 100 점을 받는 꼴입니다.

3. 왜 이런 일이 일어날까요? (원인 분석)

  • 편의성 vs 정확성: 자료가 부족한 언어 (아이슬란드어 등) 에는 직접 시험지를 만드는 게 어렵고 비쌉니다. 그래서 연구자들은 "영어 시험지를 기계 번역해서 쓰자"거나 "AI 에게 시험지를 만들어달라"는 편법을 썼습니다.
  • 검증의 부재: 번역된 시험지를 원어민이 한 번도 확인하지 않았습니다. 번역기의 실수, 문화적 오해, 사실 오류가 그대로 시험지에 담겨버린 것입니다.
  • AI 의 환각 (Hallucination): AI 가 시험지를 만들 때, 존재하지 않는 단어를 invented 하거나 (예: 여성형 직업 명칭을 만들어냄), 문맥과 전혀 상관없는 답을 정답으로 제시하기도 합니다.

4. 이 문제가 왜 중요한가요?

만약 엉터리 시험지로 AI 를 평가하면 어떤 일이 벌어질까요?

  1. 잘못된 방향성: AI 개발자들은 "내 모델이 이 엉터리 시험지에서 높은 점수를 받았으니 훌륭하다"고 착각합니다. 하지만 실제로는 AI 가 번역기의 실수를 암기하거나 문화적 맥락을 무시하는 방향으로 학습했을 뿐입니다.
  2. 언어 공동체의 피해: 아이슬란드어처럼 소수 언어는 디지털 바다에서 영어에 의해 잠식당할 위기에 처해 있습니다. 엉터리 평가는 AI 가 아이슬란드어의 진짜 특징을 배우는 대신, 영어식 사고방식을 아이슬란드어에 강요하게 만듭니다.

5. 연구팀이 제안하는 해결책

이 논문은 다음과 같은 세 가지 원칙을 강조합니다.

  1. 기계 번역 금지 (검증 없이): 번역된 시험지를 쓸 때는 반드시 원어민 전문가가 내용을 확인하고 수정해야 합니다.
  2. AI 생성 데이터 경계: AI 가 만든 데이터도 기계 번역과 다를 바 없으니, 같은 주의가 필요합니다.
  3. 원어민 참여 필수: 시험지 제작부터 검증까지 해당 언어를 모국어로 쓰는 사람이 주도해야 합니다.

결론: "시험지를 누가 채점하나?"

논문의 제목인 "Who Benchmarks the Benchmarks?"(벤치마크를 누가 평가하는가?) 에 대한 답은 명확합니다.

"시험지를 만든 사람 (연구자) 이 스스로의 시험지를 끊임없이 검증해야 한다."

우리는 AI 가 얼마나 똑똑한지 알고 싶어 합니다. 하지만 부실한 시험지로는 AI 의 진짜 능력을 알 수 없습니다. 마치 망가진 자국으로 키를 재면 키가 왜곡되어 나오듯, 부실한 데이터로 AI 를 평가하면 우리는 잘못된 미래를 준비하게 됩니다.

이 논문은 **"편의성보다 정확성을, 기계 번역보다 인간의 검증"**을 선택하라고 강력히 호소하고 있습니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →