Terminology Rarity Predicts Catastrophic Failure in LLM Translation of Low-Resource Ancient Languages: Evidence from Ancient Greek

이 연구는 고대 그리스어 전문 텍스트 번역에서 LLM 의 성능이 전문 용어의 희소성에 의해 결정되며, 특히 미번역된 약학 텍스트에서 용어 빈도가 번역 실패를 강력하게 예측한다는 것을 인간 평가와 자동 지표를 통해 입증했습니다.

James L. Zainaldin, Cameron Pattison, Manuela Marai, Jacob Wu, Mark J. Schiefsky

게시일 2026-03-02
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 실험의 설정: "일반적인 이야기" vs "전문가만 아는 암호"

연구진은 세 가지 유명한 AI (Claude, Gemini, ChatGPT) 에게 고대 그리스 의사 갈레노스 (Galen) 의 글을 번역하게 했습니다. 이때 두 가지 다른 종류의 글을 사용했습니다.

  • A 책 (혼합에 관하여): 철학이나 생리에 대해 설명하는 일반적인 이야기입니다. 이미 현대 영어로 잘 번역된 책이 있습니다.
  • B 책 (약제 조성에 관하여): 약재와 질병을 다루는 엄청난 전문 용어가 가득한 '암호' 같은 책입니다. 이 책은 영어로 번역된 적이 전혀 없습니다.

비유하자면:

  • A 책은 "오늘 날씨가 좋네요, 산책하러 가요" 같은 일상 대화입니다.
  • B 책은 "이 약은 '칼칸토스'와 '크리스코콜라'를 섞어 '상다라케'를 만들어야 한다"는 의사만 아는 전문 처방전입니다.

2. AI 의 실력: "일상 대화는 천재, 전문 용어는 실수왕"

결과가 매우 극명하게 갈렸습니다.

  • 일상적인 글 (A 책) 을 번역할 때:
    AI 들은 거의 완벽하게 번역했습니다. 전문가가 번역한 수준에 가까웠습니다. 마치 유창한 외국어 회화를 하는 유학생처럼 자연스러웠습니다.

    • 이유: AI 가 훈련할 때 이미 번역된 책들이 많이 있었기 때문입니다.
  • 전문적인 글 (B 책) 을 번역할 때:
    AI 들은 대참사를 겪었습니다. 특히 약재 이름이나 희귀한 병명 같은 드문 단어가 나올 때, AI 는 완전히 엉뚱한 말을 하거나 아예 번역을 포기했습니다.

    • 비유: 고급 레스토랑의 셰프가 일반 메뉴는 완벽하게 만들지만, 메뉴판에 적힌 알 수 없는 야생 버섯 이름만 나오면 "이건 뭐죠?"라고 하거나, 임의로 다른 버섯으로 바꿔서 요리를 만들어버리는 상황입니다.

핵심 발견:
AI 가 실수하는 이유는 글이 어렵기 때문이 아니라, **단어가 얼마나 '희귀한지'**에 달려 있었습니다. 고대 그리스 문학에서 단어가 50 번도 안 쓰인다면, AI 는 그 단어를 제대로 번역할 확률이 97% 이상 떨어졌습니다.


3. 자동 채점기의 함정: "점수는 좋지만, 내용은 엉터리"

연구진은 AI 번역을 평가할 때 두 가지 방법을 썼습니다.

  1. 자동 채점기 (컴퓨터가 점수 매김): 기존에 나온 번역본과 비교해서 단어 겹치는 정도를 점수로 줍니다.
  2. 전문가 채점 (역사학자가 직접 읽음): 실제 내용을 보고 옳고 그름을 판단합니다.

여기서 재미있는 반전이 일어났습니다.

  • 자동 채점기는 AI 가 엉망으로 번역한 전문 용어 부분에서도 "점수가 꽤 나쁘지 않네?"라고 중간 점수를 주거나, 아예 엉뚱한 번역을 '훌륭함'으로 오인하기도 했습니다.
  • 하지만 전문가는 "이 약재 이름이 완전히 틀렸어! 환자를 죽일 수도 있어!"라고 **치명적인 오류 (Critical Error)**를 지적했습니다.

비유하자면:
시험 문제를 풀 때, 자동 채점기는 "문법적으로 문장이 잘 만들어졌네, 80 점!"이라고 줍니다. 하지만 **선생님 (전문가)**은 "문장은 잘 썼는데, 계산 결과가 1+1=3 이라고 썼네? 이건 0 점이야!"라고 채점하는 것입니다. 자동 채점기는 AI 가 만들어낸 **매끄러운 헛소리 (할루시네이션)**를 진짜로 착각하기 쉽습니다.


📝 결론: 우리가 무엇을 배웠을까?

이 연구는 우리에게 중요한 교훈을 줍니다.

  1. AI 는 만능이 아닙니다: 일상적인 고전 문헌을 읽는 데는 AI 가 아주 훌륭합니다. 하지만 전문적인 의학, 과학, 법률 같은 분야에서는 AI 가 만든 번역을 절대 맹신하면 안 됩니다.
  2. 희귀한 단어는 위험 신호: 만약 번역하려는 글에 우리가 잘 모르는 드문 단어가 많다면, AI 는 그 부분에서 무조건 실수할 가능성이 매우 높습니다.
  3. 전문가의 눈이 필요합니다: AI 가 번역한 글을 그대로 쓰기 전에, 반드시 **해당 분야를 아는 사람 (전문가)**이 다시 한번 확인해야 합니다. 특히 약이나 치료법 같은 중요한 내용이라면, AI 의 번역은 '초안'일 뿐, '최종 답안'이 될 수 없습니다.

한 줄 요약:

"AI 는 고대 그리스어의 일상 대화는 잘하지만, 전문가만 아는 암호를 풀 때는 엉뚱한 소리를 합니다. 그러니 AI 가 번역한 전문 서적은 반드시 전문가의 눈으로 다시 한번 확인해야 합니다."