Terminology Rarity Predicts Catastrophic Failure in LLM Translation of Low-Resource Ancient Languages: Evidence from Ancient Greek

Each language version is independently generated for its own context, not a direct translation.

1. 실험의 설정: "일반적인 이야기" vs "전문가만 아는 암호"

연구진은 세 가지 유명한 AI (Claude, Gemini, ChatGPT) 에게 고대 그리스 의사 갈레노스 (Galen) 의 글을 번역하게 했습니다. 이때 두 가지 다른 종류의 글을 사용했습니다.

A 책 (혼합에 관하여): 철학이나 생리에 대해 설명하는 일반적인 이야기입니다. 이미 현대 영어로 잘 번역된 책이 있습니다.
B 책 (약제 조성에 관하여): 약재와 질병을 다루는 엄청난 전문 용어가 가득한 '암호' 같은 책입니다. 이 책은 영어로 번역된 적이 전혀 없습니다.

비유하자면:

A 책은 "오늘 날씨가 좋네요, 산책하러 가요" 같은 일상 대화입니다.
B 책은 "이 약은 '칼칸토스'와 '크리스코콜라'를 섞어 '상다라케'를 만들어야 한다"는 의사만 아는 전문 처방전입니다.

2. AI 의 실력: "일상 대화는 천재, 전문 용어는 실수왕"

결과가 매우 극명하게 갈렸습니다.

일상적인 글 (A 책) 을 번역할 때:
AI 들은 거의 완벽하게 번역했습니다. 전문가가 번역한 수준에 가까웠습니다. 마치 유창한 외국어 회화를 하는 유학생처럼 자연스러웠습니다.
- 이유: AI 가 훈련할 때 이미 번역된 책들이 많이 있었기 때문입니다.
전문적인 글 (B 책) 을 번역할 때:
AI 들은 대참사를 겪었습니다. 특히 약재 이름이나 희귀한 병명 같은 드문 단어가 나올 때, AI 는 완전히 엉뚱한 말을 하거나 아예 번역을 포기했습니다.
- 비유: 고급 레스토랑의 셰프가 일반 메뉴는 완벽하게 만들지만, 메뉴판에 적힌 알 수 없는 야생 버섯 이름만 나오면 "이건 뭐죠?"라고 하거나, 임의로 다른 버섯으로 바꿔서 요리를 만들어버리는 상황입니다.

핵심 발견:
AI 가 실수하는 이유는 글이 어렵기 때문이 아니라, **단어가 얼마나 '희귀한지'**에 달려 있었습니다. 고대 그리스 문학에서 단어가 50 번도 안 쓰인다면, AI 는 그 단어를 제대로 번역할 확률이 97% 이상 떨어졌습니다.

3. 자동 채점기의 함정: "점수는 좋지만, 내용은 엉터리"

연구진은 AI 번역을 평가할 때 두 가지 방법을 썼습니다.

자동 채점기 (컴퓨터가 점수 매김): 기존에 나온 번역본과 비교해서 단어 겹치는 정도를 점수로 줍니다.
전문가 채점 (역사학자가 직접 읽음): 실제 내용을 보고 옳고 그름을 판단합니다.

여기서 재미있는 반전이 일어났습니다.

자동 채점기는 AI 가 엉망으로 번역한 전문 용어 부분에서도 "점수가 꽤 나쁘지 않네?"라고 중간 점수를 주거나, 아예 엉뚱한 번역을 '훌륭함'으로 오인하기도 했습니다.
하지만 전문가는 "이 약재 이름이 완전히 틀렸어! 환자를 죽일 수도 있어!"라고 **치명적인 오류 (Critical Error)**를 지적했습니다.

비유하자면:
시험 문제를 풀 때, 자동 채점기는 "문법적으로 문장이 잘 만들어졌네, 80 점!"이라고 줍니다. 하지만 **선생님 (전문가)**은 "문장은 잘 썼는데, 계산 결과가 1+1=3 이라고 썼네? 이건 0 점이야!"라고 채점하는 것입니다. 자동 채점기는 AI 가 만들어낸 **매끄러운 헛소리 (할루시네이션)**를 진짜로 착각하기 쉽습니다.

📝 결론: 우리가 무엇을 배웠을까?

이 연구는 우리에게 중요한 교훈을 줍니다.

AI 는 만능이 아닙니다: 일상적인 고전 문헌을 읽는 데는 AI 가 아주 훌륭합니다. 하지만 전문적인 의학, 과학, 법률 같은 분야에서는 AI 가 만든 번역을 절대 맹신하면 안 됩니다.
희귀한 단어는 위험 신호: 만약 번역하려는 글에 우리가 잘 모르는 드문 단어가 많다면, AI 는 그 부분에서 무조건 실수할 가능성이 매우 높습니다.
전문가의 눈이 필요합니다: AI 가 번역한 글을 그대로 쓰기 전에, 반드시 **해당 분야를 아는 사람 (전문가)**이 다시 한번 확인해야 합니다. 특히 약이나 치료법 같은 중요한 내용이라면, AI 의 번역은 '초안'일 뿐, '최종 답안'이 될 수 없습니다.

한 줄 요약:

"AI 는 고대 그리스어의 일상 대화는 잘하지만, 전문가만 아는 암호를 풀 때는 엉뚱한 소리를 합니다. 그러니 AI 가 번역한 전문 서적은 반드시 전문가의 눈으로 다시 한번 확인해야 합니다."

Terminology Rarity Predicts Catastrophic Failure in LLM Translation of Low-Resource Ancient Languages: Evidence from Ancient Greek

1. 실험의 설정: "일반적인 이야기" vs "전문가만 아는 암호"

2. AI 의 실력: "일상 대화는 천재, 전문 용어는 실수왕"

3. 자동 채점기의 함정: "점수는 좋지만, 내용은 엉터리"

📝 결론: 우리가 무엇을 배웠을까?

1. 연구 배경 및 문제 정의 (Problem)

2. 연구 방법론 (Methodology)

3. 주요 기여 및 결과 (Key Contributions & Results)

A. 번역 품질의 이분법적 성과

B. 용어 희소성이 실패의 강력한 예측 변수

C. 자동 평가 지표의 한계

D. 암기 효과 (Memorization) vs. 번역 능력

4. 의의 및 시사점 (Significance)

결론

Terminology Rarity Predicts Catastrophic Failure in LLM Translation of Low-Resource Ancient Languages: Evidence from Ancient Greek

1. 실험의 설정: "일반적인 이야기" vs "전문가만 아는 암호"

2. AI 의 실력: "일상 대화는 천재, 전문 용어는 실수왕"

3. 자동 채점기의 함정: "점수는 좋지만, 내용은 엉터리"

📝 결론: 우리가 무엇을 배웠을까?

1. 연구 배경 및 문제 정의 (Problem)

2. 연구 방법론 (Methodology)

3. 주요 기여 및 결과 (Key Contributions & Results)

A. 번역 품질의 이분법적 성과

B. 용어 희소성이 실패의 강력한 예측 변수

C. 자동 평가 지표의 한계

D. 암기 효과 (Memorization) vs. 번역 능력

4. 의의 및 시사점 (Significance)

결론

유사한 논문

Evaluating Prompting Strategies for Chart Question Answering with Large Language Models

MERIT: Memory-Enhanced Retrieval for Interpretable Knowledge Tracing

Less is More: Adapting Text Embeddings for Low-Resource Languages with Small Scale Noisy Synthetic Data

Evaluating Large Language Models' Responses to Sexual and Reproductive Health Queries in Nepali

TIPS: Turn-Level Information-Potential Reward Shaping for Search-Augmented LLMs