Each language version is independently generated for its own context, not a direct translation.
1. "원문 난이도"는 무엇을 기준으로 재느냐에 따라 달라집니다.
(Source-Side: 번역하기 힘든 문장인지 미리 알기)
연구자들은 "원래 문장이 얼마나 어려운가?"를 분석해서 번역 품질을 예측해 보았습니다. 마치 시험 문제의 난이도를 보고 학생이 몇 점 받을지 예측하는 것과 비슷합니다.
- 기존의 생각: 문장이 길거나 문법이 복잡하면 (예: 긴 영어 문장), 번역이 잘 안 될 것이라고 생각했습니다.
- 실험 결과:
- 사람이 수정하는 노력 (TER) 을 기준으로 할 때: 문장 길이 같은 요소는 큰 영향을 주지 않았습니다. 길고 복잡한 문장이라도 기계가 잘 번역하면 사람이 고칠 일이 없기 때문입니다.
- AI 점수 (COMET) 를 기준으로 할 때: 문장이 길수록 점수가 낮게 나오는 경향이 있었습니다.
- 비유: 요리사 (기계) 와 식탁 (평가 기준) 의 관계입니다.
- 어떤 식탁은 "요리사가 재료를 얼마나 많이 썼는지 (문장 길이)"만 보고 점수를 줍니다. 그래서 재료가 많으면 (문장이 길면) 실수할 확률이 높다고 판단해 점수를 깎습니다.
- 하지만 실제 손님 (번역 수정자) 은 "요리가 맛있고 깔끔한가?"만 봅니다. 재료가 많든 적든, 맛만 좋으면 점수를 줍니다.
- 결론: "어려운 문장"을 예측하는 도구는, 우리가 '어려움'을 무엇으로 정의하느냐 (수정 노력 vs AI 점수) 에 따라 완전히 다른 결과를 보여줍니다.
2. "AI 가 추천하는 번역"을 사람이 믿지 않았습니다.
(Candidate-Side: 여러 번역 후보 중 가장 좋은 것을 고르기)
번역기에서 여러 개의 번역 결과 (후보) 가 나왔을 때, 어떤 것이 가장 좋은지 AI 가 점수를 매겨 추천해 줍니다. 연구자들은 이 AI 의 추천 점수와 실제 사람이 고른 결과를 비교했습니다.
- 기존의 생각: AI 가 "이 번역이 90 점이야!"라고 하면, 사람이 그걸 믿고 고를 것이다.
- 실험 결과: 사람들은 AI 의 점수를 무시하고, 자신의 눈으로 고른 번역을 선택했습니다. 특히 최신 AI(대형 언어 모델, LLM) 가 만든 번역은, 기존 번역기 (NMT) 들보다 훨씬 좋았음에도 불구하고, AI 점수 모델은 이를 제대로 평가하지 못했습니다.
- 비유: 맛있는 음식 추천 앱 vs 실제 미식가입니다.
- 맛집 추천 앱 (기존 AI 점수 모델) 은 "이 식당은 평점이 3.5 점이라서 별로야"라고 합니다. (기존 번역기 데이터로 학습했기 때문입니다.)
- 하지만 실제 미식가 (번역 수정자) 는 "이 식당 (최신 AI) 은 요리사가 재능이 있어서 별 5 개를 줘야 해!"라고 생각합니다.
- 결론: 기존에 훈련된 '품질 예측 AI'는 최신 AI 가 만든 번역의 가치를 제대로 알아채지 못합니다. 마치 구식 저울로 최신형 스마트폰의 무게를 재려고 하는 것처럼, 도구와 대상이 맞지 않는 상황입니다.
3. "문장 위치"는 중요하지 않았습니다.
(Positional Bias: 문서의 끝으로 갈수록 번역이 나빠지는 현상)
예전에는 긴 문서를 번역할 때, 문서의 앞부분은 잘 번역되는데, 뒷부분으로 갈수록 번역이 엉망이 되는 현상이 있었습니다. (마라톤을 뛰다가 지쳐서 마지막에 실수하는 것과 비슷합니다.)
- 실험 결과: 최신 대형 AI 모델들은 이 문제를 거의 해결했습니다. 문서의 앞쪽이든 뒤쪽이든 번역 품질이 거의 비슷하게 유지되었습니다.
- 비유: 긴 이야기를 읽는 것입니다.
- 예전 번역기는 긴 이야기를 읽다가 중간에 집중력을 잃어 마지막 줄을 엉터리로 번역했습니다.
- 하지만 최신 AI 는 기억력이 매우 뛰어난 사람처럼, 이야기의 처음부터 끝까지 일관된 집중력을 유지합니다.
- 결론: "문서의 끝으로 갈수록 번역이 나빠진다"는 옛날의 걱정은 최신 AI 에서는 더 이상 큰 문제가 아닙니다.
📝 한 줄 요약
"기계 번역의 품질을 예측하는 옛날 방법들은 최신 AI 시대에는 잘 통하지 않습니다. 특히 '문장 길이'나 'AI 점수'만 믿으면 안 되며, 최신 AI 는 긴 문서도 처음부터 끝까지 잘 번역합니다."
이 연구는 우리가 기계 번역을 다룰 때, 과거의 경험과 도구를 다시 한번 점검하고, 최신 AI 의 특성에 맞는 새로운 평가 기준이 필요함을 알려줍니다.