Each language version is independently generated for its own context, not a direct translation.
1. 비유: "외국인 친구의 번역기" (번역체, Translationese)
상상해 보세요. 영어를 모국어로 하는 친구가 스웨덴어를 배우고 있습니다. 그는 문법책은 완벽하게 외웠지만, 실제 스웨덴 사람들이 일상에서 쓰는 자연스러운 말투는 잘 모릅니다.
- 자연스러운 말 (Idiomatic): "오늘 날씨 참 좋네!" (스웨덴 사람이 자연스럽게 하는 말)
- 번역체 (Translationese): "오늘 날씨가 매우 좋다." (문법적으로 틀리진 않았지만, 외국인이 번역기를 돌린 듯한 어색한 표현)
이 논문에서 말하는 **'번역체 (Translationese)'**란 바로 이 **'외국인 친구의 어색한 말투'**를 뜻합니다. 기계 번역이나 AI 는 문법적으로는 맞지만, 현지인이 쓰는 '맛'과 '분위기'가 빠져서 글이 딱딱하고 어색하게 만들어냅니다.
2. 비유: "맛있는 요리 레시피 vs. 기계식 조리" (데이터셋의 역할)
연구팀은 이 문제를 해결하기 위해 최고의 요리사 (사람) 가 만든 레시피와 기계 (AI) 가 만든 레시피를 비교하는 **특별한 요리 교재 (데이터셋)**를 만들었습니다.
- 교재 내용: 같은 영어 문장을 번역한 두 가지 버전이 나옵니다.
- A 버전: 기계가 번역한 어색한 스웨덴어 (번역체)
- B 버전: 사람이 번역한 자연스러운 스웨덴어 (자연어)
- 목적: 이 교재를 AI 에게 보여주고, **"어느 쪽이 더 맛있어 보이니?"**라고 물어봅니다.
그 결과, 놀랍게도 대부분의 AI 는 어색한 A 버전 (기계 번역체) 을 더 선호했습니다. 마치 AI 가 "문법적으로 정확한 게 최고야!"라고 생각하며, 사람의 자연스러운 맛보다는 기계적인 정답을 고집하는 것과 비슷합니다.
3. 비유: "맥락이 없는 요리사" (실험 결과)
연구팀은 AI 에게 두 가지 상황을 실험했습니다.
- 상황 1: "이 문장만 번역해." (맥락 없음)
- AI 는 문장 하나만 보고 번역하라고 하면, 사람처럼 자연스러운 B 버전을 조금 더 잘 골랐습니다.
- 상황 2: "이전 대화 내용도 보고 번역해." (맥락 있음)
- AI 에게 영어 원문과 앞뒤 문맥을 모두 보여주면, 오히려 어색한 A 버전 (번역체) 을 더 많이 선택했습니다.
왜 그럴까요?
AI 는 원문 (영어) 을 너무 열심히 따라 하려고 합니다. 마치 **"원문을 그대로 옮겨 적어야 해!"**라고 생각하며, 현지인의 자연스러운 표현을 무시하고 직역에 매몰되는 것입니다. 맥락이 많을수록 AI 는 원문에 더 집착하게 되어, 오히려 더 어색한 번역을 만들어냅니다.
💡 이 연구가 우리에게 주는 메시지
- AI 는 아직 '현지인'이 아닙니다.
AI 는 문법과 단어는 잘 맞추지만, 그 언어를 쓰는 사람들의 '감성'과 '뉘앙스'를 이해하는 데는 아직 부족합니다. - 더 많은 맥락이 답은 아닙니다.
우리는 보통 "더 많은 정보를 주면 AI 가 더 똑똑해지겠지?"라고 생각하지만, 이 연구는 원문에 너무 집착하면 오히려 자연스러움이 떨어진다는 사실을 보여줍니다. - 해결책은?
앞으로는 AI 가 단순히 '문법적으로 맞는' 번역을 하는 것을 넘어, 현지인이 실제로 쓰는 '자연스러운 맛'을 배울 수 있도록 훈련시켜야 합니다.
한 줄 요약:
"인공지능은 문법책은 다 외웠지만, 현지인의 '맛'을 모르는 어색한 요리사입니다. 이 논문은 그 어색함을 찾아내고, AI 가 더 자연스러운 요리 (번역) 를 할 수 있도록 돕는 새로운 레시피 (데이터셋) 를 공개한 것입니다."