A Dataset for Probing Translationese Preferences in English-to-Swedish Translation

Each language version is independently generated for its own context, not a direct translation.

1. 비유: "외국인 친구의 번역기" (번역체, Translationese)

상상해 보세요. 영어를 모국어로 하는 친구가 스웨덴어를 배우고 있습니다. 그는 문법책은 완벽하게 외웠지만, 실제 스웨덴 사람들이 일상에서 쓰는 자연스러운 말투는 잘 모릅니다.

자연스러운 말 (Idiomatic): "오늘 날씨 참 좋네!" (스웨덴 사람이 자연스럽게 하는 말)
번역체 (Translationese): "오늘 날씨가 매우 좋다." (문법적으로 틀리진 않았지만, 외국인이 번역기를 돌린 듯한 어색한 표현)

이 논문에서 말하는 **'번역체 (Translationese)'**란 바로 이 **'외국인 친구의 어색한 말투'**를 뜻합니다. 기계 번역이나 AI 는 문법적으로는 맞지만, 현지인이 쓰는 '맛'과 '분위기'가 빠져서 글이 딱딱하고 어색하게 만들어냅니다.

2. 비유: "맛있는 요리 레시피 vs. 기계식 조리" (데이터셋의 역할)

연구팀은 이 문제를 해결하기 위해 최고의 요리사 (사람) 가 만든 레시피와 기계 (AI) 가 만든 레시피를 비교하는 **특별한 요리 교재 (데이터셋)**를 만들었습니다.

교재 내용: 같은 영어 문장을 번역한 두 가지 버전이 나옵니다.
- A 버전: 기계가 번역한 어색한 스웨덴어 (번역체)
- B 버전: 사람이 번역한 자연스러운 스웨덴어 (자연어)
목적: 이 교재를 AI 에게 보여주고, **"어느 쪽이 더 맛있어 보이니?"**라고 물어봅니다.

그 결과, 놀랍게도 대부분의 AI 는 어색한 A 버전 (기계 번역체) 을 더 선호했습니다. 마치 AI 가 "문법적으로 정확한 게 최고야!"라고 생각하며, 사람의 자연스러운 맛보다는 기계적인 정답을 고집하는 것과 비슷합니다.

3. 비유: "맥락이 없는 요리사" (실험 결과)

연구팀은 AI 에게 두 가지 상황을 실험했습니다.

상황 1: "이 문장만 번역해." (맥락 없음)
- AI 는 문장 하나만 보고 번역하라고 하면, 사람처럼 자연스러운 B 버전을 조금 더 잘 골랐습니다.
상황 2: "이전 대화 내용도 보고 번역해." (맥락 있음)
- AI 에게 영어 원문과 앞뒤 문맥을 모두 보여주면, 오히려 어색한 A 버전 (번역체) 을 더 많이 선택했습니다.

왜 그럴까요?
AI 는 원문 (영어) 을 너무 열심히 따라 하려고 합니다. 마치 **"원문을 그대로 옮겨 적어야 해!"**라고 생각하며, 현지인의 자연스러운 표현을 무시하고 직역에 매몰되는 것입니다. 맥락이 많을수록 AI 는 원문에 더 집착하게 되어, 오히려 더 어색한 번역을 만들어냅니다.

💡 이 연구가 우리에게 주는 메시지

AI 는 아직 '현지인'이 아닙니다.
AI 는 문법과 단어는 잘 맞추지만, 그 언어를 쓰는 사람들의 '감성'과 '뉘앙스'를 이해하는 데는 아직 부족합니다.
더 많은 맥락이 답은 아닙니다.
우리는 보통 "더 많은 정보를 주면 AI 가 더 똑똑해지겠지?"라고 생각하지만, 이 연구는 원문에 너무 집착하면 오히려 자연스러움이 떨어진다는 사실을 보여줍니다.
해결책은?
앞으로는 AI 가 단순히 '문법적으로 맞는' 번역을 하는 것을 넘어, 현지인이 실제로 쓰는 '자연스러운 맛'을 배울 수 있도록 훈련시켜야 합니다.

한 줄 요약:

"인공지능은 문법책은 다 외웠지만, 현지인의 '맛'을 모르는 어색한 요리사입니다. 이 논문은 그 어색함을 찾아내고, AI 가 더 자연스러운 요리 (번역) 를 할 수 있도록 돕는 새로운 레시피 (데이터셋) 를 공개한 것입니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

번역체 (Translationese) 현상: 번역된 텍스트는 원문의 특징을 그대로 유지하여 목표 언어 (타겟 언어) 의 관용적 표현과 어조에서 벗어납니다. 이를 '번역체'라고 부릅니다.
LLM 의 한계: 최근 대규모 언어 모델 (LLM) 은 기존 기계 번역 시스템보다 어휘 다양성이 증가했지만, 여전히 인간이 작성한 텍스트와 구별 가능한 번역체 특성을 보입니다. 특히 훈련 데이터에 포함된 번역 텍스트의 영향으로, 모델이 직역 (literal translation) 에 치우치는 경향이 있습니다.
평가 데이터의 부재: 비영어권 언어 (특히 스웨덴어) 에 대한 자연스러운 관용적 표현과 번역체를 구분하고 모델의 선호도를 평가할 수 있는 공개된 데이터셋이 부족했습니다.

2. 방법론 (Methodology)

A. 데이터셋 구축 (Dataset Construction)

소스: OpenSubtitles 의 영어 대화 데이터 600 문장을 사용했습니다.
번역 생성:
- OPUS-MT: 신경망 기반의 전통적 기계 번역 시스템 (번역체 예시).
- GPT-5: 최신 LLM (더 자연스러운 번역 예시).
- Human: 스웨덴어 원어민 annotator 가 작성한 관용적 대안 번역.
주요 특징:
- 각 문장 쌍에 대해 오류 태그 (Error Tags) 와 문제 설명을 포함합니다.
- 영어 원문과 이전 문맥 (Context) 을 포함하여 번역 컨텍스트 내에서의 선호도를 분석할 수 있도록 구성했습니다.
- 공개: HuggingFace 및 GitHub 를 통해 오픈 소스로 공개되었습니다.

B. 오류 태깅 시스템 (Error Tagging System)

MQM(Multi-dimensional Quality Metrics) 을 참고하되, 관용적 언어 사용에 초점을 맞춘 맞춤형 태깅 시스템을 개발했습니다.

주요 오류 태그:
- Grammar (GR): 문법/구문 오류.
- Missing (SAK): 누락된 단어/부분.
- Incorrect (LF): 문맥에 맞지 않는 잘못된 단어 선택.
- Loss of Meaning (BET): 원문의 의미가 크게 손실된 경우.
- Semantic (SEM): 미묘한 의미 변화나 오해의 소지가 있는 경우.
- Lexical Preference (PR): 원어민에게 불자연스러운 단어 선택.
- Descriptive Tags: 관용구 (ID), 속어 (SL), 전문 용어 (ST), 직역 (DIR) 등 오류의 원인을 분류.

C. 실험 설정 (Experiments)

모델: 다양한 크기와 언어 범위를 가진 다국어 LLM 7 가지 계열 (LLaMA-3, EuroLLM, Gemma 등) 과 instruction-tuned 버전 평가.
프롬프트 설정 (Minimal Pair Probe):
1. No Translation Context: 스웨덴어 문장만 제시 (모델의 내재적 선호도 측정).
2. Translation Context: 영어 원문과 함께 번역 지시 (0~10 개의 이전 문장 포함).
평가 지표:
- Accuracy: 인간 번역이 기계 번역보다 높은 확률 (Likelihood) 을 받는 비율.
- $\Delta$ LP (Mean Log Probability Difference): 인간 번역과 기계 번역 간의 확률 차이의 평균. 음수 값은 번역체 선호를 의미.

3. 주요 기여 (Key Contributions)

최초의 공개 데이터셋: 스웨덴어에 대한 번역체와 관용적 대안을 대비시킨 최초의 오픈 소스 데이터셋을 제공합니다.
세밀한 분석 도구: 단순한 번역 품질 평가를 넘어, 번역체의 유형 (직역, 관용구 오류, 어휘 선택 등) 을 세분화하여 분석할 수 있는 태깅 시스템을 제공합니다.
모델 편향성 규명: LLM 이 번역 컨텍스트 (원문 노출) 에 따라 얼마나 직역에 치우치는지, 그리고 문맥이 이를 어떻게 완화하는지에 대한 실증적 데이터를 제공합니다.

4. 실험 결과 (Results)

번역체 선호 경향: 평가된 모든 모델이 인간 번역보다 기계 번역 (OPUS 또는 GPT) 을 선호하는 경향을 보였습니다. 특히 OPUS 번역체 표현에 대한 편향이 뚜렷했습니다.
원문 노출의 영향 (Source Bias):
- 영어 원문이 포함된 경우: 모델이 번역체 (직역) 표현을 더 선호했습니다. 원문 노출이 모델의 직역 편향을 강화시킵니다.
- 원문이 없는 경우: 인간 번역을 선택하는 비율이 상대적으로 증가했습니다. 이는 모델이 번역 지시 없이 순수한 스웨덴어 문맥을 볼 때 더 자연스러운 표현을 선호함을 시사합니다.
문맥 (Context) 의 효과:
- 1~10 개의 이전 문장을 포함하는 문맥을 제공하면, 모델이 번역체보다 인간 번역을 선호하는 비율이 증가했습니다.
- 특히 5 개 문장의 문맥이 가장 효과적인 경우가 많았습니다. 이는 충분한 문맥이 모델이 의도된 뉘앙스를 파악하는 데 도움을 주기 때문입니다.
모델 크기 및 유형:
- 일반적으로 모델 크기가 커질수록 (예: Gemma-12B) 인간 번역 선호도가 높아지는 경향이 있었습니다.
- 그러나 GPT 번역과 비교할 때는 오히려 더 큰 모델이 GPT 번역을 선호하는 경향이 있어, GPT 번역의 품질이 높아 비교 지표로서의 신뢰도가 낮아질 수 있음을 시사했습니다.
오류 유형별 분석:
- 직역 (DIR), 속어 (SL), 관용구 (ID): 문맥이 제공될 때 모델이 번역체를 선호하는 비율이 급격히 증가했습니다 (최대 71%).
- 명백한 오류 (SAK, GR): 문맥 유무와 관계없이 모델이 인간 번역을 선호하는 경향이 뚜렷했습니다.

5. 의의 및 결론 (Significance & Conclusion)

자연스러운 번역 모델 개발의 기초: 이 데이터셋과 연구 결과는 비영어권 언어에서 더 자연스럽고 관용적인 출력을 생성하는 LLM 을 개발하기 위한 벤치마크와 리소스를 제공합니다.
훈련 데이터의 중요성: LLM 이 훈련 데이터에 포함된 번역체 텍스트에 노출됨으로써 직역 편향을 학습한다는 점을 재확인했습니다.
프롬프트 엔지니어링의 통찰: 번역 작업 시 원문 (Source) 을 어떻게 제시하느냐에 따라 모델의 출력이 달라질 수 있음을 보여주었습니다. 특히 문맥을 충분히 제공하는 것이 번역체 현상을 완화하는 데 도움이 됩니다.
향후 연구 방향: 이 연구는 번역체 문제를 해결하기 위해 모델의 내재적 선호도를 탐구하고, 훈련 데이터 정제 (Polishing) 및 프롬프트 최적화 전략을 수립하는 데 중요한 기여를 합니다.

이 논문은 번역 품질 평가의 새로운 패러다임을 제시하며, 특히 저자원 언어 (Low-resource languages) 에 있어 자연어 처리 모델의 관용성 향상을 위한 필수적인 도구로 평가됩니다.

A Dataset for Probing Translationese Preferences in English-to-Swedish Translation

1. 비유: "외국인 친구의 번역기" (번역체, Translationese)

2. 비유: "맛있는 요리 레시피 vs. 기계식 조리" (데이터셋의 역할)

3. 비유: "맥락이 없는 요리사" (실험 결과)

💡 이 연구가 우리에게 주는 메시지

1. 문제 정의 (Problem)

2. 방법론 (Methodology)

A. 데이터셋 구축 (Dataset Construction)

B. 오류 태깅 시스템 (Error Tagging System)

C. 실험 설정 (Experiments)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance & Conclusion)

유사한 논문

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models