A Dataset for Probing Translationese Preferences in English-to-Swedish Translation

이 논문은 영어-스웨덴어 번역에서 번역체와 자연스러운 표현을 대비시킨 최초의 공개 데이터셋을 소개하고, 언어 모델이 원문 노출 여부와 관계없이 종종 번역체 표현을 선호한다는 사실을 규명하여 더 자연스러운 번역 생성을 위한 벤치마크를 제공합니다.

Jenny Kunz, Anja Jarochenko, Marcel Bollmann

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 비유: "외국인 친구의 번역기" (번역체, Translationese)

상상해 보세요. 영어를 모국어로 하는 친구가 스웨덴어를 배우고 있습니다. 그는 문법책은 완벽하게 외웠지만, 실제 스웨덴 사람들이 일상에서 쓰는 자연스러운 말투는 잘 모릅니다.

  • 자연스러운 말 (Idiomatic): "오늘 날씨 참 좋네!" (스웨덴 사람이 자연스럽게 하는 말)
  • 번역체 (Translationese): "오늘 날씨가 매우 좋다." (문법적으로 틀리진 않았지만, 외국인이 번역기를 돌린 듯한 어색한 표현)

이 논문에서 말하는 **'번역체 (Translationese)'**란 바로 이 **'외국인 친구의 어색한 말투'**를 뜻합니다. 기계 번역이나 AI 는 문법적으로는 맞지만, 현지인이 쓰는 '맛'과 '분위기'가 빠져서 글이 딱딱하고 어색하게 만들어냅니다.

2. 비유: "맛있는 요리 레시피 vs. 기계식 조리" (데이터셋의 역할)

연구팀은 이 문제를 해결하기 위해 최고의 요리사 (사람) 가 만든 레시피기계 (AI) 가 만든 레시피를 비교하는 **특별한 요리 교재 (데이터셋)**를 만들었습니다.

  • 교재 내용: 같은 영어 문장을 번역한 두 가지 버전이 나옵니다.
    • A 버전: 기계가 번역한 어색한 스웨덴어 (번역체)
    • B 버전: 사람이 번역한 자연스러운 스웨덴어 (자연어)
  • 목적: 이 교재를 AI 에게 보여주고, **"어느 쪽이 더 맛있어 보이니?"**라고 물어봅니다.

그 결과, 놀랍게도 대부분의 AI 는 어색한 A 버전 (기계 번역체) 을 더 선호했습니다. 마치 AI 가 "문법적으로 정확한 게 최고야!"라고 생각하며, 사람의 자연스러운 맛보다는 기계적인 정답을 고집하는 것과 비슷합니다.

3. 비유: "맥락이 없는 요리사" (실험 결과)

연구팀은 AI 에게 두 가지 상황을 실험했습니다.

  • 상황 1: "이 문장만 번역해." (맥락 없음)
    • AI 는 문장 하나만 보고 번역하라고 하면, 사람처럼 자연스러운 B 버전을 조금 더 잘 골랐습니다.
  • 상황 2: "이전 대화 내용도 보고 번역해." (맥락 있음)
    • AI 에게 영어 원문과 앞뒤 문맥을 모두 보여주면, 오히려 어색한 A 버전 (번역체) 을 더 많이 선택했습니다.

왜 그럴까요?
AI 는 원문 (영어) 을 너무 열심히 따라 하려고 합니다. 마치 **"원문을 그대로 옮겨 적어야 해!"**라고 생각하며, 현지인의 자연스러운 표현을 무시하고 직역에 매몰되는 것입니다. 맥락이 많을수록 AI 는 원문에 더 집착하게 되어, 오히려 더 어색한 번역을 만들어냅니다.


💡 이 연구가 우리에게 주는 메시지

  1. AI 는 아직 '현지인'이 아닙니다.
    AI 는 문법과 단어는 잘 맞추지만, 그 언어를 쓰는 사람들의 '감성'과 '뉘앙스'를 이해하는 데는 아직 부족합니다.
  2. 더 많은 맥락이 답은 아닙니다.
    우리는 보통 "더 많은 정보를 주면 AI 가 더 똑똑해지겠지?"라고 생각하지만, 이 연구는 원문에 너무 집착하면 오히려 자연스러움이 떨어진다는 사실을 보여줍니다.
  3. 해결책은?
    앞으로는 AI 가 단순히 '문법적으로 맞는' 번역을 하는 것을 넘어, 현지인이 실제로 쓰는 '자연스러운 맛'을 배울 수 있도록 훈련시켜야 합니다.

한 줄 요약:

"인공지능은 문법책은 다 외웠지만, 현지인의 '맛'을 모르는 어색한 요리사입니다. 이 논문은 그 어색함을 찾아내고, AI 가 더 자연스러운 요리 (번역) 를 할 수 있도록 돕는 새로운 레시피 (데이터셋) 를 공개한 것입니다."