A Dataset for Probing Translationese Preferences in English-to-Swedish Translation

この論文は、英語からスウェーデン語への翻訳において、モデルが自然な表現よりも「翻訳調」を好む傾向があることを示す、誤りタグ付きの初のフリーデータセットと、その評価結果を提示するものである。

Jenny Kunz, Anja Jarochenko, Marcel Bollmann

公開日 2026-03-10
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

翻訳された文章の「癖」を解き明かす:スウェーデン語版の新しい実験

この論文は、**「機械翻訳された文章には、なぜか元の言語(ここでは英語)の『癖』が染み付いてしまう」**という現象を、スウェーデン語の例を使って詳しく調べた研究です。

まるで、**「外国の料理を日本の家庭で再現しようとした時、どうしても元の国の味付け(醤油や味噌の量など)が強く出てしまい、日本の家庭料理本来の『ふんわりした味』にならず、少し硬い仕上がりになってしまう」**ようなものです。

この「硬い仕上がり」のことを専門用語で**「翻訳調(Translationese)」**と呼びます。


1. 彼らが作った「味見テスト」のセット

研究者たちは、この「翻訳調」を調べるために、新しい**「テスト用メニュー(データセット)」**を作りました。

  • メニューの内容: 英語の文章をスウェーデン語に翻訳した 600 個の例です。
  • 2 つの選択肢: 各例には、以下の 2 つのスウェーデン語訳が並んでいます。
    1. 機械翻訳版: 元の英語の「癖」が強く残った、少し不自然な味。
    2. 人間のプロ版: スウェーデン人が自然に話すような、ふんわりとした「本物の味」。

彼らは、最新の AI(大規模言語モデル)にこの 2 つを見せ、「どっちの方がいい?」と選んでもらう実験を行いました。

2. 実験の結果:AI は「元の味」に引き寄せられる

結果は意外でした。

  • AI の好み: 多くの AI モデルは、**「機械翻訳版(元の英語の癖が残った方)」**を選んでしまいました。

  • なぜ? 実験のヒント(プロンプト)に「英語の原文」が含まれていると、AI は**「原文に忠実に従わなきゃ!」**と必死になりすぎて、自然なスウェーデン語にするのを忘れて、直訳に近い硬い表現を選んでしまうのです。

    • 例え話: 料理人が「このレシピ(英語)を忠実に再現して」と言われると、日本の家庭料理の「おふくろの味」を出すよりも、レシピの通りに「海外風の味」を出そうとしてしまうようなものです。
  • 面白い発見: しかし、「原文(レシピ)」を見せずに、完成した料理(スウェーデン語)だけを見せた場合、AI は少しだけ「人間のプロ版」を選ぶようになりました。

    • これは、**「原文に縛られすぎないで、自然な流れを優先すれば、もっと良い味が出せる」**ことを示しています。

3. 何が「不自然」なのか?(エラーのタグ付け)

この研究では、なぜ機械翻訳が不自然なのかを詳しく分類しました。まるで**「料理の味付けミス」**を分析するようなものです。

  • 直訳の罠(ID, SL): 英語の「慣用句」や「スラング」を、文字通り訳してしまっているケース。
    • 例: 「骨が太い(good bones)」という家の良さを表す表現を、文字通り「骨が太い」と訳してしまい、意味が通じなくなること。
  • 言葉の選び方(PR): 意味は通じるけど、スウェーデン人が日常で使わない、硬すぎる、あるいは変な言葉を使っているケース。
    • 例: 「プレゼント」を指すのに、フォーマルすぎる「贈り物(gåva)」を使い、カジュアルな場面で不自然に響くこと。
  • 文法のズレ(GR): 英語の語順をそのままスウェーデン語に当てはめてしまい、文法がおかしくなっているケース。

4. 結論と今後の展望

この研究からわかったことは、**「AI はまだ、原文の『影』に隠れすぎていて、自然なスウェーデン語を話すのが苦手だ」**ということです。

  • 現状: 小さな AI モデルほど、原文の癖に引きずられやすく、不自然な翻訳になりがちです。
  • 改善策: 前後の文脈(会話の流れ)をたくさん与えると、少しだけ自然になる傾向がありますが、それでも「原文に縛られすぎる」癖は強く残っています。

この研究の意義:
今回公開されたデータセットは、**「AI に『もっと自然なスウェーデン語』を話させるためのトレーニング教材」**として使えます。これにより、将来はもっと自然で、まるでスウェーデン人が書いたかのような翻訳が生まれるようになるかもしれません。


まとめ

  • 問題: 機械翻訳は、元の言語の「癖」をそのまま持ちすぎて、不自然な「翻訳調」になりがち。
  • 実験: AI に「自然な訳」と「翻訳調の訳」を選ばせたら、AI は「翻訳調」を好む傾向があった。
  • 原因: 原文(英語)を見せると、AI が「忠実に訳さなきゃ」と思い込みすぎて、自然さを失う。
  • 解決への道: この新しいデータセットを使って、AI に「自然な言葉遣い」を教えることが、より良い翻訳を作る鍵になります。

まるで、**「外国のレシピを、日本の家庭の味にアレンジし直す練習」**を AI にさせるようなものですね。