A Dataset for Probing Translationese Preferences in English-to-Swedish Translation

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给翻译机器做一场“体检”，专门检查它们有没有患上一种叫"翻译腔"（Translationese）的“职业病”。

想象一下，你请了一位外国厨师（翻译模型）来做饭。虽然他能做出能吃的菜，但味道总是怪怪的——比如他做“红烧肉”时，非要按做“牛排”的逻辑来切肉，或者把“加油”翻译成“添加汽油”。这就是翻译腔：机器翻译出来的文字虽然语法没错，但读起来生硬、不自然，充满了源语言（英语）的影子，不像母语者（瑞典语）平时说话那样地道。

以下是这篇论文的核心内容，用大白话和比喻来解释：

1. 他们造了一个“找茬”题库

作者们（来自瑞典林雪平大学）觉得，现在的翻译模型虽然变聪明了，但依然喜欢“照本宣科”。为了测试它们，他们做了一个瑞典语数据集。

这个数据集像什么？就像是一个“找不同”游戏。
- 题目 A（翻译腔版）：机器翻译出来的句子，读起来像外国人写的瑞典语（比如直译了英语的“一件傻事”，瑞典语习惯说“有点傻”）。
- 题目 B（地道版）：人类专家写的地道瑞典语。
任务：让各种大小的 AI 模型（从小的到大的）来选，它更喜欢哪一个？它觉得哪个读起来更顺？

2. 实验结果：AI 是个“死脑筋”

实验结果有点让人哭笑不得：

AI 偏爱“翻译腔”：大多数时候，AI 模型竟然觉得那个生硬的、机器味很浓的句子（题目 A）更好！它们似乎被源语言（英语）“洗脑”了，只要看到英语原文，就忍不住想照搬结构。
关掉“提示”会好点：如果只给 AI 看瑞典语句子，不让它看英语原文，它选对（选地道版）的概率会高一些。这说明英语原文就像一根“拐杖”，AI 太依赖这根拐杖，反而走不出自己的路。
上下文是双刃剑：给 AI 多提供一点前文背景（比如对话的前几句），有时候能帮它理解语境，选对地道句子；但有时候，背景越多，它反而越执着于字面翻译，变得更“死板”。

3. 为什么 AI 会犯这种错？（病根分析）

论文里把 AI 的错误分成了几类，就像医生给病人分类症状：

直译病（DIR）：比如英语说 "It's got good bones"（这房子结构好），AI 直译成“它有好的骨头”，而人类会说“地基很稳”。AI 太字面化了。
词汇感冒（PR）：用词太正式或太随意。比如把“礼物”（gift）翻译成瑞典语里那种很正式的“赠礼”，但在日常对话里应该用更亲切的“小礼物”。
习语失语（ID）：遇到成语或俗语就懵。比如 "I had an old bone to pick with you"（我有话要跟你算账），AI 可能真的去翻译“骨头”和“挑选”，完全丢了原意。
漏字/多字：有时候少说了词，有时候废话连篇。

4. 大模型就一定好吗？

有趣的是，模型越大，并不总是越好。

在对比“人类翻译”和“旧式机器翻译”时，大模型表现稍好。
但在对比“人类翻译”和“最新的大模型（GPT-5）”时，大模型反而更喜欢那个最新的大模型生成的翻译，哪怕那个翻译也有点生硬。这说明，现在的 AI 们可能都在互相模仿，形成了一个“翻译腔的回音室”。

5. 这篇论文有什么用？

这就好比给翻译界发了一张“体检报告”和一套“康复训练题”。

资源公开：他们把这个“找茬题库”免费公开了，让全世界的研究者都能拿来训练 AI。
目标：希望未来的 AI 不仅能“翻译对”，还能“翻译得像人”。让 AI 写出来的瑞典语，不再像是一个拿着字典的外国人在说话，而是像瑞典本地人一样自然、生动。

总结一下：
这篇论文告诉我们，现在的 AI 翻译虽然厉害，但还像个只会死记硬背的学生，太依赖课本（源语言），缺乏灵活变通的能力。作者们通过制造这个“找茬”数据集，希望能帮 AI 改掉“翻译腔”的毛病，让它真正学会像母语者一样思考和表达。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于论文《A Dataset for Probing Translationese Preferences in English-to-Swedish Translation》（用于探测英译瑞典语中“翻译腔”偏好的数据集）的详细技术总结。

1. 研究背景与问题 (Problem)

翻译腔 (Translationese) 现象：翻译文本往往带有源语言的痕迹，在风格和特征上与目标语言原生文本不同，这种现象被称为“翻译腔”。在机器翻译（MT）中尤为明显，通常表现为语言简化、词汇和形态多样性降低。
大语言模型 (LLM) 的局限性：尽管研究表明 LLM 生成的翻译比传统专用 MT 系统更具词汇多样性，但它们生成的文本仍能被可靠地区分为非人类原创文本，且往往仍保留翻译腔。
数据偏差风险：许多非英语语言的 LLM 评估数据集和指令微调数据本身就是翻译过来的。此外，LLM 的训练语料中包含大量网络爬虫抓取的翻译文本。这导致模型倾向于学习并生成“翻译腔”而非地道的目标语言表达。
现有资源不足：缺乏专门针对瑞典语、能够明确对比“翻译腔”句子与“地道”替代方案，并包含错误标注的开源数据集。

2. 方法论 (Methodology)

2.1 数据集构建 (Dataset Construction)

数据来源：基于 OpenSubtitles 语料库中的 600 个英语句子（主要包含口语对话）。
翻译生成：
- OPUS-MT：作为传统神经机器翻译系统的代表。
- GPT-5：作为最新 LLM 的代表。
- 人工翻译：由两名瑞典语母语者（认知科学学生）提供地道的替代翻译。
标注体系：开发了一套自定义的错误标签系统（包含 3 个主要错误标签、2 个次要错误标签和 3 个描述性标签），用于标记翻译中的具体问题。
- 主要错误：语法错误 (GR)、缺失内容 (SAK)、用词错误 (LF)、意义丢失 (BET)。
- 次要错误：语义偏移 (SEM)、词汇偏好不当 (PR)。
- 描述性标签：习语 (ID)、俚语 (SL)、领域特定语言 (ST)、直译 (DIR) 等，用于指出错误成因。
数据内容：每个样本包含英语源句、上下文、机器翻译（OPUS/GPT-5）、人工地道翻译、错误标签及问题描述。

2.2 实验设置 (Experiments)

评估模型：测试了多种不同规模和语言覆盖范围的模型，包括：
- AI Sweden LLaMA-3 8B（在斯堪的纳维亚语数据上继续预训练）。
- EuroLLM (1.7B, 9B)。
- Gemma 系列 (270M, 1B, 4B, 12B)。
- 包含基础模型 (Base) 和指令微调模型 (Instruction-tuned)。
提示策略 (Prompting Setups)：采用最小对 (Minimal Pairs) 设置，比较模型对“机器翻译版”与“人工地道版”的偏好。
- 无翻译上下文：仅展示瑞典语句子，测试模型对地道性的内在偏好。
- 有翻译上下文：提供英语源句及 1-10 句的前置上下文，模拟翻译任务。
评估指标：
- 准确率 (Accuracy)：模型赋予人工翻译更高概率的比例。
- $\Delta$ LP：人工翻译与机器翻译对数概率的平均相对差异（反映偏好强度）。

3. 主要贡献 (Key Contributions)

首个开源瑞典语翻译腔数据集：发布了第一个免费可用的、明确对比“翻译腔”与“地道表达”的英 - 瑞典双语数据集，包含详细的错误标注和上下文信息。
细粒度的错误分析框架：建立了一套针对翻译腔问题的自定义标签体系，能够区分语法错误、语义偏移、词汇偏好不当以及由直译导致的习语/俚语处理失败。
揭示 LLM 的翻译腔偏好：通过实验证明，即使是较新的 LLM，在缺乏特定干预的情况下，也倾向于选择翻译腔表达，且这种偏好受源语言暴露的影响显著。
上下文影响的量化分析：发现增加上下文长度有助于模型减少翻译腔，但源语言的存在本身仍会诱导模型偏向直译。

4. 实验结果 (Results)

普遍存在的偏差：所有测试模型（包括较小的多语言 LLM）都表现出对机器翻译（翻译腔）句子的强烈偏好。即使在无翻译上下文的设置下，模型也往往选择翻译腔变体。
源语言暴露的负面影响：
- 当提示中包含英语源句时，模型更倾向于选择字面翻译（翻译腔）。
- 当省略英语源句（仅展示瑞典语目标句）时，模型选择人工地道替代方案的比例显著增加。这表明源语言的存在会“诱导”模型进行直译。
上下文的作用：
- 增加上下文（特别是 5-10 句的前置上下文）通常能提高模型选择地道表达的概率，帮助模型更好地理解语境意图。
- 然而，即使有上下文，大多数模型仍未能完全消除对翻译腔的偏好。
模型规模与表现：
- 在Human > OPUS（对比传统 MT）任务中，随着模型规模增大（如 Gemma-12B），选择人工翻译的准确率有所提升。
- 在Human > GPT（对比先进 LLM）任务中，结果更为复杂，大模型有时反而更偏好 GPT 生成的（仍带有翻译腔的）文本，因为 GPT 的翻译质量通常优于传统 MT，使得区分难度加大。
错误类型分析：
- 直译 (DIR) 和 俚语 (SL) 在有上下文时，翻译腔偏好率最高（高达 71% 和 68%），说明模型在处理习语和口语时极易受源语言结构影响。
- 缺失 (SAK) 和 语法 (GR) 错误较容易被模型避免，因为这些是明显的硬伤。

5. 意义与结论 (Significance & Conclusion)

资源价值：该数据集为研究 LLM 输出中的翻译腔问题提供了基准（Benchmark），有助于开发能生成更自然、地道非英语文本的模型。
训练数据警示：研究结果暗示，LLM 训练数据中大量存在的翻译文本可能导致模型内化了翻译腔的偏好。
未来方向：
- 需要开发能够识别并修正翻译腔的“抛光”步骤。
- 在指令微调中，应更多使用原生目标语言数据，减少翻译数据的依赖。
- 提示工程（Prompt Engineering）中，适当调整上下文策略（如控制源语言暴露程度）可能有助于改善输出质量。

总结：这篇论文通过构建高质量的对比数据集和系统的实验，揭示了当前多语言 LLM 在生成非英语文本时仍深受“翻译腔”困扰，且源语言的存在会加剧这一现象。研究强调了在评估和改进模型时，关注“地道性”而非仅仅是“准确性”的重要性。

A Dataset for Probing Translationese Preferences in English-to-Swedish Translation

1. 他们造了一个“找茬”题库

2. 实验结果：AI 是个“死脑筋”

3. 为什么 AI 会犯这种错？（病根分析）

4. 大模型就一定好吗？

5. 这篇论文有什么用？

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 数据集构建 (Dataset Construction)

2.2 实验设置 (Experiments)

3. 主要贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与结论 (Significance & Conclusion)

类似论文

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models