Conditioning LLMs to Generate Code-Switched Text

该论文提出了一种通过回译构建平行语料库来微调大语言模型的方法,使其能够生成高质量的英西代码切换文本,并发现基于大模型的评估指标比传统指标更能准确反映人类对生成质量的偏好。

Maite Heredia, Gorka Labaka, Jeremy Barnes, Aitor Soroa

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于教人工智能(AI)如何像真正的“双语者”一样说话的故事。

想象一下,你有一个非常聪明的 AI 助手(大语言模型,LLM),它读过世界上几乎所有的书,英语和西班牙语都学得很棒。但是,当你让它用一种**“混合语言”**(比如一边说英语,一边突然蹦出几个西班牙语单词,就像很多在国外的移民或双语者日常聊天那样)说话时,它却显得手足无措。

这篇论文就是为了解决这个问题,教 AI 如何自然地“切换语言”。

1. 核心问题:AI 是个“死板”的好学生

目前的 AI 模型虽然很强大,但它们通常被训练成“要么全说英语,要么全说西班牙语”。

  • 现实情况:在现实生活中,双语者聊天时经常“中英夹杂”或“西英夹杂”。比如:“我今天感觉有点 down,因为 el tráfico 太堵了。”(我今天有点沮丧,因为交通太堵了。)
  • AI 的困境:如果你让 AI 模仿这种说话方式,它要么完全不说西班牙语,要么把整句话都翻译成西班牙语,完全不懂如何“自然切换”。这就好比让一个只会背课文的学生去即兴表演,他只会照本宣科,不会灵活变通。

2. 解决方案:玩一个“翻译回译”的游戏

为了解决这个问题,作者们想出了一个聪明的办法,就像是在教学生如何“倒着学”:

  • 第一步:收集素材
    他们先找了很多现实中人们真正说出来的“混合语言”句子(就像收集真实的街头对话录音)。
  • 第二步:反向翻译(Back-translation)
    他们利用强大的 AI,把这些“混合语言”的句子翻译回纯英语
    • 比喻:想象你有一本写满“中英夹杂”笑话的书。你请一位翻译大师把这些笑话全部翻译成“纯英语”版本。现在,你手里就有了一对对的“纯英语”和“中英夹杂”的对照表。
  • 第三步:微调训练(Fine-tuning)
    有了这个“对照表”,他们让 AI 进行特训:看着“纯英语”句子,练习写出对应的“中英夹杂”句子。
    • 比喻:这就像给 AI 报了一个“双语口语速成班”。以前它只会背单词,现在通过大量练习,它终于学会了什么时候该用英语,什么时候该自然地蹦出西班牙语单词。

3. 实验结果:特训真的有用吗?

作者们把经过特训的 AI 和没特训的 AI(以及那些只靠“猜”的 AI)放在一起比赛,让人类评委来打分。

  • 人类评委的反馈
    • 没特训的 AI:要么全说英语,要么全说西班牙语,或者切换得很生硬(比如重复说同一个词)。就像是一个只会说两种语言但不会混着说的人。
    • 特训后的 AI:生成的句子非常自然,切换点很流畅,读起来就像真人聊天一样。
    • 结论:经过“特训”(微调)的 AI,表现远超那些只靠“提示词”(让 AI 猜一下)的大模型。即使是像 GPT-4 这样强大的模型,如果不经过专门针对“混合语言”的训练,也写不出那么自然的句子。

4. 一个有趣的发现:尺子量不准

论文还做了一个非常重要的发现:现有的自动评分工具(机器打分)根本看不懂“混合语言”的美。

  • 比喻:想象你在评价一道“融合菜”(比如左宗棠鸡配意大利面)。
    • 传统的评分尺子(BLEU 等指标):只会拿着“纯中餐”或“纯西餐”的标准来衡量。如果这道菜里既有中餐又有西餐,尺子就会说:“这不对!这不符合标准!”然后给低分。
    • 人类评委:会说:“哇,这味道真独特,很自然!”给高分。
    • AI 评委(用另一个 AI 来打分):稍微好一点点,但还是很困惑,经常给那些“全英语”的假句子打高分,因为它们看起来更“规范”。

结论是:在评估 AI 是否会说“混合语言”时,机器打分往往不准,必须依靠人类的判断。

5. 总结与意义

这篇论文告诉我们:

  1. 教 AI 说“混合语言”很难,但通过“反向翻译”造数据并微调,可以做得很好。
  2. 现有的自动评分系统对这种任务失效了,我们需要开发新的、更懂“混合语言”文化的评分方法。
  3. 未来:这项技术可以帮助 AI 更好地服务双语社区,让 AI 的聊天更接地气,更像真人朋友,而不是一个只会翻译的机器。

一句话概括:作者们通过“倒着学”的方法,教会了 AI 像真人一样自然地“中英/西英夹杂”说话,并发现现有的机器评分尺子根本量不出这种“自然感”,需要人类来把关。