LuxBorrow: From Pompier to Pompjee, Tracing Borrowing in Luxembourgish

本文介绍了 LuxBorrow 项目,该项目通过对 1999 至 2025 年间 25 万多篇卢森堡语新闻进行基于借词的分析,揭示了卢森堡语作为核心语言在多语混用中保持主导地位的同时,借词现象普遍存在且随时间推移在形态适应和法语来源方面呈现显著增长趋势。

Nina Hosseini-Kivanani, Fred Philippy

发布于 2026-03-12
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于**卢森堡语(Luxembourgish)**如何像一块“语言海绵”一样,在 27 年的时间里(1999-2025 年)不断吸收其他语言(主要是法语、德语和英语)词汇的故事。

研究人员建立了一个名为 LuxBorrow 的项目,就像是一个巨大的“语言侦探社”,专门在卢森堡的新闻报道中寻找这些“外来客”。

为了让你更容易理解,我们可以用几个生动的比喻来拆解这项研究:

1. 核心概念:语言是“主菜”,借词是“调料”

想象卢森堡语是一锅主菜(汤底)

  • 主菜(卢森堡语): 无论怎么加料,这锅汤的基底永远是卢森堡语。
  • 调料(借词): 为了味道更丰富,厨师(记者)会往汤里撒入法语、德语或英语的“香料”(词汇)。
  • 混合程度: 研究发现,虽然几乎每篇文章(77%)都加了调料,但汤的基底味道依然很浓。也就是说,虽然大家混着说,但卢森堡语依然是绝对的主导者,并没有变成“双语混合汤”。

2. 侦探工具:如何区分“借来的词”和“临时切换”?

这是论文最精彩的部分。在卢森堡,人们说话时经常会在卢森堡语、法语和德语之间跳跃。研究人员需要区分两种情况:

  • 情况 A:真正的“借词”(Borrowing)—— 像“移民入籍”
    • 比喻: 一个外国人搬进了社区,不仅改了名字,还学会了当地的规矩,甚至改掉了口音,完全融入了社区。
    • 例子: 法语词 pompier(消防员)变成了卢森堡语里的 Pompjee。它被“卢森堡化”了,加了卢森堡语的尾巴,读起来也像卢森堡语。这被视为借词
  • 情况 B:临时的“代码转换”(Code-switching)—— 像“游客串门”
    • 比喻: 一个游客突然在街上用母语喊了一嗓子,然后马上又变回当地语言。他没有融入,只是临时借用。
    • 例子: 句子中间突然蹦出一整句法语,语法结构还是法语的。这被视为代码转换

研究团队的“侦探技术”:
他们开发了一套自动化的“安检系统”:

  1. 先看句子: 确定这句话主要是卢森堡语写的(如果是全法语句子,直接跳过)。
  2. 再看单词: 检查每个单词是否经过了“卢森堡化改造”(比如拼写变了、加了后缀)。
  3. 查户口: 对照他们建立的“借词户口本”(包含 7000 多个词条的数据库),看这个词是不是已经“入籍”了。

3. 主要发现:27 年的“口味”变化

研究人员分析了 25 万多篇新闻文章,发现了以下有趣的现象:

  • 调料越加越猛,但汤还是那锅汤:
    从 1999 年到 2025 年,文章里混入外语的频率越来越高(就像厨师撒的调料越来越多)。但是,卢森堡语作为“汤底”的地位从未动摇。即使在最混合的文章里,卢森堡语依然占绝对主导。
  • 法语是“头号供应商”:
    在所有被“卢森堡化”的借词中,97% 以上来自法语。法语就像是最受欢迎的进口调料,几乎垄断了“入籍”市场。德语排第二,英语虽然在全球很火,但在卢森堡新闻的“借词入籍”中,占比微乎其微。
  • 改造规则很“偷懒”:
    大多数借词并没有被彻底改造,而是只改了一点点拼写(比如把法语的 on 改成卢森堡语的 oun)。这就像给外国朋友起个“卢森堡小名”,方便大家叫,但不用彻底改头换面。
  • 政治新闻最“花哨”:
    政治类新闻里的语言混合程度最高(因为政客们经常引用多国语言),但这也往往是因为样本量小(比如某次特定的多国发布会),并不代表日常新闻都这么乱。

4. 为什么这很重要?(对未来的意义)

这项研究不仅仅是为了数数单词,它对**人工智能(AI)**非常重要:

  • 教 AI 听懂“方言”: 现在的 AI 模型(比如翻译软件或语音助手)如果只懂标准的卢森堡语,听到 Pompjee 这种词可能会懵,或者把它误认为是法语。
  • 建立“借词字典”: 研究人员把这套规则整理出来,告诉 AI:“嘿,看到 Pompjee 别慌,这是卢森堡语,不是法语;看到 on 变成 oun,那是借词规则。”
  • 更精准的翻译: 有了这些数据,未来的 AI 能更准确地处理卢森堡这种多语言混杂的环境,不会把借词误判,也不会把代码转换当成借词。

总结

这篇论文就像是在给卢森堡语画一张27 年的“饮食地图”。它告诉我们:卢森堡语非常自信,它欢迎来自法语、德语和英语的“客人”,并给它们穿上自己的“衣服”(拼写和语法改造),让它们融入自己的大家庭。虽然客人越来越多,但主人(卢森堡语)依然牢牢掌控着局面。

这项研究为未来的语言技术打下了坚实的基础,让机器也能像当地人一样,听懂这种充满活力的“混合语言”。