Are Language Models Borrowing-Blind? A Multilingual Evaluation of Loanword Identification across 10 Languages

该论文通过评估 10 种语言下的多种预训练模型,发现尽管有明确指令和上下文信息,语言模型仍难以区分借词与原生词汇,且表现出对借词的偏见,这一发现对开发少数语言 NLP 工具及支持语言保护具有重要意义。

Mérilin Sousa Silva, Sina Ahmadi

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给现在的人工智能(AI)语言模型做了一次特殊的“体检”,检查它们是否具备一种人类语言学家都觉得很微妙的能力:分辨哪些词是“借来的”,哪些词是“土生土长”的。

为了让你更容易理解,我们可以把语言想象成一座巨大的城市,把词汇想象成城市里的建筑

1. 背景:语言里的“外来移民”

想象一下,英语这座“城市”里,有很多建筑其实是“借”来的。

  • 像"sugar"(糖)、"chocolate"(巧克力)这些词,原本不是英语的,是从其他语言“移民”过来的。
  • 随着时间的推移,这些“外来建筑”已经完全融入了城市,变成了城市的一部分,连本地人(单语使用者)都习以为常,觉得它们就是自己家的房子。

人类通常能凭直觉分辨出哪些是“老房子”(原生词),哪些是“新移民”(借词),特别是在双语社区,这种界限更明显。

2. 核心问题:AI 是“借词盲”吗?

研究者想知道:现在的超级 AI(比如 LLMs,大语言模型)能不能像人类一样,一眼看出哪些词是“借来的”?

为了测试,他们找来了10 种不同的语言(像中文、法语、德语、冰岛语等),给 AI 出了一道考题:

“请在这句话里,把那些‘借来的词’圈出来。”

3. 实验过程:三种“考试”方式

研究者用了两种主要方法来考 AI:

  • 方法一:直接问(提示词测试)
    就像老师直接问学生:“请找出借词。”

    • 有的老师问得很简单(“找出借词”)。
    • 有的老师给了定义(“借词是历史上借来的”)。
    • 有的老师讲得很细(“借词是单语者也能用的,不是临时的代码切换”)。
    • 结果: 无论怎么问,AI 的表现都很糟糕。它们就像**“借词盲”**,经常把原生词误认为是借词,或者把真正的借词漏掉。
  • 方法二:特训(微调模型)
    既然直接问不行,那就给 AI 上一堂专门的课(用大量数据训练它)。

    • 结果: 经过特训的 AI 确实进步了,特别是在一些语言上(如法语、意大利语),准确率大幅提升。但在其他语言上,或者面对复杂情况时,它们依然会犯错。

4. AI 为什么会“翻车”?(有趣的比喻)

研究发现,AI 在分辨借词时,经常犯以下几种“糊涂病”:

  • 把“游客”当成“移民” (代码切换 vs. 借词)

    • 比喻: 想象一个法国人在说话时突然蹦出一个英语单词"Really"。这就像是一个游客临时路过,说完就走了(这叫“代码切换”)。
    • AI 的错误: AI 经常把这种“游客”当成“永久移民”(借词),因为它看到这个词长得像外国的。
    • 反之亦然: 有些词虽然源自英语,但在法语里已经住了一百年,大家都用(比如"deal"),AI 却觉得它还是“游客”,不肯承认它是借词。
  • 把“名牌”当成“进口货” (专有名词 vs. 借词)

    • 比喻: 就像看到"NASA"或"PISA"这种缩写,AI 觉得它们长得像外语,就判定为借词。
    • AI 的错误: 其实这些只是专有名词(像人名或地名),并不是语言里的“借词”。AI 太依赖“长得像不像外语”这个表面特征了。
  • 把“老古董”当成“新移民” (科学术语 vs. 借词)

    • 比喻: 很多科学词汇(比如"nitrates"硝酸盐)源自希腊语或拉丁语,几百年前就借进来了,现在已经是“土生土长”的。
    • AI 的错误: AI 一看到它们有“古老的外国血统”,就误以为它们是“新来的借词”。它分不清历史渊源现在的实际用法

5. 结论与启示

这篇论文告诉我们一个有点令人惊讶的事实:
现在的 AI 虽然能写诗、能聊天,但在理解“语言是如何混合和演变”这件事上,它们其实很“笨”。

  • 现状: 即使是最先进的 AI,在没有经过专门训练的情况下,几乎无法分辨借词。
  • 进步: 经过专门训练(微调)后,AI 能做得更好,但依然无法完美解决所有问题。
  • 意义: 这对保护少数语言非常重要。如果 dominant language(强势语言,如英语)的词汇不断入侵弱势语言,AI 如果分不清哪些是“借来的”,就无法帮助人们识别和保护那些珍贵的“原生词汇”。

一句话总结:
现在的 AI 就像是一个刚搬进语言城市的新居民,它能看到很多“外来建筑”,但它分不清哪些是真正融入城市的移民,哪些只是路过的游客,甚至把本地老建筑也误认成了外来户。要让它真正理解语言的“血统”和“融合”,还有很长的路要走。