A multilingual hallucination benchmark: MultiWikiQHalluA

本文介绍了涵盖 306 种语言的多语言幻觉基准 MultiWikiQHalluA,并利用该基准证明:低资源语言和小规模模型的幻觉率显著更高,而最大规模模型在评估的所有欧洲语言中表现最佳。

原作者: Freja Thoresen, Dan Saattrup Smart

发布于 2026-05-06
📖 1 分钟阅读☕ 轻松阅读

原作者: Freja Thoresen, Dan Saattrup Smart

原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

想象一下,你有一个非常聪明、精通多种语言的机器人,它热爱阅读维基百科文章并回答相关问题。你问它:“冰岛的首都是什么?”它回答:“雷克雅未克。”太棒了!但有时,这个机器人会变得过于“有创意”。它可能会说:“雷克雅未克位于月球上”,或者说:“首都是一个叫‘冰山’的城市。”尽管这些句子听起来流畅且自信,但它们完全是编造的。在人工智能领域,我们将这种现象称为幻觉

这篇论文就像是为机器人设计的一种新型“测谎仪”,但研究人员构建的测试不仅限于英语,而是适用于306 种不同语言,包括一些计算机很少接触的语言(如冰岛语)。

以下是他们如何做到这一点的简单故事:

1. 问题:“流利的说谎者”

大多数针对机器人诚实度的测试仅检查英语。这就像只在一个城市测试驾驶执照,就假设他们在其他地方也能安全驾驶一样。研究人员想知道:机器人在使用它们不太熟悉的语言时,是否更容易说谎?

他们将“幻觉”明确定义为忠实度。这意味着:机器人是否遵循了你告诉它的故事?

  • 好机器人:阅读一个关于猫的故事,然后说:“猫是橙色的。”
  • 产生幻觉的机器人:阅读一个关于猫的故事,然后说:“猫实际上是一条龙。”(听起来似乎合理,但故事中并未提及)。

2. 解决方案:建立“假新闻”工厂

为了训练他们的测谎仪,研究人员需要大量机器人确实说谎的示例。但他们不想等待机器人自然地说谎,那太耗时了。

因此,他们建立了一个合成工厂

  • 他们获取了一个涵盖 306 种语言的大型真实问答数据集(MultiWikiQA)。
  • 他们利用一个超级智能的 AI(GPT-5)故意重写正确答案,使其听起来可信,但根据源文本却是事实错误的。
  • 他们为306 种语言执行了此操作,创建了一个巨大的“虚假答案”库。
  • 随后,他们训练了一个更小型、专门的 AI(一个“词元级分类器”)来识别这些谎言。可以将此分类器想象为真相的拼写检查器。它不是检查单词拼写是否正确,而是检查句子中的特定单词是否属于原始故事,还是凭空捏造的。

他们为30 种欧洲语言训练了这些“真相拼写检查器”,并在四种语言上进行了测试:英语、德语、丹麦语和冰岛语。

3. 实验:测试机器人

研究人员选取了五个不同的 AI 模型(从小型到巨型),要求它们用这四种语言回答问题。然后,他们将这些答案输入新的“真相拼写检查器”,以查看文本中隐藏了多少谎言。

4. 结果:规模很重要,但语言更重要

以下是他们的发现,使用了一些简单的类比:

  • “小机器人”很吃力:最小的 AI 模型(Qwen3-0.6B)是最糟糕的说谎者。它就像一个没好好学习的学生,只是胡乱猜测。在冰岛语中,60% 的答案至少包含一个谎言。
  • “大机器人”表现更好:更大、更强大的模型(如 700 亿参数模型)在坚持事实方面要好得多。它们是群体中的“优等生”。
  • “语言差距”:这是最重要的发现。机器人在它们不太熟悉的语言中说谎的频率要高得多
    • 英语和德语(机器人非常熟悉的语言):谎言极少。
    • 丹麦语和冰岛语(机器人不太熟悉的语言):谎言多得多。
    • 冰岛语是最难的。即使是最好的机器人,在这里也比在英语中说谎更多。这就像让厨师做一道他们从未见过的菜;他们更有可能猜错食材。

5. 一个意想不到的转折

你可能会想:“机器人越大,说谎越少。”但事情没那么简单。有时,中型机器人比巨型机器人表现更好,具体取决于语言。这表明,机器人如何被训练(它学习了哪些语言)与其规模大小同样重要。

6. 陷阱(“词元”问题)

研究人员还指出了一种技术上的怪癖。在冰岛语等语言中,计算机将单词拆分成许多微小的部分(词元)来理解它们。在英语中,它可能将一个单词视为一个部分。而在冰岛语中,同一个单词可能被分成五个部分。

  • 类比:想象检查句子中的错误。如果你逐词检查,可能会发现 1 个错误。如果你逐字母检查,可能会发现 5 个错误,仅仅因为单词更长。
  • 研究人员警告说,他们的“谎言计数”在冰岛语中可能看起来更高,部分原因是单词被切分成了更多部分,给检测器提供了更多发现“谎言”的机会,即使含义是相同的。

总结

这篇论文介绍了一种新的开源工具,可以检测 AI 模型在306 种语言中何时在编造内容。他们发现,虽然更大的模型通常更诚实,但机器人在它们不太熟悉的语言(如冰岛语)中更容易产生幻觉。他们已发布了他们的“假新闻”数据集和“真相检测器”,供任何人使用。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →