A multilingual hallucination benchmark: MultiWikiQHalluA

Each language version is independently generated for its own context, not a direct translation.

想象一下，你有一个非常聪明、精通多种语言的机器人，它热爱阅读维基百科文章并回答相关问题。你问它：“冰岛的首都是什么？”它回答：“雷克雅未克。”太棒了！但有时，这个机器人会变得过于“有创意”。它可能会说：“雷克雅未克位于月球上”，或者说：“首都是一个叫‘冰山’的城市。”尽管这些句子听起来流畅且自信，但它们完全是编造的。在人工智能领域，我们将这种现象称为幻觉。

这篇论文就像是为机器人设计的一种新型“测谎仪”，但研究人员构建的测试不仅限于英语，而是适用于306 种不同语言，包括一些计算机很少接触的语言（如冰岛语）。

以下是他们如何做到这一点的简单故事：

1. 问题：“流利的说谎者”

大多数针对机器人诚实度的测试仅检查英语。这就像只在一个城市测试驾驶执照，就假设他们在其他地方也能安全驾驶一样。研究人员想知道：机器人在使用它们不太熟悉的语言时，是否更容易说谎？

他们将“幻觉”明确定义为忠实度。这意味着：机器人是否遵循了你告诉它的故事？

好机器人：阅读一个关于猫的故事，然后说：“猫是橙色的。”
产生幻觉的机器人：阅读一个关于猫的故事，然后说：“猫实际上是一条龙。”（听起来似乎合理，但故事中并未提及）。

2. 解决方案：建立“假新闻”工厂

为了训练他们的测谎仪，研究人员需要大量机器人确实说谎的示例。但他们不想等待机器人自然地说谎，那太耗时了。

因此，他们建立了一个合成工厂：

他们获取了一个涵盖 306 种语言的大型真实问答数据集（MultiWikiQA）。
他们利用一个超级智能的 AI（GPT-5）故意重写正确答案，使其听起来可信，但根据源文本却是事实错误的。
他们为306 种语言执行了此操作，创建了一个巨大的“虚假答案”库。
随后，他们训练了一个更小型、专门的 AI（一个“词元级分类器”）来识别这些谎言。可以将此分类器想象为真相的拼写检查器。它不是检查单词拼写是否正确，而是检查句子中的特定单词是否属于原始故事，还是凭空捏造的。

他们为30 种欧洲语言训练了这些“真相拼写检查器”，并在四种语言上进行了测试：英语、德语、丹麦语和冰岛语。

3. 实验：测试机器人

研究人员选取了五个不同的 AI 模型（从小型到巨型），要求它们用这四种语言回答问题。然后，他们将这些答案输入新的“真相拼写检查器”，以查看文本中隐藏了多少谎言。

4. 结果：规模很重要，但语言更重要

以下是他们的发现，使用了一些简单的类比：

“小机器人”很吃力：最小的 AI 模型（Qwen3-0.6B）是最糟糕的说谎者。它就像一个没好好学习的学生，只是胡乱猜测。在冰岛语中，60% 的答案至少包含一个谎言。
“大机器人”表现更好：更大、更强大的模型（如 700 亿参数模型）在坚持事实方面要好得多。它们是群体中的“优等生”。
“语言差距”：这是最重要的发现。机器人在它们不太熟悉的语言中说谎的频率要高得多。
- 英语和德语（机器人非常熟悉的语言）：谎言极少。
- 丹麦语和冰岛语（机器人不太熟悉的语言）：谎言多得多。
- 冰岛语是最难的。即使是最好的机器人，在这里也比在英语中说谎更多。这就像让厨师做一道他们从未见过的菜；他们更有可能猜错食材。

5. 一个意想不到的转折

你可能会想：“机器人越大，说谎越少。”但事情没那么简单。有时，中型机器人比巨型机器人表现更好，具体取决于语言。这表明，机器人如何被训练（它学习了哪些语言）与其规模大小同样重要。

6. 陷阱（“词元”问题）

研究人员还指出了一种技术上的怪癖。在冰岛语等语言中，计算机将单词拆分成许多微小的部分（词元）来理解它们。在英语中，它可能将一个单词视为一个部分。而在冰岛语中，同一个单词可能被分成五个部分。

类比：想象检查句子中的错误。如果你逐词检查，可能会发现 1 个错误。如果你逐字母检查，可能会发现 5 个错误，仅仅因为单词更长。
研究人员警告说，他们的“谎言计数”在冰岛语中可能看起来更高，部分原因是单词被切分成了更多部分，给检测器提供了更多发现“谎言”的机会，即使含义是相同的。

总结

这篇论文介绍了一种新的开源工具，可以检测 AI 模型在306 种语言中何时在编造内容。他们发现，虽然更大的模型通常更诚实，但机器人在它们不太熟悉的语言（如冰岛语）中更容易产生幻觉。他们已发布了他们的“假新闻”数据集和“真相检测器”，供任何人使用。