Nsanku: Evaluating Zero-Shot Translation Performance of LLMs for Ghanaian Languages

本文介绍了Nsanku,这是一个全面基准,用于评估19个大语言模型在43种加纳语言上的零样本翻译性能,结果显示,尽管Gemini-2.5-flash等顶级模型取得了中等分数,但目前没有任何模型能同时展现出高性能与一致性,表明它们尚未达到在这些语言中进行大规模翻译的可靠可用水平。

原作者: Stephen E. Moore, Mich-Seth Owusu, Akwasi Asare, Lawrence Adu Gyamfi, Paul Azunre, Joel Budu, Jonathan Asiamah, Elias Dzobo, Kelvin Newman, Edmund O. Benefo, Gerhardt Datsomor, Onesimus Addo Appiah, A
发布于 2026-05-07
📖 1 分钟阅读☕ 轻松阅读

原作者: Stephen E. Moore, Mich-Seth Owusu, Akwasi Asare, Lawrence Adu Gyamfi, Paul Azunre, Joel Budu, Jonathan Asiamah, Elias Dzobo, Kelvin Newman, Edmund O. Benefo, Gerhardt Datsomor, Onesimus Addo Appiah, Ama Branoa Banful, Lucas Woedem Kpatah, Saani Mustapha Deishini, John Ayernor

原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

Nsanku 报告:在加纳语言上测试 AI 翻译器

想象一下,你拥有一个包含 19 种不同“超级大脑”(AI 模型)的巨型图书馆。其中一些由庞大的科技巨头拥有,另一些则是由社区构建的开源项目。你想知道:这些大脑中是否有任何一个能够在从未被教授过这些特定语言的情况下,将英语翻译成加纳使用的 43 种不同语言?

这正是Nsanku论文所做的。“Nsanku"这个名字源自阿坎语(Akan),意为“乐器”。正如乐队需要多种不同的乐器来演奏音乐一样,该项目需要多种不同的 AI 模型来测试它们处理加纳语言多样“音乐”的能力。

以下是他们发现的简单解释。


1. 设置:严格的“零样本”测试

将这些 AI 模型想象成参加突击考试的学生。

  • 规则: 他们不允许事先学习。他们不能在加纳数据上进行“微调”(重新训练)。他们必须完全依赖从通用训练中已经获得的知识。这被称为零样本(zero-shot)测试。
  • 测试材料: 考题是 300 个来自《圣经》的句子,被翻译成 43 种不同的加纳语言。研究人员使用《圣经》,因为这是少数几个能在一个地方找到几乎所有这些语言书面版本的地方之一。
  • 评分: 他们使用了两种不同的评分系统:
    • BLEU: 像一位严格的老师,检查学生是否使用了完全正确的单词。
    • chrF: 像一位更灵活的老师,检查学生是否掌握了句子的整体发音和结构,即使确切的单词略有不同。

2. 结果:谁通过了?谁失败了?

“明星学生”(专有模型)

来自科技巨头(Google、Anthropic 和 OpenAI)的三款知名 AI 模型名列前茅。

  • Gemini-2.5-flash 以最高分成为班级毕业生代表。
  • Claude-sonnet-4-5GPT-4.1 紧随其后。
  • 类比: 这些就像就读于最昂贵私立学校的学生。他们见识过大量数据,能比其他人更好地猜测答案,但仍然不完美。

“社区学生”(开放权重模型)

其余的模型是开源的(可免费使用和修改)。

  • 该组中表现最好的是 kimi-k2-instruct,但其得分仍显著低于“明星学生”。
  • 差距: 昂贵的私有模型与免费的社区模型之间存在明显差距。私有模型目前在理解这些语言方面要好得多。

“语言难度”因素

并非所有语言都同样容易翻译。

  • Siwu 是 AI 翻译“最容易”的语言(得分最高)。
  • Nkonya 是“最难”的(得分最低)。
  • 转折: 令人惊讶的是,使用最广泛的语言(如 Twi)并不总是获得最高分。有时,使用者较少的语言得分反而更高。为什么?因为用于这些语言的特定《圣经》译本比用于流行语言的译本更清晰、更完整。这就像为一个小村庄拥有一张比大城市更清晰的地图。

3. 大问题:“不可靠的朋友”问题

这是该论文最重要的发现。研究人员不仅查看了平均分,还查看了一致性

  • 类比: 想象你有一个朋友,他非常擅长做意大利菜,但做泰国菜却糟糕透顶。如果你让他随机做一顿饭,你永远不知道你会得到一顿美味的晚餐还是一顿烧焦的残羹。
  • 发现: 没有任何一个 AI 模型既是“高性能”又是“一致”的。
    • 表现最好的模型是“高性能但不一致”。它们可能完美地翻译 Siwu,但在 Nkonya 上却彻底失败。
    • 一致的模型是“一致但平庸”。它们对每种语言都给出同样的平庸结果,从不严重失败,但也从未表现出色。
    • “领导者”象限: 研究人员绘制了一张包含四个角落的图表。右上角是“领导者”区域(高质量 + 高一致性)。没有任何模型和任何语言落入这个区域。

4. 这意味着什么(根据论文)

论文得出结论,虽然这些 AI 模型令人印象深刻,但它们目前还不足以可靠地用于加纳语言的实际任务(如翻译政府文件、医疗建议或新闻)。

  • “经文”局限: 测试是使用《圣经》经文进行的。作者警告说,这些模型在日常对话、新闻或法律文本上的表现可能会更差,因为它们在训练中尚未见过这些类型的词汇。
  • “数据”问题: 低分并不是因为这些语言“难”或“破碎”。而是因为 AI 没有看到足够多的例子。这就像试图通过只读一本书来学习一门语言;你可能掌握了大意,但会错过细微差别。

总结

Nsanku项目建立了一个巨型记分牌,用于测试 19 个 AI 模型在 43 种加纳语言上的表现。

  1. 大型科技公司的模型目前是最好的,但免费模型正在迎头赶上。
  2. 基于字符的评分(chrF)比逐词评分(BLEU)是评估这些语言的更好方法。
  3. 最重要的是: 目前没有 AI 足够可靠,可以让人信任这些语言。它们就像一个有时得 A+、有时得 F 的学生,具体取决于特定的语言。在我们看到 consistently 表现良好的模型之前,我们不能完全信任它们处理重要任务。

该论文已将其所有数据和代码公开,以便研究人员能够继续测试和改进这些模型,希望最终能填补那个“领导者”象限。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →