SalamahBench: Toward Standardized Safety Evaluation for Arabic Language Models

本文提出了首个针对阿拉伯语语言模型的安全基准测试框架 SalamahBench,通过涵盖 12 个危害类别的 8170 个提示,系统评估了现有模型的安全对齐差异,并揭示了专用防护模型在安全性判断上优于原生模型,从而强调了针对阿拉伯语模型进行类别感知安全评估及部署专门防护机制的必要性。

Omar Abdelnasser, Fatemah Alharbi, Khaled Khasawneh, Ihsen Alouani, Mohammed E. Fouda

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于阿拉伯语人工智能(AI)如何变得“更安全、更守规矩”的故事

想象一下,你正在开发一个非常聪明的阿拉伯语 AI 助手(就像是一个全知全能的阿拉伯语管家)。这个管家能写诗、能编程、能聊天,非常厉害。但是,就像给一个精力旺盛的孩子一样,如果缺乏正确的引导,它可能会在无意中说出伤人的话、教人做坏事,或者泄露隐私。

这就是**“安全对齐”(Safety Alignment)**的问题:如何确保 AI 只做好事,不做坏事。

🌍 核心问题:为什么现有的“安全规则”不管用?

目前,大多数给 AI 制定的“安全规则”和“考试题目”都是以英语为中心的。这就像是用英语的驾照考试来测试一个只开阿拉伯语路牌、习惯阿拉伯交通习惯的司机

  • 文化差异:阿拉伯语有独特的表达方式、方言和含蓄的文化背景。有些在英语里很明显是“坏话”的内容,在阿拉伯语里可能披着“礼貌”或“玩笑”的外衣,英语的过滤器根本抓不住。
  • 翻译的陷阱:以前,人们试图把英语的坏问题翻译成阿拉伯语来测试 AI。但这就像把“美式笑话”直接翻译成中文,往往失去了原本的讽刺意味,或者变得莫名其妙,导致测试不准。

结果就是:很多阿拉伯语 AI 在英语测试中表现很好,但一回到阿拉伯语环境,就可能会“翻车”,说出危险的话。

🛠️ 解决方案:SalamahBench(萨拉马基准)

为了解决这个问题,作者们创造了一个全新的工具,叫 SalamahBench("Salamah"在阿拉伯语中意为“安全”)。

你可以把它想象成专门为阿拉伯语 AI 设计的一套“全科安全体检表”

  1. 海量题库:他们收集并整理了 8,170 个 精心设计的阿拉伯语问题(Prompt)。
  2. 12 个科室:这些问题覆盖了 12 个不同的“危险科室”,比如:
    • 暴力犯罪(教人打架)
    • 仇恨言论(骂人、歧视)
    • 自杀与自残
    • 性犯罪
    • 隐私泄露
    • 等等……
  3. 严格的筛选流程:为了确保这些题目既真实又准确,他们用了“三步走”策略:
    • 第一步:把各种来源的数据(像拼拼图一样)拼在一起。
    • 第二步:用更高级的 AI 当“初审法官”,把模糊不清的题目筛掉。
    • 第三步:请人类专家当“终审法官”,人工确认每一道题是否真的具有危险性,以及属于哪个类别。

🏆 大考结果:谁是最安全的 AI?

作者们用这套新试卷,测试了当时最厉害的 5 款阿拉伯语 AI 模型(包括 Fanar, ALLaM, Falcon, Jais 等)。结果非常有趣:

  • 优等生(Fanar 2):表现最好,它拒绝回答危险问题的比例最高,最守规矩。
  • 差生(Jais 2):表现最差,它最容易“中招”,经常给出危险的建议。
  • 偏科现象:即使是表现最好的 AI,也不是在所有领域都完美。比如,有的 AI 很擅长拒绝暴力问题,但在“知识产权”或“性内容”方面却容易失守。这就像是一个学生数学考满分,但体育不及格。

🛡️ 谁来做“考官”?

论文还测试了一个有趣的问题:能不能让 AI 自己当考官,去检查自己说的话是否安全?

  • 结论不行!
  • 比喻:这就像让一个刚学会走路的婴儿去当交警,指挥交通。虽然这些 AI 很聪明,能写诗写代码,但当它们需要判断“这句话是否有害”时,准确率非常低(甚至低于 50%)。
  • 正确做法:必须使用专门训练的“安全卫士”模型(就像专门的交警),它们虽然可能没那么“聪明”(不能写诗),但非常擅长识别危险。

💡 总结与启示

这篇论文告诉我们三件大事:

  1. 不能“一刀切”:不能用英语的标准去衡量阿拉伯语 AI。每个语言和文化都需要自己专属的“安全体检”。
  2. 细节决定成败:只看总分(整体安全率)是不够的,必须看它在每个具体领域(如暴力、隐私、仇恨)的表现,因为 AI 可能会“偏科”。
  3. 专业的人做专业的事:让 AI 自己检查自己是不靠谱的,我们需要专门开发“安全卫士”来守护 AI 的嘴巴。

一句话总结
为了让阿拉伯语 AI 真正安全地走进千家万户,作者们造了一把阿拉伯语专属的“安全尺子”,发现现在的 AI 虽然进步很大,但离完美还有距离,而且必须用专门的“安全卫士”来时刻盯着它们,不能靠它们自己“自觉”。