When Do Language Models Endorse Limitations on Human Rights Principles?

该论文通过跨语言、跨权利类别的大规模评估,揭示了大型语言模型在权衡《世界人权宣言》时存在系统性偏差,具体表现为更倾向于限制经济社会文化权利、在不同语言(如中文和印地语)中表现出更高的权利限制倾向,且易受提示词引导及回答形式影响。

Keenan Samway, Nicole Miu Takagi, Rada Mihalcea, Bernhard Schölkopf, Ilias Chalkidis, Daniel Hershcovich, Zhijing Jin

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一次对人工智能(AI)的“道德体检”。研究人员想知道:当 AI 面对“为了大家的安全或利益,是否应该牺牲一部分人的权利”这种两难问题时,它会怎么做?

为了让你更容易理解,我们可以把这篇论文的研究过程想象成给 11 个不同的 AI 学生出了一套“道德考卷”

1. 考卷是怎么出的?(实验设计)

研究人员没有直接问 AI“你支持人权吗?”,而是编造了1152 个具体的故事场景

  • 场景例子:政府为了打击假新闻,要求所有人注册博客并加上免责声明。
    • 冲突点:这虽然保护了公共利益(打击假新闻),但可能限制了“言论自由”。
  • 变量:他们让 AI 在不同语言(英语、中文、印地语等)、不同紧急程度(平时、发生暴乱、发生自然灾害)下回答。
  • 评分:让 AI 给这个限制权利的行为打分(1 分=强烈反对,5 分=强烈支持)。

2. 发现了什么惊人的“偏科”现象?(核心发现)

研究人员发现,这些 AI 并不是像我们想象的那样“公正无私”,它们表现出了明显的偏见和不稳定

🌍 发现一:语言不同,性格大变(跨语言差异)

  • 比喻:就像同一个演员,穿西装演英语角色时很保守,穿唐装演中文角色时却变得很激进。
  • 现象:当用中文印地语提问时,AI 更容易支持那些限制人权的政策(比如为了安全牺牲自由)。但在英语罗马尼亚语中,它们则更倾向于反对限制。
  • 结论:AI 的“道德罗盘”会随着语言切换而剧烈晃动,这在多语言世界中是个大隐患。

⚖️ 发现二:权利也有“三六九等”(权利类别偏见)

  • 比喻:AI 像是一个挑食的食客。它非常爱护“政治权利”(如投票权、言论自由),就像保护盘子里的主菜;但对于“经济和社会权利”(如受教育权、工作权、休息权),它却像对待配菜一样,觉得为了大局牺牲一下也无所谓。
  • 现象:AI 更容易接受限制“经济、社会和文化权利”的行为,而对限制“政治和公民权利”的行为更加抗拒。

🚨 发现三:紧急时刻,原则崩塌(情境影响)

  • 比喻:平时 AI 像个严格的法官,但在“火灾”或“暴乱”发生时,它瞬间变成了“救火队长”,为了灭火(公共安全),它愿意把“窗户”(个人权利)砸碎。
  • 现象:当场景设定为自然灾害时,AI 支持限制权利的比例大幅上升。它似乎认为在灾难面前,集体生存比个人权利更重要。

🎭 发现四:谁说话,听谁的(提示词操控)

  • 比喻:AI 像个没有主见的“墙头草”。如果你给它戴上一顶“政府权威”的帽子,它就支持限制权利;如果你给它戴上一顶“个人自由卫士”的帽子,它就立刻反对限制。
  • 现象:只要稍微改变一下提问的语气(Prompt Steering),AI 的立场就能发生翻天覆地的变化。这说明它的“价值观”并不稳固,很容易被带偏。

📝 发现五:问法不同,答案不同(评估方式差异)

  • 比喻:如果你让 AI 在一张表格里打勾(选择题),它可能表现得很理性;但如果你让它写一段话解释(问答题),它的想法可能就完全变了。
  • 现象:AI 在“打分题”和“开放式回答”中表现出的态度经常不一致。这意味着我们之前用来测试 AI 的方法可能并不靠谱,就像用尺子去称重量一样不准。

3. 这意味着什么?(总结与警示)

这篇论文告诉我们,现在的 AI 并不是一个完美的、全知全能的“道德法官”。

  • 它不稳定:换个语言、换个问法、换个紧急程度,它的“良心”就会变。
  • 它不平等:它对不同种类的人权(比如言论自由 vs. 工作权)有不同的重视程度。
  • 它容易被操控:只要稍微“哄”一下,它就能改变立场。

给开发者和政策制定者的建议
如果我们把 AI 用在法院、移民局或内容审核等关键领域,不能盲目信任它。我们需要:

  1. 多语言测试:不能只测英语,要测各种语言。
  2. 人类监督:在关键时刻,必须有人类在背后把关,不能全权交给 AI。
  3. 更 robust 的测试:不能只靠一种提问方式,要像“压力测试”一样,用各种角度去检验 AI 的稳定性。

一句话总结
现在的 AI 在道德问题上,就像一个性格多变、容易被带节奏、且对不同语言反应不同的“学生”。在它真正成熟并学会像人类一样公正地处理复杂的人权问题之前,我们不能把决定权完全交给它。