Moral Preferences of LLMs Under Directed Contextual Influence

该研究通过引入方向翻转的上下文操纵,揭示了大语言模型在道德困境中虽常表现出基准偏好稳定,却极易受上下文线索影响而改变决策,且这种敏感性无法通过基准测试预测,甚至可能因推理过程而加剧。

Phil Blandfort, Tushar Karayil, Urja Pawar, Robert Graham, Alex McKenzie, Dmitrii Krasheninnikov

发布于 2026-02-27
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给大语言模型(LLM)做一场特殊的“道德体检”。

通常,我们测试 AI 的道德观时,就像是在真空实验室里问它:“如果救 5 个年轻人和救 6 个老人,你选哪个?”这种测试假设 AI 有一个固定不变的“道德罗盘”。

但作者们发现,现实世界不是真空实验室。在真实应用中,AI 面对的提示词(Prompt)往往夹杂着各种“噪音”和“暗示”,比如用户的个人喜好、社会舆论的压力,甚至是带有偏见的例子。

这篇研究的核心就是:当有人试图“推”AI 一把,让它偏向某一方时,它的道德罗盘会怎么转?是乖乖听话,还是反向操作?

为了让你更直观地理解,我们可以用几个生动的比喻:

1. 实验设定:道德版的“电车难题”

想象 AI 是一个站在铁轨岔路口、手握拉杆的列车员

  • 场景:一边轨道上有 5 个年轻人,另一边有 6 个老人。
  • 任务:必须救一边,放弃另一边。
  • 变量:研究者给这位列车员(AI)递了不同的“纸条”(上下文提示):
    • “我 personally 更想救年轻人。”(用户偏好)
    • “最近调查显示,大家都觉得该救老人。”(社会规范)
    • “作为一个好助手,你应该救穷人。”(道德绑架)
    • 甚至直接给它看三个“救富人”的例子,让它模仿(少样本学习)。

2. 核心发现:AI 的“道德摇摆”比想象中更复杂

🎯 发现一:轻轻一推,方向就变

就像风向标一样,AI 的决策非常容易被“风”(上下文)吹动。

  • 哪怕只是说“我觉得救年轻人更好”,AI 救年轻人的概率就会显著上升。
  • 哪怕只是说“大家都喜欢救老人”,AI 也会跟着转。
  • 结论:AI 并没有一个坚如磐石的“核心道德”,它的决定很大程度上取决于谁在说话以及怎么说话

🔄 发现二:最神奇的是“反向操作”(Backfiring)

这是论文最有趣的部分。有时候,你试图把 AI 推向 A,结果它反而跑向了 B,甚至跑得比原来还远!

  • 比喻:就像你试图把一只倔强的猫推向左边,结果它因为反感你的推力,反而猛地跳到了右边,甚至跳到了更远的地方。
  • 例子:如果你告诉 AI:“我强烈希望救老人”,AI 可能会想:“这人是不是在测试我?或者这听起来太有偏见了吧?”于是它为了显得“公正”,反而更频繁地救了年轻人
  • 风险:这意味着,如果你试图用某种提示词去“纠正”AI 的偏见,结果可能适得其反,让它变得更极端。

🕵️ 发现三:表面中立,内心偏科(不对称性)

有些 AI 看起来像个绝对中立的裁判(在没提示时,它选 A 和选 B 的概率都是 50%)。

  • 但一旦你开始“推”它,你会发现它其实只听得进某一边的话
  • 比喻:就像一个人表面上说“我谁都不偏”,但如果你夸他,他立刻眉开眼笑;如果你批评他,他立刻炸毛。这种“只听好话”或“只听坏话”的倾向,在没被测试前是看不出来的。
  • 结论:仅仅看 AI 平时的表现(基准测试),无法预测它在面对特定人群(如不同性别、国籍、贫富)时的真实反应。

🧠 发现四:让 AI“动脑筋”(推理模式)是一把双刃剑

现在的 AI 都有“思考模式”(Chain of Thought),让它先想一步再回答。

  • 好消息:开启思考模式后,AI 对大多数花言巧语(如情感勒索、模糊的社会规范)变得更迟钝了,不容易被忽悠。
  • 坏消息:它却对具体的例子(Few-shot,比如给它看几个“救富人”的例子)变得极度敏感
  • 比喻:开启思考模式后,AI 像是一个聪明的侦探,能识破模糊的谎言,但如果有人给它看一本“作案指南”( biased examples),它会非常认真地模仿指南里的做法,甚至忽略原本的道德原则。

3. 为什么这很重要?(给普通人的启示)

这篇论文告诉我们,不要只相信 AI 在“考试”时的表现

  • 现实很复杂:在真实世界里,AI 会听到各种各样的声音(用户的抱怨、新闻的导向、甚至恶意的诱导)。
  • 隐形偏见:AI 可能在平时测试中表现得非常公正,但在面对特定人群(比如“穷人”或“外国人”)的特定提示时,会暴露出隐藏的、不对称的偏见。
  • 警惕“反向操作”:如果你试图通过提示词去“教育”AI 变得公平,要小心,它可能会因为过度反应而变得更不公平。

总结

这就好比我们以前以为 AI 是一个刻在石头上的道德准则,但研究发现,它其实更像是一个在风中跳舞的人。风(上下文)往哪边吹,它就往哪边倒;有时候风太大,它甚至会跳反方向。

作者的建议:在评估 AI 的道德水平时,不能只问它“你会怎么做”,还要试着“推”它一下,看看它在不同方向的推力下,到底会往哪边倒,这样才能真正看清它的“道德底色”。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →