Assessing Cognitive Biases in LLMs for Judicial Decision Support: Virtuous Victim and Halo Effects

该研究通过对比五种大语言模型在司法量刑场景下的表现,发现模型虽表现出类似人类的“美德受害者”偏见且对“相邻同意”缺乏显著惩罚,但在职业、公司及学历光环效应上比人类偏见更弱(其中学历光环效应减弱尤为明显),表明尽管当前模型尚不足以直接用于司法决策,但其在减少部分偏见方面已展现出优于人类的潜力。

Sierra S. Liu

发布于 Thu, 12 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给未来的“电子法官”做一场压力测试

想象一下,我们正站在法庭门口,手里拿着两个选择:一个是经验丰富的人类法官,另一个是刚刚上线的超级 AI 法官(也就是大语言模型,LLM)。我们最担心的是:AI 会不会像人类一样,因为一些不相关的“小细节”而偏心?比如,因为受害者长得可怜就判得更重,或者因为被告是大公司老板就手下留情?

为了搞清楚这一点,作者 Sierra S. Liu 设计了一场精彩的“模拟法庭实验”,让 5 个最火的 AI 模型(ChatGPT、DeepSeek、Claude、Gemini 等)扮演法官,去审理一些精心设计的虚拟案件。

以下是这篇论文的“大白话”版解读:

1. 实验设计:给 AI 出“脑筋急转弯”

作者没有直接问 AI 怎么判案,而是像变魔术一样,给 AI 出了几组几乎一模一样,但有一个关键细节不同的题目。这就像是在做科学实验,只改变一个变量,看看 AI 的反应会不会变。

他们主要测试了两个著名的“人类偏见”:

  • 测试一:“完美受害者”效应 (Virtuous Victim Effect)

    • 场景 A(小伤害): 一个学生借 iPad 给同学,结果同学把 iPad 弄坏了。
    • 场景 B(大伤害): 一个女生在派对上被男生性侵。这里有个关键变体:如果女生之前同意过亲密行为,但后来反悔了,男生却强行继续,AI 会怎么想?
    • 人类的问题: 人类法官往往觉得,如果受害者之前“同意”过(哪怕后来反悔了),他们就不那么“无辜”了,甚至会觉得受害者也有点责任。这就是“完美受害者”陷阱。
    • AI 的表现: 好消息是,AI 没有掉进这个陷阱! 无论受害者之前是否同意,AI 都觉得受害者是清白的,没有因为“之前同意过”就降低对受害者的同情。这点上,AI 比人类更“铁面无私”。
  • 测试二:“光环效应” (Halo Effect)

    • 场景: 给被告贴上不同的“标签”。
      • 公司光环: 被告是普通小公司 vs. 高盛(顶级投行)。
      • 职业光环: 被告是医生 vs. 前台接待员。
      • 学历光环: 专家证人是耶鲁大学 vs. 普通州立大学。
    • 人类的问题: 人类法官容易“看人下菜碟”。如果被告是大公司、医生或名校教授,人类往往判得轻一点,或者觉得他们更可信。
    • AI 的表现:
      • 公司光环: AI 还是会偏袒大公司,但偏袒的程度比人类轻。人类觉得大公司该赔 3 倍,AI 平均只判了 1.5 到 2 倍。
      • 职业光环: 结果有点乱。有的 AI 像人类一样偏袒医生,有的则完全没反应,甚至有的判得比人类还奇怪。
      • 学历光环: 这是最大的惊喜!人类非常迷信名校专家,但 AI 对“耶鲁”和“州立大学”的区别几乎无感。AI 不会因为专家来自名校就轻易相信他。

2. 核心发现:AI 是“更公平的法官”还是“更奇怪的法官”?

  • 优点:AI 在某些方面确实更公平。
    它不会像人类那样,因为受害者“不够完美”(比如之前同意过)就指责受害者;它也不太迷信名校光环。在这个意义上,AI 像是一个没有偏见、只看事实的机器人

  • 缺点:AI 太“情绪化”且“不稳定”。

    • 过度同情: 在“受害者”测试中,AI 对人类道德的评价普遍比人类高。人类觉得受害者道德分是 7 分,AI 觉得是 8.5 分。AI 似乎有点“圣母心”,过度美化受害者。
    • 像掷骰子: 这是最可怕的地方。如果你让同一个 AI 法官同一个案子判 10 次,它可能第一次判赔 2000 万,第二次判赔 200 万。这种不稳定性在法庭上是致命的。人类法官虽然也有偏见,但至少相对稳定;而 AI 今天的判决可能和明天的完全不同。
    • 模型差异大: 就像让 5 个不同的人当法官,结果天差地别。有的 AI(如 ChatGPT Instant)比较稳,有的(如 Gemini)简直像喝醉了,判罚金额忽高忽低。

3. 结论:现在能请 AI 当法官吗?

答案是:暂时还不能,但未来有希望。

  • 现在的状态: 就像让一个刚学会走路的超级天才小孩去当法官。他可能比大人更讲道理(没有某些偏见),但他情绪不稳定,今天高兴判你无罪,明天不高兴判你重刑。这种不可预测性在司法系统中是绝对不允许的。
  • 未来的潜力: 如果能把这些 AI 的“情绪”修好,让它们学会“稳定输出”,它们可能会成为法官的超级助手。比如,当人类法官因为太累(“饥饿法官”效应)或者太迷信名校而判偏了时,AI 可以跳出来提醒:“嘿,法官,这个案子其实和那个大公司的案子事实一样,您判重了哦。”

总结比喻

如果把司法系统比作一场篮球比赛

  • 人类法官是经验丰富的老裁判,但有时候会因为太累、太饿,或者因为球员长得帅、名气大(光环效应)而吹错哨。
  • AI 法官是一个没有感情但有点神经质的机器人裁判。它不会因为球员名气大就偏袒,也不会因为受害者“不够完美”就吹黑哨。但是,它有时候会突然发疯,同一个动作,上一秒吹犯规,下一秒吹进球,而且不同型号的机器人裁判(ChatGPT vs Gemini)吹哨标准完全不一样。

这篇论文告诉我们: 别急着把裁判权交给 AI,但我们可以把 AI 训练成最犀利的**“裁判助理”**,帮人类法官发现那些连自己都意识不到的偏见。