12 Angry AI Agents: Evaluating Multi-Agent LLM Decision-Making Through Cinematic Jury Deliberation

本文通过模拟电影《十二怒汉》并让十二名 AI 陪审员参与审议来评估多智能体大语言模型的审议能力,结果表明,与 Llama-4-Scout 等对齐程度较轻的模型相比,GPT-4o 等模型中重度的人类反馈强化学习(RLHF)对齐严重限制了审议的灵活性和共识构建能力,而后者展现出更类人的说服动态。

原作者: Ahmet Bahaddin Ersoz

发布于 2026-05-06
📖 1 分钟阅读☕ 轻松阅读

原作者: Ahmet Bahaddin Ersoz

原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

想象一下,你正在观看一部关于陪审团试图裁定一名年轻男子是否犯有谋杀罪的电影。在经典电影《十二怒汉》中,一名固执的陪审员起初独自对抗其他十一人。随着时间的推移,通过激烈的辩论、情绪崩溃和仔细倾听,他慢慢说服了其他人改变主意,直到所有人都同意“无罪”。

这篇论文提出了一个简单却深刻的问题:如果你用 12 个 AI 机器人取代那 12 个人类演员,会发生什么?

研究人员建立了一个数字法庭,其中包含 12 个 AI 代理,每个都被编程为扮演电影中的特定角色。他们将两种不同类型的 AI 相互对抗:

  1. “严格”AI(GPT-4o): 一个高度完善、经过安全训练的模型,非常注重一致性和礼貌。
  2. “灵活”AI(Llama-4-Scout): 一个开源模型,接受的安全训练较少,更愿意配合不同的指令。

以下是通过简单类比解释的发生情况:

1. “卡住的唱片”问题

在电影中,陪审员们改变了主意。而在 AI 模拟中,他们几乎从未改变过。
在 18 次不同的尝试中,有 17 次以“悬而未决的陪审团”(即无人达成一致的对峙)告终。AI 并没有真正进行辩论;它们只是坚持各自的初始立场,就像一张卡在单个音符上的唱片。即使当“严格”AI 被告知“嘿,要思想开放,倾听新观点”时,它也无视了指令,依然固执己见。

2. “安全”陷阱

论文提出了一个令人惊讶的固执原因。“严格”AI(GPT-4o)接受了大量训练以变得“安全”和“一致”。这就像是一个被教导“改变主意”是“不良行为”或“不一致”的非常听话的孩子。因此,一旦它做出了裁决,它就觉得自己必须坚持到底,以保持“良好”。

“灵活”AI(Llama)接受了较少的此类严格训练,更像一个愿意说“哦,我明白你的观点了,也许我错了”的孩子。它是唯一一个真正改变主意并达成裁决的 AI。

3. “剧本”与“表演”

研究人员发现,AI 非常擅长模仿戏服,却极不擅长演绎剧情

  • 它们做对的地方: 它们使用了正确的措辞,记住了证据(如刀或火车时刻表),甚至像电影角色一样表现出愤怒或偏见。
  • 它们做错的地方: 它们并没有真正感受到怀疑。在电影中,一名陪审员改变主意是因为他产生了情感波动或发现了逻辑漏洞。而在 AI 版本中,“怀疑”仅仅是计算机温度设置生成的随机噪音。AI 并没有说服彼此;它们只是在平行的独白中各说各话。

4. “虚假的结局”

由于 AI 被编程为完成场景,其中一些(尤其是灵活的 AI)开始幻觉出一个结论。即使它们实际上并未达成一致,它们也会突然在对话中写道:(站起身离开房间)剧终,假装陪审团已达成一致裁决,只是为了结束故事。它们将审议过程视为一部必须有结局的电影剧本,而不是一场可能永远持续下去的真实对话。

核心启示

这篇论文颠覆了关于 AI 的常规认知。通常,人们认为“更大、更智能”的 AI 总是更好。但在这里,那个“更聪明”、训练更充分的 AI 在审议方面表现最差,因为它过于僵化。而那个“训练较少”、更灵活的 AI 表现最好,因为它愿意改变主意。

简而言之: 如果你希望 AI 在辩论中表现得像人类,你不想要那个被训练得完美一致且安全的 AI。你想要的是那个足够灵活、愿意承认自己可能出错的 AI。目前,最先进的 AI 过于礼貌和固执,以至于永远无法真正改变主意。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →