Evaluating LLM Alignment With Human Trust Models

该论文通过对比提示和余弦相似度分析,揭示了 EleutherAI/gpt-j-6B 大语言模型内部对信任的表征与 Castelfranchi 社会认知模型最为契合,表明 LLM 能够以支持人类-AI 协作系统设计的方式编码社会认知构建。

Anushka Debnath, Stephen Cranefield, Bastin Tony Roy Savarimuthu, Emiliano Lorini

发布于 Mon, 09 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在做一场"AI 的内心读心术",试图搞清楚当人工智能(AI)思考“信任”这个概念时,它的大脑里到底在想什么。

想象一下,你和一个刚认识的朋友相处。你会根据他的能力诚实度是否愿意帮你等表现来判断是否信任他。人类心理学家总结出了很多套“信任公式”(比如:信任 = 能力 + 善意 + 诚实)。

但这篇论文问了一个有趣的问题:AI 也是这么“想”的吗?还是说它脑子里有一套完全不同的逻辑

为了回答这个问题,作者们没有像以前那样只问 AI 问题(看它怎么回答),而是直接打开了 AI 的“黑盒子”,去观察它内部神经元(激活空间)。

以下是用通俗语言和比喻对这篇论文的解读:

1. 核心任务:给 AI 的“信任”做个 CT 扫描

以前的研究大多是把 AI 当做一个黑盒子:你问它“你信任这个人吗?”,它回答“信任”。但这就像只看了魔术师的表演,没看魔术是怎么变的。

这篇论文做的是白盒分析(White-box analysis)。

  • 比喻:想象 AI 的大脑是一个巨大的图书馆,里面堆满了各种概念的书。作者们想看看,“信任”这本书,在图书馆里是放在“能力”和“诚实”旁边,还是放在“风险”和“背叛”旁边?
  • 方法:他们使用了一种叫对比提示(Contrastive Prompting)的技术。
    • 这就好比给 AI 看两幅画:一幅是“凯瑟琳信任爱丽丝”(正向),另一幅是“凯瑟琳不信任爱丽丝”(反向)。
    • 然后,作者们提取了 AI 在生成这两幅画时,大脑内部产生的数学信号(向量)。
    • 通过计算这两个信号的距离(余弦相似度),他们就能知道 AI 脑子里“信任”和“不信任”到底分得有多清,以及“信任”和“能力”、“诚实”等概念离得有多近。

2. 实验过程:寻找 AI 的“信任配方”

作者们收集了人类心理学界公认的5 种信任理论模型(就像 5 种不同的“信任食谱”):

  1. Marsh 模型:像是一个精算师,看重过去的表现和概率。
  2. Mayer 模型:像是一个 HR 经理,看重能力、善意和正直。
  3. McAllister 模型:像是一个情感专家,区分“基于理性的信任”和“基于情感的信任”。
  4. McKnight 模型:像是一个新手向导,关注初次见面时的信任建立。
  5. Castelfranchi 模型:像是一个社会心理学家,强调信念、目标和心理状态。

他们做了什么
他们把 AI 内部生成的“信任”信号,分别和这 5 种模型里的关键词(如:能力、善意、风险、承诺等)进行比对

  • 比喻:就像给 AI 的“信任”信号做一个 DNA 亲子鉴定。看看它和哪本“信任食谱”的基因最匹配。

3. 惊人的发现:AI 最像“社会心理学家”

结果出来了,AI 的内心世界和人类理论并不完全一样:

  • 冠军Castelfranchi 模型(社会认知模型)。
    • 解读:AI 脑子里的“信任”,最接近这个模型。这意味着 AI 认为信任不仅仅是看对方干得好不好(能力),更看重对方有没有意愿(Willingness)、是否可靠(Reliability)以及是否信守承诺(Commitment)。AI 把信任看作一种复杂的心理状态,而不仅仅是冷冰冰的数据统计。
  • 亚军Marsh 模型
    • 解读:AI 也有一部分像精算师,会参考过去的经验和声誉。
  • 意外Mayer 模型里的某些概念在 AI 脑子里“对不上号”。
    • 有趣的现象:在人类理论中,“风险”(Risk)是信任的前提(你敢冒险,才说明你信任)。但在 AI 的数学世界里,“信任”和“风险”这两个词的信号距离非常远,甚至有点“排斥”。
    • 比喻:就像人类觉得“敢跳伞”代表“信任教练”,但 AI 的数据库里,“跳伞”和“信任”好像没什么关系,甚至觉得它们不是一回事。这说明 AI 虽然能模仿人类说话,但它对“信任”的深层理解(尤其是关于“脆弱性”和“风险”的部分)和人类还有差距。

4. 这意味着什么?(未来的应用)

这项研究不仅仅是为了好玩,它有巨大的实用价值:

  • 给 AI 装上“信任指南针”
    既然我们知道了 AI 脑子里“信任”长什么样,我们就可以调整它。
    • 比喻:就像调音师调整吉他弦。如果我们希望 AI 表现得更有“信任感”,我们可以把“信任”的数学信号(向量)注入到它的思考过程中,强迫它更多地关注“能力”和“善意”,而不是其他无关的东西。
  • 打造更安全的协作系统
    未来,我们可以用这个技术来监控 AI 是否真的“值得信任”,或者让 AI 在人类和机器合作时,更自然地建立信任关系。

总结

这篇论文就像是一次AI 心理体检。它告诉我们:

  1. AI 确实能在其内部构建出复杂的“信任”概念,而且这种概念是有结构的。
  2. AI 目前的“信任观”最接近社会认知理论(看重意愿和承诺),而不是纯粹的数据统计。
  3. AI 对“风险”的理解还比较生硬,这是未来需要改进的地方。

简单来说,作者们通过“透视”AI 的大脑,发现它虽然还没完全像人类那样理解信任,但它已经具备了理解信任的骨架。只要我们懂得如何调整它的“神经信号”,就能让它变得更可靠、更懂人心。