Evaluating LLM Alignment With Human Trust Models

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在做一场"AI 的内心读心术"，试图搞清楚当人工智能（AI）思考“信任”这个概念时，它的大脑里到底在想什么。

想象一下，你和一个刚认识的朋友相处。你会根据他的能力、诚实度、是否愿意帮你等表现来判断是否信任他。人类心理学家总结出了很多套“信任公式”（比如：信任 = 能力 + 善意 + 诚实）。

但这篇论文问了一个有趣的问题：AI 也是这么“想”的吗？还是说它脑子里有一套完全不同的逻辑？

为了回答这个问题，作者们没有像以前那样只问 AI 问题（看它怎么回答），而是直接打开了 AI 的“黑盒子”，去观察它内部神经元（激活空间）。

以下是用通俗语言和比喻对这篇论文的解读：

1. 核心任务：给 AI 的“信任”做个 CT 扫描

以前的研究大多是把 AI 当做一个黑盒子：你问它“你信任这个人吗？”，它回答“信任”。但这就像只看了魔术师的表演，没看魔术是怎么变的。

这篇论文做的是白盒分析（White-box analysis）。

比喻：想象 AI 的大脑是一个巨大的图书馆，里面堆满了各种概念的书。作者们想看看，“信任”这本书，在图书馆里是放在“能力”和“诚实”旁边，还是放在“风险”和“背叛”旁边？
方法：他们使用了一种叫对比提示（Contrastive Prompting）的技术。
- 这就好比给 AI 看两幅画：一幅是“凯瑟琳信任爱丽丝”（正向），另一幅是“凯瑟琳不信任爱丽丝”（反向）。
- 然后，作者们提取了 AI 在生成这两幅画时，大脑内部产生的数学信号（向量）。
- 通过计算这两个信号的距离（余弦相似度），他们就能知道 AI 脑子里“信任”和“不信任”到底分得有多清，以及“信任”和“能力”、“诚实”等概念离得有多近。

2. 实验过程：寻找 AI 的“信任配方”

作者们收集了人类心理学界公认的5 种信任理论模型（就像 5 种不同的“信任食谱”）：

Marsh 模型：像是一个精算师，看重过去的表现和概率。
Mayer 模型：像是一个 HR 经理，看重能力、善意和正直。
McAllister 模型：像是一个情感专家，区分“基于理性的信任”和“基于情感的信任”。
McKnight 模型：像是一个新手向导，关注初次见面时的信任建立。
Castelfranchi 模型：像是一个社会心理学家，强调信念、目标和心理状态。

他们做了什么？
他们把 AI 内部生成的“信任”信号，分别和这 5 种模型里的关键词（如：能力、善意、风险、承诺等）进行比对。

比喻：就像给 AI 的“信任”信号做一个 DNA 亲子鉴定。看看它和哪本“信任食谱”的基因最匹配。

3. 惊人的发现：AI 最像“社会心理学家”

结果出来了，AI 的内心世界和人类理论并不完全一样：

冠军：Castelfranchi 模型（社会认知模型）。
- 解读：AI 脑子里的“信任”，最接近这个模型。这意味着 AI 认为信任不仅仅是看对方干得好不好（能力），更看重对方有没有意愿（Willingness）、是否可靠（Reliability）以及是否信守承诺（Commitment）。AI 把信任看作一种复杂的心理状态，而不仅仅是冷冰冰的数据统计。
亚军：Marsh 模型。
- 解读：AI 也有一部分像精算师，会参考过去的经验和声誉。
意外：Mayer 模型里的某些概念在 AI 脑子里“对不上号”。
- 有趣的现象：在人类理论中，“风险”（Risk）是信任的前提（你敢冒险，才说明你信任）。但在 AI 的数学世界里，“信任”和“风险”这两个词的信号距离非常远，甚至有点“排斥”。
- 比喻：就像人类觉得“敢跳伞”代表“信任教练”，但 AI 的数据库里，“跳伞”和“信任”好像没什么关系，甚至觉得它们不是一回事。这说明 AI 虽然能模仿人类说话，但它对“信任”的深层理解（尤其是关于“脆弱性”和“风险”的部分）和人类还有差距。

4. 这意味着什么？（未来的应用）

这项研究不仅仅是为了好玩，它有巨大的实用价值：

给 AI 装上“信任指南针”：
既然我们知道了 AI 脑子里“信任”长什么样，我们就可以调整它。
- 比喻：就像调音师调整吉他弦。如果我们希望 AI 表现得更有“信任感”，我们可以把“信任”的数学信号（向量）注入到它的思考过程中，强迫它更多地关注“能力”和“善意”，而不是其他无关的东西。
打造更安全的协作系统：
未来，我们可以用这个技术来监控 AI 是否真的“值得信任”，或者让 AI 在人类和机器合作时，更自然地建立信任关系。

总结

这篇论文就像是一次AI 心理体检。它告诉我们：

AI 确实能在其内部构建出复杂的“信任”概念，而且这种概念是有结构的。
AI 目前的“信任观”最接近社会认知理论（看重意愿和承诺），而不是纯粹的数据统计。
AI 对“风险”的理解还比较生硬，这是未来需要改进的地方。

简单来说，作者们通过“透视”AI 的大脑，发现它虽然还没完全像人类那样理解信任，但它已经具备了理解信任的骨架。只要我们懂得如何调整它的“神经信号”，就能让它变得更可靠、更懂人心。

Evaluating LLM Alignment With Human Trust Models

1. 核心任务：给 AI 的“信任”做个 CT 扫描

2. 实验过程：寻找 AI 的“信任配方”

3. 惊人的发现：AI 最像“社会心理学家”

4. 这意味着什么？（未来的应用）

总结

论文技术总结：基于人类信任模型评估大语言模型的对齐性

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 核心模型选择

2.2 技术流程

3. 关键贡献 (Key Contributions)

4. 研究结果 (Results)

4.1 概念空间结构

4.2 模型对齐度排名

4.3 理论偏差发现

5. 意义与影响 (Significance)

Evaluating LLM Alignment With Human Trust Models

1. 核心任务：给 AI 的“信任”做个 CT 扫描

2. 实验过程：寻找 AI 的“信任配方”

3. 惊人的发现：AI 最像“社会心理学家”

4. 这意味着什么？（未来的应用）

总结

论文技术总结：基于人类信任模型评估大语言模型的对齐性

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 核心模型选择

2.2 技术流程

3. 关键贡献 (Key Contributions)

4. 研究结果 (Results)

4.1 概念空间结构

4.2 模型对齐度排名

4.3 理论偏差发现

5. 意义与影响 (Significance)

类似论文

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem