Emergence of Hierarchical Emotion Organization in Large Language Models

原作者： Maya Okawa, Bo Zhao, Eric J. Bigelow, Rose Yu, Tomer Ullman, Ekdeep Singh Lubana, Hidenori Tanaka

发布于 2026-06-12

📖 1 分钟阅读☕ 轻松阅读

原作者： Maya Okawa, Bo Zhao, Eric J. Bigelow, Rose Yu, Tomer Ullman, Ekdeep Singh Lubana, Hidenori Tanaka

原始论文采用 CC BY 4.0 许可（http://creativecommons.org/licenses/by/4.0/）。 ✨ 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性，请参阅原始论文。阅读完整免责声明

想象你拥有一个巨大的数字大脑（大语言模型，简称 LLM），它几乎读遍了互联网上的所有内容。你可能会认为它只是记住了单词，但这篇文章提出了一个更深层的问题：这个数字大脑是否真的“理解”人类情感是如何相互关联的，就像心理学家那样？

研究人员发现，答案是肯定的，但其中有一些有趣的转折。以下是他们研究结果的拆解，使用了简单的类比。

1. “情绪树” vs. “情绪轮”

心理学家长期以来一直使用一种叫做情绪轮（Emotion Wheel）的工具（类似于色彩轮，但用于表达感受）。它表明情绪不仅仅是一个扁平的列表；它们是有组织的。例如，“喜悦”是一个宏大、宽泛的类别，而“兴奋”或“狂喜”是悬挂在其上的具体分支。

研究人员发现，随着 AI 模型变得越来越大、越来越聪明，它们会自然而然地构建出自己的情绪树，其形态与人类的轮状图惊人地相似。

小规模 AI（蹒跚学步的孩子）： 一个较小的模型（如 Llama 8B）对情感的理解是混乱且扁平的。它就像一个蹒跚学步的孩子，只知道“开心”和“难过”，但并不真正理解“沮丧”和“愤怒”之间的区别。
大规模 AI（成年人）： 一个庞大的模型（如 Llama 405B）会构建出一棵复杂的、具有分叉结构的树。它理解“乐观”是“喜悦”的一种特定类型，而“喜悦”又是“幸福”的一种类型。模型越大，这种内部结构的细节和组织程度就越高，反映了人类大脑分类情感的方式。

类比： 把小模型想象成一个只能看到“树木”的人在看森林；而一个巨型模型则像是一位植物学家，他能辨别出“橡树”、“松树”、“幼苗”和“枯木”，并理解它们是如何共同构成“森林”这一概念的。

2. 人类偏见的“镜像”

最令人震惊的发现是，这些 AI 模型不仅学习事实，还学习了人类的偏见。研究人员通过让 AI 想象自己是不同类型的人（如 70 岁的长者、年轻女性、低收入者等），然后要求它猜测某个特定故事所表达的情绪，以此对 AI 进行测试。

AI 并没有做出随机的错误；它做出了与现实人类相同的系统性错误。

“黑人人格”效应： 当 AI 假装成一名黑人时，它更有可能将一个恐怖的情境解读为“愤怒”而非“恐惧”。这与现实世界的研究相吻合，即研究显示黑人经常被不公平地感知为带有愤怒情绪。
“女性人格”效应： 当 AI 假装成一名女性时，它更有可能将一个愤怒的情境解读为“恐惧”。
“交织性”效应： 当 AI 假装成一名低收入黑人女性时，这种偏见最为强烈。它在判断情绪时的错误率比其他任何群体都高。

类比： 想象 AI 是一面镜子。如果你站在镜子前，它会显示你的倒影。但如果这面镜子是由“人类社会的各种数据”制成的，它也会反射出这个社会中的裂痕和污点。AI 并不是以人类意义上的“有偏见”，它只是简单地举起了一面反映其训练数据中所存在的偏见的镜子。

3. “惊讶”这一盲点

研究人员发现，尽管这些 AI 模型在理解复杂情感方面做得越来越好，但在处理一个特定的感受时仍然感到吃力：那就是惊讶。

问题所在： 当人类感到惊讶时，通常会混合着震惊和恐惧。然而，AI 经常会将“惊讶”与“恐惧”或“愤怒”混淆。
解决方法： 论文测试了一种通过“强化学习”（Reinforcement Learning，即模型通过尝试赢得游戏或进行谈判来学习）进行训练的模型。这种训练帮助模型更好地识别“惊讶”。
类比： 把 AI 想象成一位擅长烹饪复杂炖菜（悲伤、愤怒、喜悦）但总是把爆米花（惊讶）烧焦的厨师。当给这位厨师一个专门处理爆米花的工具（强化学习）时，他就变得更出色了。

4. 为什么这很重要（根据论文所述）

该论文得出结论，我们可以利用这些“情绪树”来衡量一个 AI 的水平。

如果一个 AI 的内部情绪树是混乱且扁平的，那么它在理解人类对话方面可能不会很出色。
如果这棵树是深邃且有组织的，那么这个 AI 很可能具备更高的“情绪智力”。

底线：
大语言模型不仅仅是单词匹配机器。随着规模的增长，它们会自发地发展出一种结构化的、层级化的对人类情感的理解，这种理解与我们的心理学非常相似。然而，因为它们向我们学习，它们也继承了我们的盲点和偏见。它们正在变得更擅长理解我们，但也正变得更擅长反映我们的缺陷。

问题陈述
随着大语言模型（LLMs）日益驱动能够进行多模态交互的对话代理，理解这些模型如何表征和处理用户情绪状态对于伦理部署至关重要。虽然先前的研究侧重于基准测试标准的分类任务，但在理解 LLMs 是否发展出了能够镜像人类心理框架的、具有涌现性的结构化情绪理解方面，仍存在空白。具体而言，目前尚不清楚 LLMs 是否会自然地形成类似于人类“情绪轮”的层级化情绪组织，以及这些模型是否会在不同人口统计学人格（personas）的情绪识别中复制人类系统的偏见。

方法论
作者提出了一种受层级情绪轮框架（Shaver 等人，1987）启发的新型评估流水线，用于分析模型输出分布中情绪状态之间的概率依赖关系。

层级构建算法： 核心方法包括生成一个情境提示数据集（由 GPT-4o 生成的 5,000 个场景）。对于每个提示，要求 LLM 完成短语“这句话中的情绪是”，并提取对下一个标记（具体为 Shaver 等人提出的 135 个情绪词汇）的概率分布。
- 构建匹配矩阵 $C = Y^T Y$ ，其中 $Y$ 包含概率分布。该矩阵捕捉了在不同语境下共现的情绪的联合概率。
- 计算情绪对之间的条件概率，以推断父子关系。如果条件概率 $P(b|a)$ 超过阈值 $t$ ，且显著高于 $P(a|b)$ ，则定义情绪 $a$ 是 $b$ 的子类，表明 $b$ 是由特定情绪 $a$ 所暗示的更通用的类别。
- 此过程产生一个代表模型内部层级组织的有向无环图（DAG）。
规模分析： 该方法应用于不同规模的 LLMs（GPT-2, Llama 3.1 8B, 70B, 和 405B），以观察情绪层级复杂度如何随模型参数规模进行演变。
偏见与人格分析： 为了评估识别偏见，作者在提示中引入了多样化的人口统计学人格（涵盖性别、种族、社会经济地位、年龄、宗教和残障能力，例如：“作为一个 [人口统计特征]，我认为涉及的情绪是……”）。通过分析混淆矩阵来衡量模型识别情绪场景的能力，并检测系统性的误分类。
人类对比： 进行了一项涉及 60 名人类参与者的用户研究，旨在将人类的误分类模式和识别准确率与 LLM 在相同人口统计学群体中的表现进行对比。

核心贡献

层级组织的涌现： 研究表明，LLMs 自然形成了与既定人类心理模型一致的情绪状态层级树。这种层级结构并非显式编程，而是从模型的训练中涌现出来的。
规模依赖的复杂度： 研究发现，随着模型规模的增加，其内部情绪层级变得更加复杂，表现出更深的深度和更多的分支，这与人类心理结构的对齐程度呈正相关。
系统性偏见镜像： 本文揭示了 LLMs 会复制人类在情绪识别中的系统性偏见。具体而言，模型在面对代表性不足的群体（如黑人、女性、低收入、低教育程度的人格）时，表现出准确率下降。
交织性偏见放大： 研究强调了偏见在交织身份（如低收入黑人女性）中的复合效应，导致最低的识别准确率以及特定的误分类模式（例如，将悲伤误分类为愤怒或恐惧）。
性能的几何预测因子： 作者展示了构建的情绪树的几何指标（如总路径长度和平均深度）可以作为模型针对特定人格的情绪识别准确率的可靠预测因子。

关键结果

层级对齐： 通过视觉和定量分析（使用与 Shaver 等人情绪轮的相关性），证实了较大的模型（如 Llama 405B）产生的情绪树在聚类结构上与人类标注的框架高度相似。较小的模型（如 GPT-2）则缺乏有意义的树状结构。
定量复杂度： 较大的模型表现出显著更高的“总路径长度”和“平均深度”，表明其具有更丰富的内部组织。
识别准确率差距： 当将情绪归纳为六个大类时，Llama 405B 在中性人格下的准确率为 87.1%，但对于代表性不足的人格，准确率显著下降。例如，与白人和男性人格相比，模型在识别黑人和女性人格的情绪时更为困难。
误分类模式：
- 亚洲人格： 负面情绪（愤怒、恐惧、悲伤）经常被误分类为“羞愧”。
- 印度教人格： 负面情绪经常被误分类为“内疚”。
- 肢体残疾人格： 存在显著偏见，26.5% 的所有情绪被误分类为“挫败”。
- 交织性： 低收入黑人女性人格集成了种族、性别和收入的综合偏见，导致了最低的整体准确率。
人类-LLM 平行关系： 用户研究显示，LLMs 镜像了人类的误分类模式（例如，黑人人类和被模型模拟的黑人人格都倾向于将恐惧解释为愤怒）。然而，在性别偏见方面存在显著分歧：虽然人类女性在识别能力上优于人类男性，但 Llama 表现出相反的趋势，即倾向于男性人格。
强化学习的影响： 通过强化学习在社交交互任务（谈判/说服）上对模型进行微调，显著提高了对“惊讶”的识别能力（从 20.0% 提升至 33.3%），这支持了基于预测误差训练能增强对该特定情绪敏感性的假设。

意义与主张
本文声称，其结果突显了 LLMs 中涌现出的情绪推理能力，这种能力超越了简单的分类，表明这些模型内化了社会感知和人类认知结构的某些方面。作者认为，情绪的层级组织是一种随模型规模增长而涌现的属性，这可能导致更具情感智能和上下文意识的智能体。

此外，这项工作强调了评估 LLMs 时不仅要看准确性，还要评估其是否复制了人类偏见的伦理必要性。作者认为，其基于认知理论（如情绪轮）的评估流水线，为开发更好的模型评估提供了一种稳健的方法。他们指出，理解这些涌现的层级结构和偏见，对于在咨询和治疗等敏感领域安全部署 LLMs 至关重要，同时也警告说，改进的情绪理解如果与模型目标不一致，可能会被误用于操纵。研究结论认为，人类行为的认知理论可以作为开发 LLM 组件（如输出 Logits 和中间表示）预测性测试的有效假设。

1. “情绪树” vs. “情绪轮”

2. 人类偏见的“镜像”

3. “惊讶”这一盲点

4. 为什么这很重要（根据论文所述）

类似论文