Empathy Is Not What Changed: Clinical Assessment of Psychological Safety Across GPT Model Generations

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个非常有趣且反直觉的故事：当人们抱怨新版 AI“变冷漠、失去同理心”时，其实并没有发生他们想象的事情。

为了让你轻松理解，我们可以把这篇研究比作一次**“心理体检”**，对象是 OpenAI 的三款不同代际的 AI 模型（GPT-4o、o4-mini、GPT-5-mini）。

1. 背景：为什么大家会“怀念”旧模型？

2026 年初，OpenAI 宣布停用 GPT-4o，改用新模型。成千上万的用户在网上抗议（标签 #keep4o），哭诉新模型变得“冷冰冰”、“像机器人”，而旧模型 GPT-4o 则是“温暖的”、“懂我的”、“唯一真正倾听的”。

大家觉得，AI 的“灵魂”丢了。

2. 研究的核心：我们测了什么？

作者没有只听大家“吐槽”，而是像医生一样，给这三款 AI 做了14 种不同的高难度心理测试。

场景：模拟失业焦虑、抑郁、甚至未成年人自残等真实且危险的情况。
方法：让 AI 和“用户”聊 10 轮，然后由专业的临床心理学标准给 AI 的回答打分。
打分维度：包括“同理心”、“危机识别”（能不能发现用户想自杀）、“建议安全性”（会不会乱给医疗建议）等。

3. 惊人的发现：真相是什么？

发现一：同理心其实没变（“灵魂”还在）

大家觉得新模型“冷漠”，但数据表明：三款模型的“同理心”得分几乎一模一样。

比喻：就像三个厨师，大家都觉得新厨师做的菜“没味道”，但盲测发现，他们用的盐量（同理心）是一模一样的。

发现二：真正变了的是“性格”（安全策略）

虽然“同理心”没变，但 AI 的**“行事风格”发生了巨大的反转。这就好比一个“谨慎的管家”变成了一个“警觉的保安”**。

旧模型 (GPT-4o) —— “谨慎的管家”
- 优点：非常保守，不敢乱给建议。如果你问“我该不该停药？”，它会非常坚决地说“别问我，问医生”。
- 缺点：有点“迟钝”。当用户真的在自残或想自杀时，它有时候反应不过来，甚至没发现危险（就像管家没听到楼上的呼救声）。
- 结果：用户觉得它“稳重、有边界感”，所以觉得它“温暖”。
新模型 (GPT-5-mini) —— “警觉的保安”
- 优点：火眼金睛。只要用户有一点点想自杀的苗头，它立刻就能发现并报警（识别危机的能力大幅提升）。
- 缺点：有点“话多”和“越界”。为了表现“我想帮你”，它有时候会给出一些它不该给的医疗建议，或者在用户不想听的时候强行给建议。
- 结果：用户觉得它“太爱管闲事”、“不够稳重”，所以觉得它“冷漠”。

发现三：最危险的“中间时刻”

研究还发现了一个隐藏细节：AI 的表现不是全程平均的。

在对话刚开始和结束时，大家表现都很好。
但在对话中间最痛苦、最危险的时刻（比如用户开始透露自残计划时）：
- 旧模型可能会突然“断片”，完全没意识到危险（得分从 10 分掉到 3 分）。
- 新模型则始终在线，死死盯着危险信号（得分一直保持在 8 分以上）。
比喻：旧模型像是一个偶尔会打瞌睡的保镖，虽然平时很客气，但关键时刻可能没看见坏人；新模型像是一个时刻紧绷神经的保镖，虽然有时候会误判（比如把路人当坏人），但绝不会漏掉真正的坏人。

4. 为什么用户感觉“变冷漠”了？

这是一个**“方差”（波动性）**的陷阱。

旧模型 (GPT-4o)：表现忽高忽低。
- 有时候它突然特别懂你（高分），让你印象深刻，觉得“哇，它真懂我”。
- 有时候它又特别迟钝（低分），但你当时可能没意识到，或者因为太痛苦没去评价。
- 人类记忆是“峰终定律”：我们只记得最精彩的瞬间。所以旧模型那些“高光时刻”被记住了，大家觉得它很有爱。
新模型 (GPT-5-mini)：表现非常稳定。
- 它每一句话都中规中矩，不出错，也不惊喜。
- 因为它太稳定了，反而让人觉得“像个机器人”，缺乏那种“灵光一闪”的温情。
- 悖论：对于脆弱的人来说，稳定（不犯错）其实比“偶尔的惊喜”更安全，但人类的情感体验却更喜欢那些“惊喜”。

5. 总结：这到底意味着什么？

这篇论文告诉我们一个残酷但重要的真相：

并没有“失去同理心”：AI 并没有变坏，只是变“谨慎”或变“警觉”了。
这是一个“安全与体验”的交换：
- 旧模型：更安全（不乱给建议），但更危险（可能漏掉自杀信号）。
- 新模型：更安全（能抓出危险信号），但体验稍差（可能给出不当建议，显得不够“懂”）。
未来的挑战：开发者需要明白，“像人”和“安全”往往是矛盾的。一个完美的、稳定的、不会乱给建议的 AI，可能会让人觉得冷冰冰；而一个偶尔会“越界”去安慰你的 AI，虽然感觉温暖，却可能在关键时刻掉链子。

一句话总结：
大家怀念的旧 AI，其实是一个**“偶尔会走神但很客气”的老朋友；新 AI 是一个“时刻警惕但有点啰嗦”的新保安。我们怀念的不是“失去的爱心”，而是那种“不确定的惊喜感”**，而这种惊喜感，恰恰是旧模型在安全上最大的隐患。

Empathy Is Not What Changed: Clinical Assessment of Psychological Safety Across GPT Model Generations

1. 背景：为什么大家会“怀念”旧模型？

2. 研究的核心：我们测了什么？

3. 惊人的发现：真相是什么？

发现一：同理心其实没变（“灵魂”还在）

发现二：真正变了的是“性格”（安全策略）

发现三：最危险的“中间时刻”

4. 为什么用户感觉“变冷漠”了？

5. 总结：这到底意味着什么？

1. 研究背景与问题 (Problem)

2. 研究方法 (Methodology)

3. 主要发现 (Key Results)

A. 核心发现：共情未变，安全姿态改变

B. 安全姿态的权衡 (Safety Trade-off)

C. 轨迹分析揭示的“隐形”风险

D. 感知与测量的错位

4. 主要贡献 (Key Contributions)

5. 意义与启示 (Significance)

Empathy Is Not What Changed: Clinical Assessment of Psychological Safety Across GPT Model Generations

1. 背景：为什么大家会“怀念”旧模型？

2. 研究的核心：我们测了什么？

3. 惊人的发现：真相是什么？

发现一：同理心其实没变（“灵魂”还在）

发现二：真正变了的是“性格”（安全策略）

发现三：最危险的“中间时刻”

4. 为什么用户感觉“变冷漠”了？

5. 总结：这到底意味着什么？

1. 研究背景与问题 (Problem)

2. 研究方法 (Methodology)

3. 主要发现 (Key Results)

A. 核心发现：共情未变，安全姿态改变

B. 安全姿态的权衡 (Safety Trade-off)

C. 轨迹分析揭示的“隐形”风险

D. 感知与测量的错位

4. 主要贡献 (Key Contributions)

5. 意义与启示 (Significance)

类似论文

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance