📄 psychiatry and clinical psychology

Artificial intelligence for detecting bipolar disorder in electronic health records of patients with affective diagnoses: a diagnostic accuracy study

这项诊断准确性研究利用哥伦比亚一家精神病院的 500 份电子健康记录，评估了一种基于自然语言处理的 AI 模型，结果显示其在提取临床领域方面具有高度一致性，并展现出改善情感性诊断患者双相情感障碍早期检测的潜力。

原作者： Ferro, E., Gomez-Puentes, A. M., Castano-Villegas, N., Monsalve Barrientos, K., Torres-Delgado, C., Ortiz, L., Esteban Cardenas, M. F., Zea, J.

发布于 2026-05-10

📖 1 分钟阅读☕ 轻松阅读

CC BY 4.0

原作者： Ferro, E., Gomez-Puentes, A. M., Castano-Villegas, N., Monsalve Barrientos, K., Torres-Delgado, C., Ortiz, L., Esteban Cardenas, M. F., Zea, J.

原始论文采用 CC BY 4.0 许可（https://creativecommons.org/licenses/by/4.0/）。 ⚕️ 这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。阅读完整免责声明

以下是用简单语言和创造性类比对该研究的解释。

大局观：在大海捞针

想象一位精神科医生就像一位试图解开谜团的侦探。患者是嫌疑人，他说：“我抑郁了。”但侦探怀疑真实情况更为复杂：患者实际上可能患有双相情感障碍，这是一种情绪在深度悲伤和极度亢奋（躁狂）之间剧烈波动的疾病。

问题在于，双相情感障碍往往被隐藏起来。当患者初次就诊时，他们通常只谈论“悲伤”的部分，因此医生往往将其作为普通抑郁症进行治疗。这就像试图在一堆巨大的干草中找到一根特定的针，但这根针被伪装得与干草一模一样。

这项研究提出了一个问题：计算机程序（人工智能）能否比人类更快、更好地阅读患者的病历，从而发现这些隐藏的“针”？

实验：人工智能 vs. 人类侦探

研究人员从哥伦比亚波哥大的一家精神病院调取了500 份真实的医疗档案。这些档案是用西班牙语书写的，包含医生随时间推移记录的杂乱、非结构化的笔记（就像患者生活的长篇、漫谈式的日记）。

他们使用了一种名为Arkangel AI的人工智能工具。可以将此人工智能想象成一台超快速、高度专注的阅读机器。

人类任务：由一组专家精神科医生手动阅读这些档案，以确定“真实情况”（即实际诊断）。
人工智能任务：人工智能扫描相同的档案，寻找与躁狂和抑郁相关的 18 个特定“线索”（症状），例如“睡眠极少”、“说话过快”或“感觉不可战胜”。

人工智能如何“阅读”笔记

人工智能并非凭空猜测；它被训练为寻找特定模式。

线索：它寻找 9 种“高涨”迹象（如易怒或思维奔逸）和 9 种“低落”迹象（如悲伤或精力丧失）。
转换：它将杂乱无章的人工手写笔记转化为整洁、有条理的检查清单。例如，如果医生写道：“患者称已三天未睡，但感觉精力充沛”，人工智能就会勾选“睡眠需求减少”这一项。

结果：速度与准确性

该研究将人工智能的检查清单与人类专家的最终裁决进行了比较。

1. 速度纪录
这是人工智能真正大放异彩的地方。

人类：人类评审员阅读并分析一份患者档案大约需要25 分钟。
人工智能：人工智能完成同样的工作仅需0.2 分钟（约 12 秒）。
类比：如果人类是蜗牛，那么人工智能就是法拉利。人工智能的速度比人类快120 倍。它处理完全部 100 份档案所需的时间，仅相当于人类喝一杯咖啡的时间。

2. 准确性

发现“针”：人工智能在发现确实患有双相情感障碍的患者方面表现出色。它捕捉到了**96%**的真实病例（敏感性）。它很少漏掉实际患有该疾病的患者。
避免误报：它在患者未患有双相情感障碍时说“不”的能力也相当强，正确率达到了84%（特异性）。
总体得分：如果给人工智能一张成绩单，它会得到A+（满分 1.0 得 0.93 分）。

人工智能的失误之处

人工智能并非在所有细节上都完美无缺。

“可能”区域：人工智能非常擅长判断“肯定是双相情感障碍”或“肯定不是双相情感障碍”。然而，它在中间地带（“高概率”或“某些概率”类别）变得有些困惑。
类比：想象人工智能是一位天气预报员。它非常擅长预测“晴天”或“暴风雨”。但当涉及到“多云”时，它有时难以决定哪个标签最贴切。人类专家更擅长做出这些微妙、细致的判断。

结论：得力的助手，而非替代品

该论文得出结论，这种人工智能工具是一个强大的筛查助手。

它可以在人类阅读几份档案的时间内阅读数千份档案。
它可以标记出可能被遗漏的患者，充当一张“安全网”，捕捉那些可能隐藏在抑郁症诊断噪音中的双相情感障碍病例。

重要提示：论文强调，这种人工智能不是医生的替代品。它是帮助医生更快工作并尽早发现更多病例的工具。最终诊断仍然需要人类专家来解读患者生活的复杂故事。

简而言之：人工智能是一位超快速的图书管理员，可以在庞大的图书馆中瞬间找到“双相情感障碍”类的书籍，但人类专家仍然需要阅读这些书籍以理解完整的故事。