Predicting PANSS symptoms in schizophrenia spectrum disorders using speech only: an international, multi-centre, retrospective, computational study across multiple languages

He, R., Kirdun, M., Palominos, C., Navarrete Orejudo, L., Barthelemy, S., Bhola, S., Ciampelli, S., Decker, A., Demirlek, C., Fusaroli, R., Garcia-Molina, J. T., Gimenez, G., Huppi, R., Koelkebeck, K., Lecomte, A., Qiu, R., Simonsen, A., Tourneur, V., Verim, B., Wang, H., Yalincetin, B., Yin, S., Zhou, Y., Amblard, M., Ayesa Arriola, R., Bora, E., de Boer, J., Figueroa-Barra, A. I., Koops, S., Musiol, M., Palaniyappan, L., Parola, A., Spaniel, F., Tang, S. X., Sommer, I. E., Homan, P., Hinzen, W.

发布于 2026-02-28

📖 1 分钟阅读☕ 轻松阅读

查看于 medRxiv ↗PDF ↗

⚕️

这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一项非常前沿的研究，我们可以把它想象成给精神分裂症（Schizophrenia）患者开发了一套“声音听诊器”。

传统的医生诊断病情，就像是用听诊器听心跳，或者靠问话来了解病人的状态。但这需要医生花大量时间，而且不同医生的判断可能不一样。这项研究的目标是：能不能只通过病人说话的声音（不需要看文字稿），就用电脑自动分析出他们病情的严重程度？

以下是用通俗语言和比喻对这项研究的解读：

1. 核心任务：从声音里“听”出病情

精神分裂症患者的病情会像天气一样波动，有时好转，有时复发。医生通常使用一种叫 PANSS 的评分表来给症状打分（比如幻觉、思维混乱、情感淡漠等）。

以前的做法：医生面对面访谈，手动打分。
现在的做法：研究人员收集了来自全球 10 个国家的 453 位患者的录音。他们把录音切成几千个小片段，然后训练人工智能（AI）模型，让这些模型直接“听”声音，预测出医生原本要打的分数。

比喻：这就好比以前我们要知道苹果甜不甜，得切开尝一口（人工访谈）；现在科学家训练了一个 AI，只要对着苹果听它发出的声音（或者看它的表皮纹理），就能猜出它有多甜，而且猜得很准。

2. 最大的突破：跨越语言的“通用翻译官”

以前的研究大多只用英语，就像只学会了用英语开车，到了讲中文或土耳其语的地方就懵了。

这项研究的亮点：他们收集了10 种不同语言（包括英语、中文、西班牙语、土耳其语、捷克语等）的数据。
技术魔法：他们使用了一种叫 mHuBERT 的“预训练模型”。你可以把它想象成一个精通全球所有语言的超级耳朵。它不需要先听懂你在说什么（不需要把语音转成文字），而是直接分析声音的音调、节奏、停顿和语气。
结果：即使对于像捷克语这样资料很少的“小语种”，这个模型也能工作得很好。这意味着，无论患者说什么语言，这套系统都能用。

3. 怎么做的？（像切蛋糕一样分析声音）

研究人员没有把整段对话当成一个整体，而是像切蛋糕一样，把录音切成了 6600 多块小片段（每块不超过 60 秒）。

特征提取：他们提取了两种“声音指纹”：
1. 声学特征：比如声音的高低、快慢、响度（就像分析一个人的步态）。
2. 深度学习嵌入：这是 AI 自己学到的声音深层规律（就像 AI 能感觉到一个人说话时的“情绪氛围”）。
模型训练：他们试了 16 种不同的算法，最后发现，直接分析声音深层规律的 AI 模型（不需要人工提取特征）表现最好。

4. 结果如何？（准不准？）

准确度：医生打分通常是 1 到 7 分。这个 AI 模型的预测误差平均在 1.5 分以内。
- 比喻：如果医生给病人打 4 分，AI 可能会猜出 2.5 到 5.5 分之间。在医学预测领域，这已经是非常惊人的准确度了，足以作为辅助工具。
哪里最准？：对于“情感淡漠”（N1）和“缺乏自发性”（N6）这类阴性症状，AI 猜得特别准。
哪里有点难？：对于病情非常严重的病人，AI 的准确度会稍微下降。这就像天气预报，对于普通的晴天或雨天很容易预测，但对于极端的暴风雨，预测难度会变大。

5. 公平性检查：会有偏见吗？

大家很担心 AI 会不会歧视某些人（比如只听得懂年轻人的话，或者只适合男性）。

检查结果：研究人员专门检查了年龄、性别、受教育程度。
结论：除了男性在“情感淡漠”这一项上预测稍差一点点外，其他方面没有发现明显的偏见。这意味着这套系统对不同背景的人都是相对公平的。

6. 为什么这很重要？（未来的应用）

低成本、高效率：不需要昂贵的设备，手机录个音就能分析。
早期预警：就像汽车仪表盘上的“故障灯”。如果 AI 发现病人的声音模式开始变得“不对劲”（比如语速变慢、停顿变多），可能意味着病情快要复发了。
减轻医生负担：医生不需要每次都从头到尾做复杂的评分，AI 可以先提供一个参考，让医生把精力集中在最关键的决策上。

总结

这项研究就像是为精神科医生配备了一副全球通用的“智能听诊器”。它不需要医生懂十种语言，也不需要把录音转成文字，只要听声音，就能大致判断出病人的病情严重程度。

虽然它还不能完全取代医生（毕竟病情很复杂），但它是一个强大的辅助工具，能帮助我们在病情恶化前更早地发现信号，让治疗更及时、更精准。

一句话概括：科学家训练了一个能听懂全球各种语言声音的 AI，它能通过病人说话的语气和节奏，准确地预测精神分裂症的严重程度，为未来的远程医疗和早期预警打开了大门。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于利用语音数据预测精神分裂症谱系障碍（SSD）患者 PANSS 症状评分的学术论文的详细技术总结。

1. 研究背景与问题 (Problem)

精神分裂症谱系障碍的症状会随时间波动，复发（Relapse）通常表现为症状的显著恶化。目前，识别复发相关的症状波动主要依赖临床医生使用正性和阴性症状量表（PANSS）进行评分，这一过程耗时且劳动密集。
尽管已有研究尝试利用自发语音分析来评估精神疾病，但现有工作存在以下关键局限：

数据规模小且单一： 大多数研究样本量小（通常<50 人），且主要集中在英语等单一语言，缺乏跨语言泛化能力。
依赖文本转录： 许多方法需要先进行人工转录或使用自动语音识别（ASR），这在低资源语言或嘈杂的临床录音中容易引入误差和偏差，且成本高昂。
缺乏对具体症状的细粒度预测： 现有研究多关注分类任务（高/低症状）或总分，缺乏对特定复发相关症状项（如幻觉、思维混乱等）的回归预测。

本研究旨在解决上述问题，构建一个大规模、多中心、多语言的语音数据集，并开发**仅基于语音（无转录）**的模型，以自动、客观地预测 PANSS 量表中与复发相关的 8 个具体症状项的严重程度。

2. 方法论 (Methodology)

2.1 数据收集与处理

数据来源： 整合了来自全球 10 个中心的 453 名精神分裂症谱系障碍患者的数据。
语言覆盖： 涵盖 10 种语言/方言（捷克语、英语、西班牙语、智利西班牙语、法语、瑞士德语、荷兰语、土耳其语、德语、中文），包括低资源语言。
任务类型： 包含五种语音 elicitation 任务：自由交谈、图片描述、梦境报告、朗读和回忆。
数据预处理：
- 人工去噪（去除访谈者声音）并按任务分割。
- 将录音切分为长度 $\le$ 60 秒的片段，共生成 6,664 个片段。
- 排除短于 10 秒的片段（除非是最后一段）。
标签： 目标变量为 8 个 PANSS 项目评分（1-7 分制）：
- 阳性症状：P1（妄想）、P2（概念紊乱）、P3（幻觉行为）。
- 阴性症状：N1（情感平淡）、N4（被动/退缩）、N6（缺乏自发性和交流流畅度）。
- 一般症状：G5（姿势和做作）、G9（不寻常的思维内容）。

2.2 特征提取

研究采用了三种特征集进行对比：

声学 - 韵律特征 (Acoustic-Prosodic)： 使用 OpenSmile (eGeMAPSv02) 提取 88 个功能特征，并结合 Prosogram 提取 31 个细粒度韵律特征。
预训练多语言嵌入 (Pretrained Multilingual Embeddings)： 使用 mHuBERT-147 模型（utter-project/mHuBERT-147）。这是一个在 9 万小时多语言数据上预训练的自监督模型，直接将波形转换为高维嵌入，捕捉超越预定义声学特征的联合模式（包括发音、韵律和片段上下文）。
拼接特征： 上述两者的结合。

2.3 建模与评估

算法对比： 测试了 16 种算法，包括 14 种传统机器学习回归器（如岭回归、随机森林、XGBoost 等）和 2 种前馈神经网络（MLP，2 层和 3 层）。
数据划分： 按**参与者（Speaker-disjoint）**进行划分，防止数据泄露。比例为 80% 训练集、10% 验证集、10% 测试集。划分时按语言和严重程度（二值化标签）分层。
评估指标： 主要使用均方根误差（RMSE），并在片段级别和参与者级别（中位数聚合）进行评估。
偏差检查： 对最佳模型进行了年龄、性别、教育程度和症状严重程度的偏差分析。

3. 关键贡献 (Key Contributions)

最大规模的多语言语音语料库： 构建了迄今为止包含患者数量最多（453 人）、语言种类最丰富（10 种）的精神分裂症语音数据集。
无转录（Transcript-free）方法： 证明了仅凭原始音频信号（无需人工或自动转录）即可有效预测具体的临床症状，降低了应用门槛和成本。
多语言泛化能力： 验证了基于预训练多语言嵌入的模型在低资源语言（如捷克语）上表现良好，支持从高资源语言到低资源语言的迁移学习。
细粒度症状预测： 不仅关注分类，还实现了对 8 个特定 PANSS 症状项的回归预测，且误差控制在临床可接受范围内。
开源与可复现性： 发布了训练好的模型和代码，并进行了严格的偏差和泛化性测试。

4. 主要结果 (Results)

4.1 预测性能

总体表现： 最佳模型在 8 个症状项上的预测误差（RMSE）均 $\le$ 1.5（PANSS 量表范围为 1-7）。
- 具体数值示例（片段/参与者级别）：
  - N6（缺乏自发性）：0.860 / 0.855
  - G5（姿势）：0.850 / 0.882
  - P2（概念紊乱）：1.318 / 1.107
  - P1（妄想）：1.494 / 1.527
特征对比： 预训练多语言嵌入（mHuBERT） 的表现显著优于传统的声学 - 韵律特征及其拼接组合。这表明自监督学习模型捕捉到了与症状相关的深层语言结构信息。
最佳模型： 不同症状项的最佳模型不同（例如，P2 由支持向量回归 SVR 预测最佳，而 P1、N4、G5 由 2 层 MLP 预测最佳）。

4.2 偏差与泛化性

人口学偏差： 模型在年龄、性别（除 N4 项男性预测略差外）和教育程度上未表现出系统性偏差。
任务无关性： 预测误差在不同语音任务（如自由交谈 vs. 图片描述）之间没有显著差异，表明模型具有任务鲁棒性。
症状严重度影响： 预测误差与症状严重程度呈正相关，即症状越严重，预测难度越大（误差越大）。这可能与训练数据中高严重度样本较少及高严重度下语音异质性增加有关。
外部验证： 在一个独立的、未参与训练的 5 人试点数据集（包含加泰罗尼亚语，训练集中未出现）上，模型表现依然相对稳健（除 P3 外，其他项 RMSE 较低），证明了良好的外部泛化能力。

5. 意义与展望 (Significance)

临床应用潜力： 该研究证明了语音可以作为评估精神分裂症症状严重程度的强大生物标志物。基于语音的自动评估工具具有低成本、可远程部署、低负担的特点，有望用于实时监测症状轨迹和早期预警复发。
技术突破： 展示了自监督多语言语音模型在精神病学领域的巨大潜力，无需依赖昂贵的转录或特定语言的资源即可实现跨语言应用。
未来方向：
- 需要在前瞻性研究中验证模型在预测实际复发事件中的效用。
- 需进一步解决高严重度症状下的预测精度问题。
- 结合文本特征（来自转录）和更先进的模型可能进一步提升性能。
- 需要关注并解决潜在的种族和民族偏见问题。

总结： 这项研究通过大规模多语言数据和先进的自监督学习技术，成功构建了仅基于语音的精神分裂症症状预测模型，为精神疾病的数字化评估和精准医疗提供了重要的技术基础和临床工具。