📄 health informatics

Data-Driven Hybrid Model of SARIMA-CNNAR For Tuberculosis Incidence Time Series Analysis in Nepal

该研究利用尼泊尔 2015 至 2024 年的结核病月度发病数据，开发并验证了一种结合 SARIMA 线性建模与 CNNAR 非线性特征提取的混合预测模型，其预测精度显著优于 SARIMA、LSTM、Prophet 等单一或主流基准模型，为尼泊尔结核病防控及资源分配提供了高精度的决策支持工具。

原作者： Singh, D. B., Dawadi, P. R., Dangi, Y.

发布于 2026-02-24

📖 1 分钟阅读☕ 轻松阅读

CC BY 4.0

原作者： Singh, D. B., Dawadi, P. R., Dangi, Y.

原始论文采用 CC BY 4.0 许可（https://creativecommons.org/licenses/by/4.0/）。 ⚕️ 这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。阅读完整免责声明

这是一篇关于如何利用“混合智能”预测尼泊尔结核病（TB）发病趋势的研究论文。为了让你轻松理解，我们可以把这项研究想象成**“给尼泊尔的结核病疫情请了一位超级天气预报员”**。

以下是用通俗语言和生动比喻对这篇论文的解读：

1. 背景：为什么需要这位“天气预报员”？

现状： 在尼泊尔，结核病就像一场反复发作的“流行感冒”，而且情况越来越严重。从 2015 年到 2024 年，每月的病例数从平均 2000 多例涨到了 3400 多例（增长了近 70%）。
痛点： 政府需要知道下个月、明年这个时候会有多少人得病，才能提前准备药箱、安排医生和检测仪器。如果预测不准，要么药不够用（导致病人没药吃），要么药太多浪费（浪费国家钱）。
挑战： 过去的预测方法要么太死板（只看直线趋势），要么太复杂（像乱猜）。特别是新冠疫情（2020-2021）打乱了原本的规律，让旧方法失效了。

2. 核心方案：打造“混合超级大脑”

研究人员没有只选一种方法，而是发明了一个**“双剑合璧”的混合模型**，叫 SARIMA-CNNAR。我们可以把它想象成**“老练的会计” + “敏锐的侦探”** 组成的搭档：

搭档 A：SARIMA（老练的会计）
- 擅长： 处理规律。它非常擅长计算像季节变化这种“死板”的规律。比如，它知道尼泊尔每年春天（3-5 月）和夏末（7-8 月）结核病都会高发，就像会计知道每年年底要结账一样。
- 缺点： 它太死板了。如果发生像新冠疫情这样的突发事件，或者数据里有一些奇怪的“小脾气”（非线性波动），它就看不出来了，只能算出个大概。
搭档 B：CNNAR（敏锐的侦探）
- 擅长： 捕捉异常和细节。它像是一个拥有超级大脑的侦探，专门负责找“会计”算错或没算到的地方。它能发现数据里那些复杂的、非线性的“小秘密”和突发模式。
- 缺点： 如果让它从头算起，它可能会因为太关注细节而忽略了大趋势，或者算得太慢。
混合模式（1+1 > 2）：
- 工作流程： 先让“会计”（SARIMA）算出大趋势和季节规律。然后，把“会计”算剩下的误差（也就是它没算准的部分）交给“侦探”（CNNAR）去分析。
- 比喻： 就像你请了一位老会计算出你每月的平均开销，但他算不准你偶尔的冲动消费。于是你请了一位侦探专门分析那些“冲动消费”的规律。最后，把两者的结果加起来，你就得到了最精准的预算。

3. 实验过程：十年数据的“大考”

教材： 研究人员用了尼泊尔国家结核病控制中心提供的10 年（2015-2024）真实数据，共 120 个月。
考试： 他们把前 9 年的数据用来“训练”模型（让模型学习），把最后 1 年（2024 年）的数据用来“考试”（看模型预测得准不准）。
竞争对手： 为了证明这个“混合搭档”厉害，他们还拉来了其他几位高手来 PK：
- 只有“会计”的模型（SARIMA）
- 只有“侦探”的模型（CNNAR）
- 其他流行算法：LSTM（一种很火的神经网络）、XGBoost（机器学习大佬）、Prophet（Facebook 开发的预测工具）。

4. 考试结果：谁是冠军？

冠军：混合 SARIMA-CNNAR 模型 🏆

成绩： 它的预测误差最小（MAPE 仅为 7.26%），解释能力最强（R²达到 0.79）。
表现： 它成功预测了 2024 年的发病高峰，并且能准确指出每年的发病高峰都在3-5 月和7-8 月。
对比：
- 只有“会计”（SARIMA）表现最差，因为它被疫情打乱了节奏，完全跟不上。
- 只有“侦探”（CNNAR）表现不错，但不如搭档组合完美。
- 其他竞争对手（如 Prophet）在复杂数据面前显得有些力不从心。

关键发现：

疫情后的反弹： 2020 年疫情导致病例数暂时下降（大家不敢去医院了），但 2022 年后病例数不仅恢复了，还创了新高。
季节性依旧： 无论怎么变，尼泊尔的结核病依然喜欢“扎堆”在特定的月份爆发。

5. 这对普通人意味着什么？（实际应用）

这个模型不仅仅是一堆数字，它是尼泊尔卫生部门的**“作战地图”**：

提前备货： 既然模型预测明年 3-5 月是高峰，政府就可以提前把检测试纸、药物运到这些月份需要的地方，避免“临时抱佛脚”。
人员调度： 可以在预测的高峰期前，提前安排更多的医生和护士值班。
精准宣传： 在发病高峰来临前，针对特定地区开展宣传活动，告诉大家“注意防护”。
应对突发： 如果实际数据突然偏离了预测（比如突然暴增），这就发出了警报，提示可能有新的疫情爆发或检测系统出了问题。

6. 总结与局限

优点： 这是尼泊尔第一个经过验证的、专门针对结核病的混合预测模型。它证明了把“传统统计”和“现代人工智能”结合起来，比单用哪一种都管用。
小瑕疵： 模型在预测 2024 年最高峰时，稍微低估了一点点（就像天气预报说下雨，结果下得比预报的还大）。但这在医学预测中是可以接受的，而且模型给出了一个“安全范围”（置信区间），提醒决策者要留有余地。

一句话总结：
这项研究就像给尼泊尔的结核病防控装上了一个**“智能导航仪”。它不再只是看着后视镜（过去的数据）开车，而是能结合路况（季节规律）和突发状况（疫情干扰），精准地告诉医生和政府：“前方 3 个月是拥堵高峰，请提前准备好燃料和备用轮胎！”** 这让公共卫生决策变得更加聪明和主动。

这是一份关于《基于数据驱动的 SARIMA-CNNAR 混合模型用于尼泊尔结核病发病率时间序列分析》论文的详细技术总结。

1. 研究背景与问题 (Problem)

公共卫生挑战：结核病（TB）是尼泊尔的主要公共卫生挑战，其发病率远高于全球估计值。尼泊尔的 TB 患病率和发病率分别是估计值的 1.8 倍和 1.6 倍，死亡率更是高出 3.1 倍。
预测需求：准确的发病率预测对于早期预警系统、资源分配（如诊断试剂、药物、人力）以及针对性干预至关重要。
现有模型局限：
- 现有的预测模型多基于高收入或中等收入国家的数据，难以直接推广到资源有限且流行病学特征不同的低资源环境（如尼泊尔）。
- 传统线性模型（如 SARIMA）难以捕捉复杂的非线性趋势和结构性断裂（如新冠疫情期间的数据异常）。
- 现有的深度学习模型（如前馈神经网络）在处理时间序列的局部模式和自回归结构方面存在局限性。
研究缺口：此前尚无针对尼泊尔 TB 数据的混合模型验证研究，且缺乏结合卷积架构的自回归模型（CNNAR）在该领域的应用。

2. 方法论 (Methodology)

2.1 数据来源与预处理

数据：来自尼泊尔国家结核病控制中心（NTCC），通过 DHIS2 平台获取。
时间跨度：2015 年 1 月至 2024 年 12 月（共 120 个月）。
划分：训练集（2015-2023，108 个月），测试集（2024 年，12 个月）。
预处理：
- 缺失值：使用卡尔曼滤波（Kalman Filtering）插补，以保留时间序列的潜在状态结构。
- 异常值：使用 IQR 方法识别，真实异常值进行截断处理。
- 标准化：Min-Max 归一化（仅基于训练集参数）。
- 日历转换：将尼泊尔历（Bikram Sambat）转换为公历。

2.2 模型架构：SARIMA-CNNAR 混合模型

该研究提出了一种串联混合模型，旨在结合线性模型的稳健性和深度学习模型的非线性捕捉能力：

SARIMA 组件（线性部分）：
- 用于捕捉数据的线性趋势和季节性模式。
- 最优模型选定为 SARIMA(1,1,1)(1,1,1)[12]。
- 输出为线性预测值 $\hat{y}_{linear}$ 。
CNNAR 组件（非线性部分）：
- 输入：SARIMA 模型的残差（ $e_t = y_t - \hat{y}_{linear}$ ）。
- 架构：卷积神经网络（CNN）提取局部时间特征，结合自回归（AR）机制。
- 优势：相比 LSTM，CNNAR 具有更好的并行化能力，参数更少（降低过拟合风险），且能有效捕捉局部时间模式。
- 输出：非线性残差预测值 $\hat{y}_{nonlinear}$ 。
最终预测：
- $y_{final} = \hat{y}_{linear} + \hat{y}_{nonlinear}$
- 即：混合预测 = SARIMA 预测 + CNNAR 对残差的修正。

2.3 基准模型与评估

对比模型：
- 单一模型：SARIMA, CNNAR。
- 先进基准：LSTM（长短期记忆网络）, Facebook Prophet, XGBoost。
评估指标：平均绝对误差 (MAE), 均方根误差 (RMSE), 平均绝对百分比误差 (MAPE), 决定系数 ( $R^2$ )。
验证方法：5 折时间序列交叉验证，敏感性分析（测试参数波动对结果的影响）。

3. 关键贡献 (Key Contributions)

首创尼泊尔 TB 混合预测模型：这是首个在尼泊尔验证的 SARIMA-CNNAR 混合模型，填补了特定流行病学背景下预测工具的空白。
方法论创新：证明了将线性季节性建模（SARIMA）与非线性残差捕捉（CNNAR）相结合，优于单一模型和当前最先进（SOTA）的基准模型。
结构性断裂分析：识别了数据中的三个关键结构性断裂点（2020 年 4 月疫情封锁、2021 年 10 月恢复期、2022 年 6 月后疫情稳定期），并验证了混合模型在处理这些非平稳数据时的鲁棒性。
可解释性与实用性：提供了 2025 年的详细月度预测，并量化了不确定性（95% 置信区间），直接服务于公共卫生决策。

4. 研究结果 (Results)

4.1 流行病学趋势

发病率激增：尼泊尔 TB 月均发病率从 2015 年的 2,048 例上升至 2024 年的 3,447 例，增幅达 68.4%。
季节性特征：呈现明显的双峰模式，高峰期为 3-5 月 和 7-8 月，低谷期为 2 月和 9 月。
疫情冲击：2020 年因疫情导致检测率下降，发病率出现异常低谷，随后在 2021-2022 年迅速反弹并超过疫情前水平。

4.2 模型性能对比（测试集 2024 年数据）

混合模型在各项指标上均表现最佳：

模型	MAE	RMSE	MAPE (%)	$R^2$
SARIMA-CNNAR (混合)	248.35	294.31	7.26	0.79
CNNAR	251.08	336.55	7.70	0.73
LSTM	267.91	324.55	7.52	0.75
XGBoost	314.74	373.99	8.51	0.66
Prophet	371.15	478.40	10.49	0.45
SARIMA	401.11	503.93	10.99	0.39

关键发现：
- 混合模型的 MAPE 为 7.26%，显著优于单一 SARIMA (10.99%) 和 Prophet (10.49%)。
- $R^2$ 达到 0.79，表明模型解释了 79% 的方差，而单一 SARIMA 仅解释了 39%。
- 残差分析显示，SARIMA 残差中存在显著的非线性模式（BDS 检验 p<0.01），证实了引入 CNNAR 的必要性。

4.3 2025 年预测

模型预测 2025 年将继续保持季节性波动，预计高峰出现在 3-5 月和 7-8 月。
预测 2025 年 5 月可能达到峰值（约 4,196 例），全年呈现先升后降再升的趋势。

4.4 敏感性分析

模型对参数变化（如 SARIMA 阶数、CNNAR 滤波器数量、学习率等）表现出高度鲁棒性。
在不同参数配置下，测试集 MAPE 始终保持在 8.5% 以下， $R^2$ 保持在 0.74 以上。
即使排除疫情期间的数据重新训练，模型性能虽有轻微下降（MAPE 升至 8.2%），但仍保持稳健，说明包含异常期数据有助于提高泛化能力。

5. 意义与影响 (Significance)

公共卫生决策支持：
- 资源优化：预测结果可指导尼泊尔国家结核病控制在高峰月份（3-5 月）提前部署诊断试剂（如 GeneXpert cartridge）、增加实验室班次和动员筛查队伍。
- 早期预警：能够提前 12 个月识别季节性高峰，帮助卫生部门从被动应对转向主动干预。
方法论推广：
- 该混合框架（线性 + 非线性残差学习）可推广至其他季节性传染病（如流感、登革热）的预测。
- 特别适用于数据量有限但存在复杂非线性特征的低收入国家环境。
局限性说明：
- 模型未纳入气象、人口流动等外部变量（受限于实时数据获取）。
- 测试集存在轻微的系统性低估（平均残差 +126 例），这可能源于疫情后发病率的非线性激增超出了历史模式，未来可探索非对称损失函数来优化对高发病期的预测。

总结：该研究通过构建 SARIMA-CNNAR 混合模型，成功解决了尼泊尔 TB 发病率预测中线性与非线性特征共存的问题，提供了目前最准确的预测工具，为资源受限环境下的精准公共卫生规划提供了强有力的数据支撑。