用于战争后的创伤后应激障碍的机器学习预测模型

编译 | 曾全晨
审稿 | 王建民

今天为大家介绍的是来自Murray B. Stein团队的一篇论文。战争涉及到生命受威胁的重大经历，这可能导致创伤后应激障碍（PTSD），准确的在军事部署前预测PTSD风险可能有助于制定有针对性的干预策略。

创伤后应激障碍（PTSD）是一种令人严重痛苦的疾病，如果不接受治疗可能会变成慢性，与其他精神疾病共病和自杀有关。在可能经历创伤的人群，比如士兵中，准确预测军事部署前的PTSD风险可能有助于制定有针对性的预防或早期干预策略，从而减少个人痛苦和社会成本。为实现这一目标，作者使用在部署前通过自我报告问卷收集的预测因素，开发和验证了一种关于军事部署后PTSD的ML预测模型。

数据来源

作者使用了2012年被部署到阿富汗的3支美国陆军旅团的数据。研究参与者是从地理上分隔的三支旅团战斗队中招募的，作为陆军研究评估军人风险和适应能力的军队研究的部署前/部署后研究（PPDS）的一部分。在部署前，有9949名士兵在这三个队中，其中7742名完成了部署前调查，然后被派往阿富汗。作者的研究包括了完成了2次后续评估的4771名士兵。参与者在2012年前往阿富汗部署前1到2个月完成了一项自我管理的计算机化评估。来自复合国际诊断访谈筛查量表的问题评估了重大抑郁症、躁狂和/或亢奋症、惊恐障碍、广泛性焦虑障碍、注意力缺陷/多动症、间歇性爆发障碍和物质使用障碍的症状。使用哥伦比亚自杀严重性评定量表的扩展自我报告版本评估了自杀思想和行为。另外的测量评估了童年逆境和不当行为、终身创伤、6种当前和终身创伤后应激障碍症状、以前的部署经历、压力、应对方式、人口统计学特征、身体健康、伤害、心理健康治疗、单位经历、拥有武器、社交网络、宗教或灵性以及个性。这些测量得出了801个潜在的部署前预测因子。士兵部署约为10个月，并在部署结束后完成多达3次评估，分别在部署后的2到3周（PPDS T1）、2到3个月（PPDS T2）和8到9个月（PPDS T3）进行。T1评估包括4个创伤后应激障碍症状，并在部署结束后的几周内进行，这可能太早以至于无法区分创伤后应激障碍和可能会消退的急性应激反应，或者捕捉到延迟的创伤后应激障碍反应。因此，作者使用了一个二元结果，即在包括T2和T3的2到9个月后随访窗口内的任何时刻是否诊断为创伤后应激障碍（是或否）。作者选择了一个单一模型来预测在此窗口内的创伤后应激障碍，这个窗口的时间安排是为了排除急性应激反应，同时足够宽以捕捉大多数延迟的创伤后应激障碍反应。诊断是通过从创伤后应激障碍检查清单-民用版和复合国际诊断访谈筛查量表中改编的调查项目来确定的，这些项目与独立的临床诊断存在一致性。

统计分析

为了防止出现过拟合，导致模型性能估计过高，作者使用了时间和地理验证：模型是在2个队列的数据上开发和评估的（n = 3038），并且性能最佳的模型是在第三个队列的数据上进行测试的（n = 1733）。对于不能处理缺失预测数据的算法，创建了二进制缺失数据指示器，使用中位数（对于数值特征）或众数（对于分类特征）对缺失数据进行了插补，并标准化了数值特征。为防止信息泄漏，用于插补和标准化的值基于开发数据，并随后应用于测试数据。作者考虑了3种不同复杂性的建模策略：（1）多种算法的堆叠集成、（2）带惩罚的逻辑回归（弹性网络）模型，（3）梯度提升机（GBM）模型。最复杂的模型是梯度提升机（GBM）模型的堆叠集成，这些算法可以捕捉预测变量之间的高维、非参数化交互作用。

实验结果

表1

这项研究共有4771名参与者，平均年龄为26.9（6.2）岁；其中4440名（94.7%）为男性，278名（5.3%）为女性。所有分析都进行了加权处理，以解决与样本选择和缺失结果数据相关的潜在偏差（人口分布见表1）。在完整样本中，有746名参与者（15.4%）在随访时被诊断为患有创伤后应激障碍（PTSD）。在用于开发模型的样本（466名，15.1%）和测试最终模型的样本（280名，15.9%）中，PTSD的患病率相当。根据最低对数损失（范围为0.372-0.375）和最高AUC（范围为0.75-0.76），堆叠集成、弹性网络和GBM之间的性能相似；所有模型都优于基准模型。

图 1

图 2

表 2

作者选择了具有58个核心预测因子的GBM模型，因为它在性能上与具有801个预测因子的堆叠集成和具有196个预测因子的弹性网络模型相当。在独立的测试样本中应用时，核心预测因子的GBM模型表现出良好的区分能力（AUC = 0.74 [95% CI，0.71-0.77]）（图1），以及良好的校准性（图2）。表2包含了核心预测因子GBM模型在测试样本中的阈值相关性能指标。测试样本中大约三分之一的参与者（33.9%）的预测概率在前3个高风险十分位数中；这些参与者占据了62.4%的PTSD病例。

图 3

每个核心预测因子对最终模型的个体贡献可由其缩放重要性来捕获。图3显示了按域分组的预测因子的重要性。在考察每个预测因子与随访时的PTSD之间的线性关系的单变量逻辑回归分析中，其比值比在0.69到2.46之间变化。在不考虑统计学显著性的情况下，72.4%的预测因子与随访时的PTSD存在更高的比值，而27.6%则与更低的PTSD比值相关。半数的核心预测因子（n = 29）在Bonferroni校正阈值下没有与目标结果的单变量关联，这突显了GBM算法能够找出那些与 PTSD 诊断有复杂关联的变量的能力。尽管这些分析提供了关于最终模型用于进行预测的信息的有用见解，但它们并不旨在支持因果解释。

结论

作者开发了模型，使用来自2个美国陆军旅战队的部署前自报告数据来预测部署后2至9个月的创伤后应激障碍（PTSD），并在第三个在时间和地理上不同的队列中验证了最佳模型。在开发阶段，所有模型的性能均优于基准的单变量广义线性模型。最佳模型是一个GBM模型，它仅使用了58个核心预测因子，因为尽管仅依赖于大约7%的可用预测因子，但它实现了与备选模型相当的性能。最佳模型在独立测试样本上具有类似的AUC，表明在不同时间和地理采集的数据上具有良好的泛化性能。

结论

Papini S, Norman SB, Campbell-Sills L, et al. Development and Validation of a Machine Learning Prediction Model of Posttraumatic Stress Disorder After Military Deployment. JAMA Netw Open. 2023;6(6):e2321273. doi:10.1001/jamanetworkopen.2023.21273