生信套路解读：教你如何利用机器学习发15+文章

随着大数据时代的带来，机器学习正改变着生物医学的三大领域---临床诊断、精准疗法和健康检测。作为临床研究的新风口---利用机器学习方法构建和验证临床预测模型已经成为炙手可热的研究领域。今天小编给大家分享2022年3月一篇机器学习结合生信的高分文章，由Yiran E. Liu研究团队在Genome Medicine(IF:15.266)杂志上发表题为An 8-gene machine learning model improves clinical prediction of severe dengue progression的研究论文。本篇文章作者分析的数据是公共数据集，总所周知，数据质量直接影响着临床预测模型的建模效果，从这一点来看，利用已有的公共数据集简直就是为没有高质量数据或数据收集成本高的研究人员量身定制啊！话不多说，直接开整！

一、研究背景

登革热病毒（DENV）的全球发病率持续上升，局部爆发的频率越来越高。早期识别 SD 进展者并及时给予支持性护理对于降低发病率和死亡率至关重要。世界卫生组织 (WHO) 在 2009 年推出了新的诊断亚分类：无警告标志的登革热 (D)、有警告标志的登革热 (DWS) 和重症登革热 (SD)。目前的研究有基于宿主反应的基因特征和使用临床特征或基因组变异的机器学习模型。然而，由于预测能力不足、缺乏普遍性和/或缺乏简约性，没有一个能够转化为临床实践。因此作者训练了一个基于8 基因的XGBoost模型来预测 SD 的进展，从而能够降低登革热的发病率、死亡率和医疗保健负担。

二、结果

1、鉴定与进展为严重登革热相关的 8 基因组

作者搜索了截至 2019 年 8 月 1 日的 NCBI 基因表达综合 (GEO) 存储库，通过查询“登革热”获取通过阵列或高通量测序分析感染结果不同的人类登革热患者的血液基因表达的数据集。排除与研究无关的信息，由此确定了11个公开可用的数据集，这些数据集存在生物学、临床和技术异质性。利用这些数据集对365名登革热患者的血液转录组进行了分析，其中 199人的症状不严重， 166人进展为SD，其中作者将单纯性登革热 (DF) 患者分类为“非重症”，将登革出血热 (DHF) 或登革休克综合征 (DSS) 患者分类为“SD 进展者”。

接下来，作者使用MetaIntegrator在数据集上进行了迭代蒙特卡洛采样的多队列分析（图1A），以识别非重症患者和 SD 进展者之间的差异表达基因 (DEG)。在所有迭代中发现了 25 个具有一致效应大小的显著的差异表达基因（图1B），在这25个基因表达基因中，作者执行了贪婪的前向搜索以确定最具预测性的基因集，由此得到三个上调基因和五个下调基因的 8 基因组（图1C-D）。

图1 多队列分析确定了八个与发展为 SD 密切相关的基因

2、构建模型以预测现有队列中的严重登革热进展

为了建立一个可推广的模型来预测 SD 进展，作者将年龄作为一个混杂变量进行了检查。此外由于许多公共数据集中缺乏样本级别的年龄信息，无法将年龄作为变量包括在内。故作者采用非线性分类器以便更好地学习年龄、基因表达和登革热严重程度之间潜在的复杂关系。

作者利用这八个基因作为特征训练了 XGBoost 梯度提升树模型。其中LTF、UQCRQ、TGFBR3和RASSF5这四个基因共同对模型预测准确度的相对贡献为72.9%（图2A），结果表明，该模型AUC= 0.891 (95% CI 0.706-1)，在Youden阈值下，具有 89.2% (95% CI 84.1–93.8) 的敏感性和 81% (95% CI 75.0–86.7) 的特异性（图2B），这表明基于8 基因组的XGBoost 模型具有更高的泛化性。但基于8 基因组的XGBoost 模型应用于不同于模型训练的公共数据集时，其效果不佳，故作者同时评估了基于20 基因组以及 8 基因组 XGBoost 模型。

图2：基于 8 基因 XGBoost 的模型预测公共数据集中的 SD 进展。

3、在登革热患者的前瞻性队列中独立验证和与临床警告信号进行比较

在收集独立性数据阶段，作者前瞻性地在哥伦比亚卡利和布卡拉曼加招募了 377 名 DENV 感染患者，出现 SD 的患者被排除在外。

首先作者分析了出现临床警告信号预测是SD进展时的准确性。作者在就诊时（即在进展为 SD 之前）收集全血样本，并在整个感染过程中跟踪患者（图3A）。在就诊时临床警告信号预测是SD进展的敏感性为77.3% (95% CI 58.3-94.1)，特异性为39.7% (95% CI 34.7-44.9)（图3C）。在成人中，临床警告信号预测是 SD 进展的敏感性和特异性分别为 66.7% 和 45.2%。在儿童中，临床警告信号预测是 SD 进展的敏感性和特异性分别为90.0%和37.1%。

总的来说，出现临床警告信号预测是SD进展的(阳性预测值)PPV为7.4% (95% CI 4.3-10.9)， NPV（阴性预测值）为96.6% (95% CI 93.3-99.3)，需要25.4例NNP，其中NNP 被定义为需要检查以准确预测一名患者将进展为 SD 的登革热患者的数量。

接下来，作者将基于8基因组的XGBoost模型应用到该独立前瞻性队列中，该模型预测随后进展为 SD的AUC 为 0.844（95% CI 0.749-0.938），在 Youden 阈值下，其敏感性为 86.4%（95% CI 68.2-100.0），特异性为 79.7%（95% CI 75.5-83.9），阳性和阴性似然比为 4.3（95% CI 3.2–5.5) 和 0.2 (95% CI 0.01–0.4)（图3C）。与临床警告信号相比，8 基因模型的 PPV 和NPV显著更高，NNP 减少了 80%。8 基因模型的年龄差异无统计学意义（DeLong p = 0.19），相比之下，之前的 20 个基因组在成人中的表现比在儿童中的表现更差（DeLong p = 0.0026)。因此，与临床警告信号相比，8 基因 XGBoost 模型改善了两个年龄组的预测，并且比 20 基因组更具有普遍性。

此外，鉴于登革热进展快速的性质，作者检查了8 基因模型在疾病过程中的时间表现（图3D-F）。8 基因模型可预测整个疾病过程中收集的样本的随后的 SD，此外，对于SD患者，8 基因模型其进展为 SD 的前三天预测也是准确的。

最后，作者利用三个公共数据集按照1997年WHO标准分析了8基因模型的性能，模型性能与 1997 年标准相当（AUC = 0.842, 95% CI 0.716-0.968）。

总的来说，这些结果证明了 8 基因模型的早期预后能力和普遍性，适用于在大型、独立、前瞻性登记的队列中收集的样本。

图3：基于 8 基因组的 XGBoost 模型在独立的前瞻性登革热队列中预测进展为 SD的效果

4、临床特征与 8 基因组模型预测概率的关联性

作者接下来检查了 8 基因组模型预测与相关临床特征之间的关系。8 基因组模型预测的概率在先前接触过 DENV 的患者中显著高于未接触过的患者，但该模型能准确区分了原发性或继发性感染的 SD 进展者。此外，8 基因模型预测与体液积聚呈正相关，但与呕吐、出血、腹痛或肝肿大无关，与峰值丙氨酸转氨酶（ALT）和天冬氨酸转氨酶（AST）呈显著中度正相关，与血小板最低点呈中度负相关。

5、8 基因组模型对其他病毒感染的普遍性

作者评估了 8 基因组模型是否也可以预测其他病毒感染的严重程度。作者确定了四个独立的队列，包括 336名感染 SARS-CoV-2、基孔肯雅热、流感或呼吸道合胞病毒 (RSV) 的患者。结果表明，8 基因组模型能区分轻度/中度感染与严重感染 SARS-CoV-2、流感和 RSV，但不能区分基孔肯雅热，说明其在其他病毒感染中可能具有一定的区分能力。

三、讨论

作者利用公开可用的登革热数据集中大量的生物学、临床和技术异质性，并确定了一个与 SD 相关的 8 个基因，从中构建了一个基于 XGBoost 的机器学习模型来预测向 SD 的进展。随后在一个大型、独立的前瞻性队列中验证了选定的 8 基因模型，结果表明应用于 SD 之前收集的血液样本，8 基因模型准确地预测了 SD 的进展，包括在早期发热阶段。最后与普遍、非特异性和不够敏感的临床警告信号相比，8 基因模型将 NNP 降低了 80%，证明了转化为用于 SD 预测的即时检测的潜力。

采用机器学习来预测疾病进展的常规套路可算是被小编总结出来了！常规套路：

1、找到与疾病进展相关的差异表达基因。

2、基于差异表达基因采用机器学习的方法构建预测模型。

3、在独立前瞻性队列或新的数据集中验证模型的准确性。

4、验证模型的临床效果。

当然想要突破常规套路，就需要添加一些不同的分析，快快学起来，冲刺高分文章吧！

生信最新热点获取

分析方案设计

个性化课题合作

要点预览

全国TCGA,GEO生信高通量数据挖掘专题学习班

（2天2晚精讲班，时间：2022.9.23-25号）

培训简介

2019年度国家自然基金医学科学部共批资助10138项目，批助金额总计441310万元。其中面上项目数量占45%，金额占57%；青年科学基金项目数量占43%，金额占20%。

初步统计，这些项目中大部分都与编码基因有直接或间接的关联。其中，与通路（pathway）关联的有1349项，金额4.89亿；与miRNA相关的有630项，金额2.3亿；与lncRNA相关的有395项，金额1.45亿；

如何获得有创新意义的疾病靶标基因（mRNA，Protein，lncRNA，circRNA，miRNA，Mutation等）是项目申请及文章写作时最常见的问题。基于这个目的，我们开展了该培训班：TCGA&GEO高通量数据挖掘。

癌症是临床医学中非常重要的疾病方向。TCGA数据库中包含了常见了40种癌症方向（含30000个样本）的高通量数据及临床信息。大家对TCGA数据库的使用近几年也在逐渐增加！另外，其他疾病的研究可以通过GEO数据库进行。

项目类型
题目
金额/万元
重点项目
FXYD3介导的信号网络对肠道黏膜免疫稳态的调控研究
300
重点项目
基于蛋白-蛋白相互作用精准调节转录因子Nrf2活性及探索其作为肝细胞癌治疗的新靶标
298
重点项目
miR-23b/24-1簇防治烧伤后脓毒症所致MODS的系统研究
297
面上项目
LZTR1基因突变导致的RAS/MAPK通路过度激活以及Noonan综合征相关肥厚型心肌病的机制研究
60
面上项目
SUGP2基因及其突变在遗传性血色病中的致病作用及其机制研究
60
面上项目
WDR73基因突变在Galloway-Mowat综合征中的致病机制研究
60
面上项目
STAG2通过ERK/AKT/GSK3β/c-Myc反馈通路调节甲状腺癌谷氨酰胺代谢的机制研究
60
面上项目
LncRNA FOXF1靶向调控动力相关蛋白1表达在缺氧诱发肺动脉内皮细胞焦亡中的作用及分子机制

55

讲师简介

宋伟博士
研究成果：参与完成了近百篇软件著作权和发明专利的撰写和申请；肺癌、胰腺癌、骨肉瘤、胃癌等数据库的分析和构建；完成个体基因检测流程和无创唐筛流程的开发。
研究方向：有近十年的生信分析经验，擅长方向有转录组测序分析、芯片数据分析、疾病机理研究分析、疾病预后与基因关联分析、项目分析思路设计以及个性化分析等，精通perl、R等编程语言。
培训经历：在上海、沈阳、济南、武汉等城市举办过十几场培训班。培训的对象有：医生、学生、科研工作者、生信爱好者等。
培训方向：《测序与芯片数据分析》、《生物信息学的魅力》、《生信文章实例解读》、《生信与实验的密切关系》、《生信与临床医学的关系》、《生信实用工具培训》、《多组学整合分析流程》、《R语言培训》等

课程安排

分析示例图

学习费用

网络课程：3200元/每位。

优惠政策：
1. 提前报名并付款的可以预先拿到学习资料
2. 三人组团报名，每人可优惠100元
3. 四人组团报名，每人可优惠200元，
4. 五人组团报名缴费，额外带一人免费注册学习同等级学习班！
5. 疫情过后，可补差价参加医药加线下同名班。
6. 参加过医药加同名线下班的学员，只要500元复听费用（推荐新学员的，免收复听费用）。
7. 办理了VIP年卡的学员是免费参加的。
报名付费成功后，提前发培训需要应用到的软件与课件，并且指导安装。
参加培训的学员课后可通过微信群继续和老师交流，长期获得答疑机会。

可以开正规会务发票或者技术服务费发票。

报名电话：15301721511 （微信同号）范老师

学习班课表

生信系列课程

基础研究课程

国自然标书

临床研究课程

学习训练营

学习班报名，会员卡，标书服务

扫码咨询

更多学习班咨询：15301721511（微信同号）

项目类型	题目	金额/万元
重点项目	FXYD3介导的信号网络对肠道黏膜免疫稳态的调控研究	300
重点项目	基于蛋白-蛋白相互作用精准调节转录因子Nrf2活性及探索其作为肝细胞癌治疗的新靶标	298
重点项目	miR-23b/24-1簇防治烧伤后脓毒症所致MODS的系统研究	297
面上项目	LZTR1基因突变导致的RAS/MAPK通路过度激活以及Noonan综合征相关肥厚型心肌病的机制研究	60
面上项目	SUGP2基因及其突变在遗传性血色病中的致病作用及其机制研究	60
面上项目	WDR73基因突变在Galloway-Mowat综合征中的致病机制研究	60
面上项目	STAG2通过ERK/AKT/GSK3β/c-Myc反馈通路调节甲状腺癌谷氨酰胺代谢的机制研究	60
面上项目	LncRNA FOXF1靶向调控动力相关蛋白1表达在缺氧诱发肺动脉内皮细胞焦亡中的作用及分子机制	55