Py学习  »  机器学习算法

Advanced Science(IF 14.3):机器学习+微生物,中国医学科学院曹彬等团队开发诊断下呼吸道感染的分类模型

生信学霸 • 2 月前 • 109 次点击  


Accurate Diagnosis of Lower Respiratory Infections Using Host Response and Respiratory Microbiome from a Single Metatranscriptome Test of Bronchoalveolar Lavage Fluid

下呼吸道感染(LRTI)每年造成的死亡人数比其他任何类型的呼吸系统疾病都多。细菌、病毒、真菌和分枝杆菌等多种微生物均可引起LRTI,因此难以准确诊断其致病因素。目前,LRTI 病原体的检测主要依赖于培养、尿液/痰液抗原测试和分子诊断测试,局限性较大,并且很难区分定植和感染。

Advanced Science 上发表的新文章通过分析支气管肺泡灌洗液(BALF)的宏转录组数据,发现LRTI 患者的宿主反应和呼吸道微生物组与非LRTI 患者有显著差异,并开发了基于这些特征的LRTI 诊断分类模型,能够准确区分LRTI 和非LRTI 患者,为LRTIs 的诊断提供了新的方法和工具。


期刊:Advanced Science(IF 14.3)

出版商:Wiley

发表:2024年12月18日

DOI:https://doi.org/10.1002/advs.202405087

关键词:下呼吸道感染 | BALF | 宿主反应 | 宏转录组 | 机器学习建模

技术手段:宏转录组、微生物组、WGCNA、机器学习算法、富集分析等

核心思路:


分析有术、思路创新

更多个性化生信分析方案

扫码咨询,获取您的专属私人定制!


方法 



数据来源:CJFH 收集疑似LRTIs 患者的BALF 样本,筛选后纳入201名患者进行分析。

宿主基因表达分析:BALF 样本经测序后利用fastp 进行质控,过滤后数据通过HISAT2 比对人类参考基因组hg38 ;基因计数矩阵由featureCounts 计算并通过edgeR 标准化为CPM ;R包edgeR 进行差异分析;R包clusterProfiler 用于GO KEGG 分析。

WGCNA分析:使用R包WGCNA 进行加权基因共表达网络分析,以识别与临床特征显著相关的基因模块。

微生物组分析:使用KneadData 去除宿主reads 后的数据用Kraken 进行物种水平的微生物组分析,仅在所有样品中最大丰度超过0.1%且平均丰度高于0.01%的物种会进一步分析。

机器学习建模:使用Python scikit-learn 构建随机森林、逻辑回归和SVM 模型,并通过RFE 进一步筛选特征;通过5折交叉验证评估模型性能,并在独立验证队列中测试模型的鲁棒性。


结果 



01

BALF RNA-seq 数据揭示LRTIs 和非LRTIs 之间的不同宿主反应

通过对BALF mNGS RNA-seq 数据进行转录组分析,研究比较了LRTIs 与非感染性疾病患者之间的宿主免疫反应差异。在发现队列的两组患者中共识别出766个DEGs,其中LRTI 患者中显著上调的DEGs 主要与先天免疫反应相关,包括趋化因子配体(如CCL3L1、CCL3L3)和受体(如CXCR1)、白细胞募集相关基因(如S100A8、S100A9)以及病毒感染相关基因(图1A,B)。KEGG 通路富集分析结果显示,这些DEGs 显著富集于与感染后的细胞因子反应相关的通路(图1C)。GO分析进一步表明这些DEGs 在中性粒细胞迁移、趋化以及炎症反应相关过程中发挥重要作用(图1D)

图1


02

LRTIs 的宿主反应与患者的临床特征相关

为评估LRTIs 的宿主反应与临床特征之间的关联性,研究进行了WGCNA 分析。在去除患者低表达和异常值的基因后,WGCNA 分析将基因聚类为8个模块,其中绿色模块与患者的LRTI 状态、病原体类型、ICU 入住、白细胞计数和中性粒细胞计数显著正相关(图2A)。KEGG 富集分析显示,绿色模块中的基因主要富集于“Chemokine signaling pathway”和“Cytokine−cytokine receptor interaction”等与抗感染免疫相关的通路中(图2B)。PPI 网络显示,CXCR1、VNN2、BST1 等核心基因在感染后免疫细胞募集和激活中起关键作用(图2C)。这些结果证实绿色模块中的基因参与宿主抗感染反应,并与患者的临床特征密切相关。

图2


03

基于宿主基因表达特征的LRTI 状态分类

基于BALF 数据,研究利用机器学习开发了一个可区分LRTI 与非LRTI 患者的分类模型。将发现队列中识别出的DEGs 视为预测因子,研究构建了RF、LR SVM 模型,其中LR 模型在5次交叉验证中表现最佳,用于后续功能选择和参数调优。最终,研究利用RFE 方法筛选出14个基因作为特征,它们在LRTI 和非LRTI 患者之间存在显著的表达差异(图3C)。基于特征基因构建和调优后的LR 模型在发现队列和验证队列中准确率分别为80.6%和77.9%,并在发现队列内实现了0.86±0.046的平均AUC(图3A,B)。此外,研究还开发了一个区分LRTI 、非LRTI 和未明确LRTI 患者的三分类模型,准确率为72%(图3D,E)。

图3


04

基于整合模型的LRTI 微生物组特征及LRTI 状态分类

通过对232例样本进行微生物组分析,研究发现LRTI 患者的α多样性和均一性显著低于非LRTI 患者,并且微生物负担更高(图4A)。调整抗生素使用和年龄等协变量后,这些差异仍存在,但两组在肺部核心微生物群的读段占比上没有差异(图4C)。PCoA 分析显示,LRTI 患者的微生物组特征与非LRTI 患者不同,CAP 相关细菌及肠道相关细菌在LRTI 患者中更富集(图4D,E)。研究进一步将香农指数、均一性和微生物负担纳入之前的模型并重新调优,整合模型的AUC 略有增加(0.88),表明结合微生物组数据可进一步提高LRTI 诊断的准确性(图4F)。

图4


结论 



为突破常规检测局限,本文在样本和检测方法上实现了创新。通过分析支气管肺泡灌洗液(BALF)的宏转录组测序数据,研究评估了宿主的免疫反应和微生物组的变化,并开发了能有效区分LRTI 与非LRTI 患者的机器学习模型。研究发现,LRTIs 的宿主反应表现出细胞因子、趋化因子通路增强以及中性粒细胞活化和募集相关的基因模块特征,同时其下呼吸道微生物组的多样性和均一性显著降低,这可能与病原菌丰度增加有关。此外,研究利用差异表达基因和微生物组特征开发的诊断分类模型在区分LRTIs 、non-LRTIs 及不确定状态时表现出较高的准确性,为LRTIs 的精确诊断提供了可靠方法。


1

END

1

公众号后台私信太多回复不及时,SCI论文润色服务可以添加下图客服微信👇,其他合作或疑难解答可加入我们平台交流群(Q群二维码在下面👇)找管理员对接,同时与你的同行们共同交流、学习、进步。

SCI论文润色|翻译|降重|投稿咨询|SCI期刊推荐等业务详情请扫码咨询!


不想错过生信文献解读

欢迎大家添加生信学霸为星标推荐

SangerBox小红书

保存图片打开小红书,扫码关注

每天更新生信相关内容

SangerBox交流群 

保存图片打开QQ,扫码关注

SangerBox平台交流群直接联系

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/179045
 
109 次点击