数据来源:从CJFH 收集疑似LRTIs 患者的BALF 样本,筛选后纳入201名患者进行分析。
宿主基因表达分析:BALF 样本经测序后利用fastp 进行质控,过滤后数据通过HISAT2 比对人类参考基因组hg38 ;基因计数矩阵由featureCounts 计算并通过edgeR 标准化为CPM ;R包edgeR 进行差异分析;R包clusterProfiler 用于GO 和KEGG 分析。
WGCNA分析:使用R包WGCNA 进行加权基因共表达网络分析,以识别与临床特征显著相关的基因模块。
微生物组分析:使用KneadData 去除宿主reads 后的数据用Kraken 进行物种水平的微生物组分析,仅在所有样品中最大丰度超过0.1%且平均丰度高于0.01%的物种会进一步分析。
机器学习建模:使用Python 包scikit-learn 构建随机森林、逻辑回归和SVM 模型,并通过RFE 进一步筛选特征;通过5折交叉验证评估模型性能,并在独立验证队列中测试模型的鲁棒性。