Nat Commun | 黄秀娟团队发表基于粪便微生物组的机器学习多类诊断模型，可精准预测不同疾病

已有研究表明，肠道微生物群的不平衡即“菌群失调”，会导致各种人类疾病的出现。目前，微生物标志物的开发主要基于二元分类器法。新的研究结果显示，多数健康状况表现出重叠的肠道微生物组特征，单一疾病诊断模型可能会被不相关的疾病混淆，进而导致错误的分类。虽然人们开始尝试开发多类诊断模型，但先前依赖公共数据集进行分析的工作所涉及的异质性、技术偏差和批次效应限制了模型的准确性。

近日，香港中文大学黄秀娟教授团队在Nature Communications上发表了题为“Faecal microbiome-based machine learning for multi-class disease diagnosis”的研究文章。研究团队开发了迄今为止最大的涵盖多种疾病的单站点数据集，通过机器学习多类模型，使用物种水平的粪便微生物组分析、预测了不同疾病，并依据跨不同人群的公共宏基因组数据集对研究结果进行了验证。

文章发表于Nature Communications

研究人员对2,320名香港华人（平均年龄54.9岁，48.7%女性）的粪便样本进行了宏基因组测序，包括9种特征明确的疾病表型：结直肠癌（CRC，n=174）、结直肠腺瘤（CA，n=168）、克罗恩病（CD，n=200）、溃疡性结肠炎（UC，n=147）、肠易激综合征（IBS-D，n=145）、肥胖（n=148）、心血管疾病（CVD，n=143）、急性COVID-19综合征（PACS，n=302）和健康对照组（n=893），并鉴定了1,208种细菌。

研究人员观察到不同疾病中细菌多样性和丰富度存在差异，并且这两个指数因表型而异。通过多元关联分析，研究人员发现上述9个表型与215个细菌分类群在物种水平上共有1,061个显着关联（图1）。在215个物种中，超94%的物种与两种或多种疾病显著相关，这一结果与先前的研究一致，即不同疾病之间共享大量信号。

虽然常见的微生物特征在疾病之间是共享的，但上述发现也表明存在疾病特有的微生物组成。为检测二元分类器是否可以捕获这些疾病特异性特征，研究人员测试了已训练的二元模型在无关疾病中的特异性。结果显示，模型误诊率较高，表明二元分类器不能捕获仅基于单一疾病与对照样本的真正疾病特异性特征。

图1. 不同疾病中的的共享微生物组特征。来源：Nature Communications

在机器学习中，涉及两个以上类别的分类任务被称为“多类分类”，能够有效地降低不相关类别的混杂效应。基于2,320名香港华人队列，研究人员训练了五个机器学习多类分类器（RF、KNN、MLP、SVM和GCN），使用测试集的物种水平数据（70％样本）对不同疾病进行分类，并在保留测试集（30％样本）中展示了其最终性能。五个模型的平均AUROC均为0.67-0.99，这表明基于粪便微生物组的多类疾病分类是可行的。其中，对于测试集中的不同疾病表型，RF多类模型的平均AUROC为0.90-0.99，其性能显著优于其他模型且完整性较高。因此，RF多类模型被用于进一步分析。

在基于最高Youden’s指数的阈值下，RF多类分类器展现了良好的诊断性能，其对CRC的平均AUROC为0.94、灵敏度为0.88、特异性为0.85，优于训练的二元分类器和先前发布的CRC诊断模型（图2）。此外，鉴于患有CRC或CA的受试者比其他受试者年龄大，研究人员还评估了按年龄分层的模型，结果显示，年龄对RF多类分类器的影响可以忽略不计。上述结果表明，多类模型分析的性能优于二元模型。

图2. 基于粪便微生物组的多分类诊断模型的开发。来源：Nature Communications

接下来，研究人员整合了来自亚洲、欧洲和北美等12个公共数据集的1,597个鸟枪粪便宏基因组数据。在对不同疾病进行分类时，RF多类分类器的平均AUROC为0.69-0.91，普遍优于所有其他模型，且在不同人群和地理位置中具有稳健性和普遍性。为了进一步验证该模型的准确性，研究人员选择了60名从COVID-19感染中完全康复的患者（图3），RF多类分类器将这些受试者分类为健康人的准确率为83.3%，这些数据也验证了完全康复的COVID-19幸存者与健康人具有相似的肠道微生物群。

图3. 独立数据集上多类模型的验证。来源：Nature Communications

最后，研究人员将对模型贡献最大的前50个细菌物种与不同的疾病表型相关联，发现在测试集中，这50个细菌物种对不同疾病的平均AUROC为0.88-0.99，而在公共数据集中的平均AUROC为0.67-0.90。此外，研究人员在这50个物种与不同的疾病表型之间共发现了363个明显的关联。

与健康对照组相比，几乎所有疾病状态都与厚壁菌门或放线菌门的微生物群丰度显著降低和拟杆菌门的显著增加有关。这种共享的微生物特征可以作为区分健康和疾病的基础。进一步，研究发现尽管CRC患者和CA患者的肠道细菌组成相对相似，但与健康对照组相比，CRC患者的Parvimonas micra丰度显著高于CA患者，表明Parvimonas micra可作为区分CRC与结肠直肠腺瘤的标志物（图4）。

对于其他疾病，微生物组差异主要由放线菌驱动。肥胖受试者显示出Actinomyces naeslundii, Actinomyces odontolyticus和Actinomyces oris的增加，而IBS-D受试者显示出Collinsella aerofaciens和Collinsella stercoris的增加。研究人员进一步将公共数据集中的细菌和表型相关联，发现许多疾病的特异性生物标志物在不同的数据集中是稳定的。这些结果表明，多类分类模型可以捕获不同疾病的特异性微生物特征，具有强大诊断性能。

图4. 与健康状况或不同疾病表型相关的微生物物种。来源：Nature Communications

综上所述，该研究表明，基于粪便微生物组的多类疾病诊断模型是可行的，其新颖之处在于具有高质量的数据集、卓越的临床相关性和可重复的机器学习方法。多类疾病分类模型具有潜在的临床应用价值，可作为一种非侵入性方法在临床实践中筛查各种疾病或进行疾病风险评估。此外，该研究结果对潜在的生物标志物的开发也有意义，提示可以利用已识别的多种疾病的共享或特异性标志物来预测药物反应、制定共同的治疗策略。

参考文献：

Su Q, Liu Q, Lau RI, Zhang J, Xu Z, Yeoh YK, Leung TWH, Tang W, Zhang L, Liang JQY, Yau YK, Zheng J, Liu C, Zhang M, Cheung CP, Ching JYL, Tun HM, Yu J, Chan FKL, Ng SC. Faecal microbiome-based machine learning for multi-class disease diagnosis. Nat Commun. 2022 Nov 10;13(1):6818. doi: 10.1038/s41467-022-34405-3. PMID: 36357393; PMCID: PMC9649010.

·END ·

往期精品(点击图片直达文字对应教程)

机器学习

后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集