Py学习  »  机器学习算法

Nat Commun | 敏感性86.1%,特异性94.7%!cfDNA甲基化谱结合机器学习在癌症早诊领域取得新突破

测序中国 • 1 年前 • 186 次点击  


近年来,虽然癌症治疗取得了一定的进展,但早期诊断仍是抗击癌症非常关键的一环。早期诊断为患者提供了提前手术切除肿瘤来治愈癌症的机会,但目前的临床癌症筛查技术具有低特异性和低敏感性等不足。由于缺乏有效的癌症筛查方式,大多数癌症患者诊断较晚,因此错过了理想的治疗期。作为一种液体活检分析物,外周血浆中的循环游离DNA(cfDNA)由于其非侵入性特性而成为癌症早期诊断的一个重要生物标志物。通常健康个体血浆中的cfDNA来源于造血细胞和正常组织。在癌症患者中,除了正常来源外,来自肿瘤细胞的DNA片段也会被释放到血液中。因此,可以通过检测血浆中的cfDNA来推断原发肿瘤的位置。

随着机器学习在计算生物学领域的出现,从cfDNA甲基化特征构建诊断模型,以检测和定位潜在的肿瘤,克服了常规血浆诊断分辨率不足的问题。利用机器学习相关方法是基于cfDNA进行癌症早期诊断的一条有希望的途径。

近日,广东省第二总医院团队联合清华大学团队在Nature Communications上发表研究成果,文章题为“Tumor fractions deciphered from circulating cell-free DNA methylation for cancer early diagnosis”。研究团队基于机器学习,提出了一种半无参考反卷积(SRFD)算法,可以利用cfDNA甲基化谱来破译肿瘤信息并定位肿瘤起源组织。研究团队最终建立了一个贝叶斯诊断模型(SRFD-Bayes),该模型对正常对照和所有早期肿瘤的平均定位准确率为76.9%,在癌症早期检测中敏感性为86.1%,特异性为94.7%,优于其他模型。

文章发表在Nature Communications

癌症早期诊断方法概述

研究团队检测并绘制了cfDNA甲基化谱图,通过机器学习方法识别cfDNA甲基化谱的细微变化,从而定位癌症起源组织(TOO),如图1所示。首先,从大量甲基化位点中选择信息标记,识别TD型(type-discriminative)和TS型(type-specific)的甲基化标记(图1a)。然后,使用SRFD算法从混合的血浆数据中学习参考数据库。第三,利用学习的参考数据库,将训练样本反卷积成单独的源分数载体,其中每个肿瘤样品包含的信息拟合为独立的Beta分布,同时将原始甲基化谱输入机器学习分类器(SVM)以构建预诊断模型SRFD-Bayes。最后,使用学习到的甲基化参考数据库进行反卷积并破译其源分数载体(图1c),进一步分析样本以进行癌症早期诊断。

图1. 癌症早期诊断方法概述。来源:Nature Communications

模拟数据集的诊断性能

为了将方法推向实践,研究人员将SVM分类器和甲基化谱的分析结果进行连用,建立了基于贝叶斯法则的诊断模型,称为SRFD-Bayes。首先,研究人员利用肿瘤分数直接区分癌症患者和健康个体,并采用曲线下面积(AUC)来量化检测性能。结果表明,AUC随着标记数量的增加而增加(图2a),反卷积指标RMSE与检测指标1-AUC之间为正相关,表明AUC也可用于量化预测肿瘤分数的准确性(图2b)。同时,SRFD-Bayes方法也是目前最佳的癌症早筛的方法(图2c-g),实现了接近0.98的中位数AUC,92.1%的最高灵敏度,高于0.91的最佳定位精度。

图2. 模拟数据集的诊断结果。来源:Nature Communications

癌症患者cfDNA诊断验证

为了评估SRFD-Bayes方法对不同癌症患者的早期诊断性能,研究人员收集了患者血浆cfDNA,特征包含414名正常对照,223名癌症患者(结直肠癌患者7名,肝癌患者23名,食道癌患者68名,肺癌患者56名和胃癌患者69名)和191名诊断前癌症患者(指参与时无症状,在接下来的1-4年内被诊断出患有癌症)。
通过SRFD和SRFD-Bayes的ROC曲线在癌症检测方面的比较如图3a所示。早期患者和正常对照的诊断结果如图3b所示。11例正常对照被误诊,11例早期患者被误检,SRFD-Bayes对癌症早期检测的理想特异性为94.7%,敏感性为86.1%。从图3c中可以看出,SRFD-Bayes方法具有最高的灵敏度和特异性。图3e显示了SRFD-Bayes方法与其他分类器之间的平均定位精度比较,SRFD-Bayes模型的表现优于其他方法,平均定位准确率达到76.9%。图3f显示SRFD-Bayes在大多数肿瘤类型中实现了最佳的定位准确性。
图3. 患者血浆cfDNA甲基化谱的诊断结果。来源:Nature Communications
在这项研究中,研究团队提出了一种基于半无参考反卷积方法的自动学习甲基化参考数据库,该数据库只需要来自混合血浆cfDNA的甲基化特征,且不受肿瘤来源cfDNA甲基化信号的分布影响。
SRFD-Bayes能够破译肿瘤衍生cfDNA的起源,即使早期患者的肿瘤cfDNA载量较少,仍可能被SRFD-Bayes识别。SRFD-Bayes对早期癌症患者实现了最佳的诊断性能,其性能在很大程度上优于当前的机器学习分类器。
参考资料:

Zhou, X., Cheng, Z., Dong, M. et al. Tumor fractions deciphered from circulating cell-free DNA methylation for cancer early diagnosis. Nat Commun 13, 7694 (2022). https://doi.org/10.1038/s41467-022-35320-3

END

热文

推荐

Happy

NewYear

Nat Genet发布迄今最全面的人类肺细胞空间图谱,首次揭示腺体相关的免疫生态位

1ml血液,准确率86%!谭蔚泓/韩达/张朝团队开发自动化DNA计算平台,实现4小时快速诊断急性呼吸道感染

一次检测、药物任选、不再“一药一伴随”——FDA提出全新的伴随诊断药物审批模式

仅数μL血液或可同时识别12种常见癌症!基于Olink技术的泛癌血液蛋白质组分析初步结果发布

喜欢就点个“在看”吧

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/151557
 
186 次点击