社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

Nat Commun | 血浆cfDNA甲基化和半甲基化分析结合机器学习,可提高多癌种检测准确性

测序中国 • 9 月前 • 112 次点击  

液体活检可通过分析血浆中的循环游离DNA(cfDNA)来实现癌症早期检测,特别是分析cfDNA中与癌症相关的突变、表观遗传特征等;其中,DNA甲基化模式分析在肿瘤检测中表现出色。哺乳动物细胞中,绝大多数DNA甲基化以对称(SM)的方式发生在CpG二核苷酸上,但有约10%以半甲基化(HM)方式发生。通过亚硫酸氢盐测序(BS-Seq)或MeDIP-Seq,人们已在各种细胞系中分析了半甲基化区域(HMR),但很少有研究单独或与对称甲基化CpG联合探索这些HMR用于肿瘤检测和肿瘤发生。


近日,美国哥伦比亚大学张志国教授团队在Nature Communications上发表文章,报道了两种甲基化DNA免疫共沉淀和链特异性(ss)测序方法(MeDIP-Seq),分别用于基因组DNA(ssg-MeDIP-Seq方法)和血浆cfDNA(sscf-MeDIP-Seq方法)的甲基化组分析,并利用MeDIP-seq技术与机器学习算法,对肝癌患者肝脏肿瘤DNA及cfDNA中的差异半甲基化区域(DHMRs)进行了探究。

结果显示,绝大多数DHMRs与同一样本中的差异甲基化区域(DMRs)并不重叠,表明DHMRs能作为独立的生物标志物。此外,结合DMRs和DHMRs的机器学习模型在肿瘤检测方面性能更优异

文章发表在Nature Communications

开发ssg-MeDIP-Seq方法

MeDIP-seq是一种用于分析DNA甲基化(5-mC)的技术,但几乎所有已发表的MeDIP-Seq程序都依赖于将基因组DNA超声处理成小片段。为此,研究团队检测了在免疫沉淀前使用Tn5转座酶能否用于基因组DNA片段化,并开发了基于pA-Tn5的MeDIP-Seq方法ssg-MeDIP-Seq,以链特异性方式分析DNA甲基化模式,检测SM和HM

研究团队利用ssg-MeDIP-Seq分析了16个组织样本的DNA甲基化,包括8个肝肿瘤样本和8个邻近非肿瘤组织样本(图1),显示该方法可有效检测DNA甲基化。此外,通过比较肝肿瘤与邻近非肿瘤组织的甲基化组,研究鉴定了11,930个高甲基化和12,974个低甲基化DMRs;经分析,这些DMRs与使用TCGA肝癌数据集鉴定的高、低甲基化DMRs显著重叠。上述结果表明,ssg-MeDIP-seq程序可用于分析基因组DNA甲基化组

图1.ssg-MeDIP-Seq以链特异性方式分析基因组DNA的甲基化组。


肝肿瘤DNA、DHMR和DMR可能是独立的生物标志物

通过ssg-MeDIP-Seq方法,研究团队对肝癌样本进行DNA HM分析(图2)。在8个肝肿瘤样本及其相应的邻近正常组织中,分别鉴定了192,106和228,575个HMRs;并鉴定出6,864个DHMRs,包括2,330个HM增加的区域和4,534个HM减少的区域,其中大部分DHMRs与DMRs不重叠,表明DHMRs可能代表独立的生物标志物。有趣的是, 与这些肝肿瘤HMRs和HM增加的DHMRs最接近(20kb范围内)的基因都富集在与细胞代谢有关的途径中

研究团队分析了来自8个肝肿瘤样本的24,904个DMR和6,864个DHMR中双链的甲基化密度。结果显示,DHMRs是由一条链的DNA甲基化变化引起的,DMRs是由两条链的DNA甲基化的变化引起的,这表明肝肿瘤DHMRs和DMRs可能是独立的生物标志物。

图2.通过ssg-MeDIP-Seq分析肝癌样本的DNA半甲基化


开发sscf-MeDIP-Seq方法

已知血浆cfDNA由双链DNA(dsDNA)和单链DNA(ssDNA)混合组成,研究团队基于ssDNA文库制备经验,开发了sscf-MeDIP-Seq方法,用于分析cfDNA甲基化组,包括dsDNA、ssDNA和受损DNA。重要的是,sscf-MeDIP-Seq可同时分析SM和HM区域。

研究团队利用sscf-MeDIP-Seq对10名肝肿瘤患者和10名健康对照组的cfDNA样本进行分析(图3),共鉴定出2,229个高甲基化和5,002个低甲基化cfDNA DMRs,其分别与经ssg-MeDIP-Seq鉴定的肝肿瘤DNA高和低甲基化DMR有明显重叠。此外,与ssg-MeDIP-seq类似,与无CGI的基因相比,有CGI的基因启动子区域的sscf-MeDIP-seq信号减少。上述结果表明,使用sscf-MeDIP-Seq方法鉴定的肝肿瘤患者血浆cfDNA DMRs能反映肝癌细胞中DNA甲基化的变化

研究团队还分析了8个未甲基化的DNA样本和10个肝肿瘤样本的cfDNA DHMRs,发现与肝肿瘤基因组DNA DMRs和DHMRs一致,肝肿瘤样本中的绝大多数血浆cfDNA DHMRs与相同样本的cfDNA DMRs没有重叠,表明cfDNA DHMRs也可作为肿瘤检测的独立生物标志物。

图3.用于分析cfDNA甲基化的sscf-MeDIP-Seq方法


利用DMRs+DHMR训练机器学习模型进行多癌种检测

为确定sscf-MeDIP-Seq程序能否用于肿瘤起源预测,研究团队分析了三组个体(肝癌、脑癌和对照组)血浆cfDNA样本甲基化组(图4),共生成271个sscf-MeDIP-Seq数据集;随机选择215个数据集和80个对照组作为训练队列,用于训练GLMnet、随机森林和深度神经网络(DNN)模型,56个数据集作为验证队列。结果显示,GLMnet模型性能最佳

接下来,研究团队使用DMRs、DHMRs或两者结合来训练GLMnet模型,发现与单独使用DMR或DHMR的模型相比,结合使用DMR和DHMR的模型预测更准确、预测精度更高;验证队列中,其对脑癌、肝癌和对照组的AUROC分别为0.983、0.990和0.978。基于DMR+ dhmr的模型识别脑癌、肝癌和对照样本的平均概率分别为0.72、0.75和0.76。上述结果表明,sscf-MeDIP-Seq提供了一种独特的方法来分析cfDNA DMRs和DHMRs,在肿瘤检测中具有潜在应用价值。

图4 使用DMRs和DHMRs以及机器学习模型进行多癌种检测


通过cfDNA甲基化组区分脑肿瘤亚型

研究团队探究了cfDNA甲基化组分析能否用于区分脑肿瘤的亚型(图5),将训练队列中77个脑肿瘤样本分为IDH突变组和IDH野生型(WT)组,使用DMRs或DHMRs作为输入来训练模型。结果显示,通过上述模型可准确识别IDH突变型和IDH野生型脑肿瘤亚型,其中基于 DMR+DHMR的模型性能最佳,对IDH突变型和IDH WT的AUROC分别为0.947和0.955这一结果表明,使用DMRs和DHMRs作为输入的模型可准确识别神经胶质瘤亚型。

图5.使用sscf-MeDIP-Seq数据集预测脑肿瘤亚型


cfDNA DMRs与肿瘤组织样本基因表达相关

为探索cfDNA DMRs与肿瘤样本中基因表达之间的潜在关系(图6),研究团队比较了训练队列中58个肝癌样本的cfDNA甲基化组与对照组和训练队列中脑肿瘤样本的cfDNA甲基化组,鉴定出10,051个肝癌特异性cfDNA DMRs,对其20Kb内1,689个基因进行注释,在TCGA数据库分析这些基因的表达及患者生存的关系。结果显示,有150个基因的表达与肝癌患者生存率相关,其中62个基因与高甲基化cfDNA DMRs相关,88个与低甲基化cfDNA DMRs相关

接下来,依据上述150个基因的表达,研究团队对371例TCGA肝癌患者样本进行无监督聚类分析。结果显示,371例样本可以分为两个聚类(聚类1、2),两组患者生存期有显著差异,中位生存期分别为80个月和30个月。与聚类1相比,聚类2肝癌样本中靠近低甲基化cfDNA DMRs的基因表达量较高。

研究团队将同样方法应用于156个TCGA原发性脑肿瘤样本,发现37个基因表达与患者生存率相关;依据这些基因表达也可将样本分离成两个不同的聚类, IDH突变患者在生存率较高的聚类中富集。上述结果显示,cfDNA DMR可能与肿瘤发生相关基因表达变化有关。

图6.基于TCGA肝脏肿瘤组织中具有肝脏肿瘤特异性cfDNA DMR邻近的基因表达对肝癌样本进行分类及患者生存预测

该研究揭示了DHMRs与同源样本中的DMRs之间存在显著的非重叠性,且DHMRs可作为独立生物标志物,为癌症的早期检测与分类提供了一种新视角。同时,研究团队创新性地开发了sscf-MeDIP-Seq技术,能够同步解析cfDNA中的对称甲基化及半甲基化状态;当机器学习模型综合运用DMRs与DHMRs信息时,能够有效提升多癌种检测的精确度。

论文原文:

Hua X, Zhou H, Wu HC, et al. Tumor detection by analysis of both symmetric- and hemi-methylation of plasma cell-free DNA. Nat Commun. 2024;15(1):6113. Published 2024 . doi:10.1038/s41467-024-50471-1

·END·

热文推荐

太空组学和医学图谱SOMA

李昊等开发人工智能计算方法CGMega解析癌症基因模块

基于长读长测序高分辨率解析完整端粒序列

张勇/阮珏团队合作开发低DNA用量、无扩增的PacBio建库技术LILAP

快点亮"在看”吧

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/173152
 
112 次点击