Py学习  »  机器学习算法

Sci Adv | 岳峰团队开发深度学习模型EagleC 捕捉癌症基因组结构变异

BioArtMED • 2 年前 • 351 次点击  

责编丨酶美


肿瘤细胞的特征是基因组中有着大量的结构变异(Structural Variation/SV,比如大片段序列的缺失、扩增、倒位、易位等。很多结构变异已被证明和肿瘤的发生密切相关,并被用于肿瘤的分型与预后诊断,成为设计靶向治疗药物的重要依据,比如慢性髓系白血病中的BCR/ABL1融合基因。如何精准地在全基因组上检测SV一直是基因组学,病理学以及分子诊断的重点和难点。目前人们对SV的检测主要依赖于全基因组测序(whole genome sequencing/WGS。然而,由于WGS依赖于短测序,所以其在检测基因组重复区域SV上的能力十分有限。而重复区域在人类基因组上的占比接近50%,所以WGS的结果有可能遗漏很多重要的结构变异。近年来发展起来的长序列测序方法,如Nanopore和PacBio, 在一定程度上缓解了这一问题,然而这些方法通常需要很高的测序深度,而且输出结果经常达到几千甚至上万个结构变异,人们无法识别哪些变异更为重要。

来自美国西北大学的Duane and Susan Burnham讲席教授和癌症组学中心主任岳峰课题组及其合作者与2018年发表于Nature Genetics的工作首次开创性的利用全基因组染色质构象捕获技术(Hi-C)在不同肿瘤样本中对SV进行了全基因组识别【1】。Hi-C最早被发明用来研究染色质的空间结构。由于SV能够在断点附近引发异常染色质交互,当把来自癌症细胞的Hi-C数据比对到参考基因组上时,不同种类的SV会在相应的基因组片段间形成独特的染色质交互模式。对这些不同交互模式的识别是利用Hi-C识别SV的基础。相比WGS,Hi-C对SV的识别不依赖于测序读段对SV断点的直接覆盖,因而能够在较低测序深度下检测位于复杂基因组区域的SV。然而,目前所有基于Hi-C的算法在识别SV的种类和大小上都有很大的局限性,包括目前使用最广泛的Hi-C breakfinder【1】(由岳峰课题组共同开发),只能识别染色体间易位和超大片段(大于1Mb)的染色质内结构变异(large intra-chromosomal SVs)。这是因为,当只考虑染色质内交互,特别是小于1Mb染色质交互时,代表染色质固有结构的正常染色质互作会极大地干扰SV引发的交互信号,从而增加算法对小片段SV(short-range intra-chromosomal SVs)识别的难度

2022年6月15日,岳峰课题组在Science Advances上发表了题为EagleC: A deep-learning framework for detecting a full range of structural variations from bulk and single-cell contact maps 的工作。该项工作基于深度学习和集成学习策略,提出一个全新的捕捉癌症基因组中SV的计算框架EagleC。EagleC能够用于多种染色质构象捕获技术,比如Hi-C,Micro-C,HiChIP。更为重要的是,这个深度学习的模型可以直接用在单细胞Hi-C上,从而可以监测到癌症组织里的不同癌细胞结构变异的异质性。



EagleC创造性地将深度学习(deep-learning)算法在图像识别上优势和集成学习(ensemble learning)相结合,以课题组先前在多个癌症细胞系中识别的高质量SV为训练样本【1】,训练得到能够准确地在不同测序深度下识别SV的机器学习模型。为进一步降低预测的假阳性率,EagleC采用了一种递归学习(iterative training)策略,在训练过程中不断从正常细胞Hi-C数据中引入阴性样本。相比已有基于Hi-C的算法,EagleC能够检测出多一倍多SV数量,而且SV识别的准确率(precision)和召回率(recall)也都显著提高。另外由于EagleC能识别高分辨率的SV,该研究首次证实了Hi-C可以被用于在癌症样本中识别融合基因。特别值得一提的是,由EagleC识别的SV大约有20-30% 无法被目前常用WGS和长片段测序如nanopore所识别。但是这些结构变异是可以被RNA-Seq数据所验证, 而且有相当一部分Hi-C检测到SV断点在已知癌症基因附近,所以很可能与这些基因的异常表达有关系。

借助深度学习,EagleC还能够利用其他染色质构象捕获技术,如ChIA-PET、HiChIP、capture Hi-C以及单细胞Hi-C等识别SV。更重要的是,EagleC可以在癌症单细胞Hi-C数据上检测结构变异。如图下所示,EagleC精确的在四个单细胞中检测到了慢性髓系白血病中的BCR/ABL1融合基因。所以EagleC将有望成为研究肿瘤病人样本的细胞异质性,理解肿瘤细胞发育和进化的一个重要计算方法。


最后,作者们利用训练好的EagleC模型在超过100个癌症细胞系和病人样本中识别到了数千个SV。通过基因不研究发现,SV在肿瘤细胞中的形成与染色质的三维结构特征息息相关。在宏观尺度上,SV更容易发生在染色质区室A(Compartment A,代表活跃的染色质区域)之间;在局部尺度上,SV断点往往出现在染色质拓扑相关结构域(topologically associating domains/TAD)的边界附近。此外,研究还发现肿瘤相关基因的转录起始位点特异性地富集在位于TAD边界的SV断点附近。

综上所述,EagleC是基于深度学习利用染色质构像捕获技术识别基因组结构变异的全新的计算框架,对发现新的基因融合事件,辅助肿瘤分型和靶向治疗药物的设计等具有潜在的应用价值。 此外,EagleC还能用于其他物种基因组的SV检测,进而评估参考基因组的组装质量。

美国西北大学的岳峰教授为该论文的通讯作者,实验室的博士后王小滔为该论文的第一作者。此外,实验室的博士后栾宇也参与了该项工作的研究。对岳峰实验室感兴趣的同学可以浏览课题组网站:http://yuelab.org/ 并直接与岳峰教授联系。

原文链接:
https://www.science.org/doi/epdf/10.1126/sciadv.abn9215

制版人:十一



参考文献


1. Dixon, J.R. et al. Integrative detection and analysis of structural variation in cancer genomes. Nat Genet 50, 1388-1398 (2018).



转载须知

【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/135996
 
351 次点击