Py学习  »  机器学习算法

利用AI深度学习,可快速发现基因组中的致癌突变

癌图腾 • 1 年前 • 144 次点击  

撰文丨甲遇庚
编辑丨王多鱼
排版丨水成文

癌症是一个进化的过程,有突变积累,然后有突变选择。突变是随机发生的,这也是达尔文进化论的本质,这也意味着,细胞正在等待下一次突变,基因组中所有位点的基因都可能会发生突变,导致细胞更不健康、但可能却比其他细胞更具有增殖优势,从而使它们迅速生长,并最终构建了癌症机体。

一直以来,识别那些赋予增殖优势的癌症驱动突变是了解癌症的核心,但这种类型的预测在过去一直具有挑战性,因为一些基因组区域有着极高的“乘客突变(Passenger Mutations)率,它们是中性的,但却淹没了实际驱动癌症的“司机突变(Driver Mutations)信号。

2022年6月20日,麻省理工学院(MIT)Bonnie Berger 教授和哈佛医学院 Po-Ru Loh 研究员等在 Nature 子刊 Nature Biotechnology 上发表了题为:Genome-wide mapping of somatic mutation rates uncovers drivers of cancer 的研究论文。

为了准确揭示基因组中导致癌症的突变,研究团队建立了基于概率性深度学习的 Dig 方法,这是一种可以在基因组中任何位点搜索驱动因素和突变的模型,它可以精确确定乘客突变的数量,然后在整个基因组中寻找意外积累的突变区域,即实际驱动癌症的司机突变(驱动突变)

基于这种方法,研究人员发现基因组中的突变似乎有助于5-10%的癌症患者的肿瘤生长。这些发现可以帮助医生确定更有可能成功治疗这些患者的药物。尤其是至少30%的癌症患者没有可用于指导治疗的可检测到的驱动突变。


自从20多年前人类基因组被测序以来,研究人员一直在搜索基因组以试图找到导致细胞不受控增殖或逃避免疫系统的致癌突变,并已成功产生了诸如表皮生长因子受体(EGFR)和 BRAF 等靶点。EGFR 通常在肺部肿瘤中发生突变;BRAF 是黑色素瘤的常见驱动突变。这两种突变现在都可以被特定药物靶向。然而,蛋白质编码基因只占基因组的 2% 左右,另外的 98% 也含有可能在细胞中发生的突变。因此,很难弄清楚非蛋白质编码区域的突变是否与癌症发展有关。

在这项新研究中,研究人员发现,在5-10%的癌症患者中,整个基因组的突变似乎都有助于肿瘤的生长。研究团队表示,这些发现可以帮助医生确定更有可能成功治疗患者的药物。目前,至少30%的癌症患者没有可检测到以用于指导治疗的驱动突变。

该研究通讯作者、Bonnie Berger 教授说:“我们确实缺乏能在蛋白质编码区域之外搜索驱动突变的计算工具。这就是我们现在做的事情:设计一种计算方法,不仅可以查看基因组中 2% 的蛋白质编码,而且还要查看 100% 的蛋白质。”

为此,研究人员根据来自37种不同类型癌症的基因组数据对 Dig 进行训练,以寻找发生频率比预期更高的突变,从而确定每种癌症的背景突变率。用于训练 Dig 的数据集来自“表观基因组学路线图项目”( Roadmap Epigenomics Project )和“泛癌症全基因组分析”( Pan-Cancer Analysis of Whole genome, PCAWG )。Dig 对这些数据的分析为研究人员提供了一幅整个基因组中预期乘客突变率的景观,这样,任何一组区域的预期突变率都可以与整个基因组中任何位点观察到的突变进行比较。


使用 Dig 预测,研究人员还可以增加已知导致癌症的潜在突变情况。目前,当对癌症患者的肿瘤进行致癌突变筛查时,大约三分之二的情况下会出现已知的驱动突变。这项新研究结果为另外5-10%的患者提供了潜在驱动突变。

此外,研究团队关注的一种非编码突变是“隐性剪接突变”,该突变被发现存在于内含子中。内含子(Intron)是真核生物编码基因转录的 mRNA 中被剪切掉的非编码片段。真核生物的编码基因通常由编码蛋白质的外显子和不编码的内含子组成。隐性剪接突变可以扰乱剪接它们的细胞机制,从而导致mRNA成熟过程中的剪接错误。


利用 Dig 模型,研究人员发现隐性剪接位点的数量占到了在肿瘤抑制基因中驱动突变的5%左右,许多隐性剪接突变似乎会破坏肿瘤抑制基因

靶向这些突变可以为特定患者提供一种新的治疗方法。目前,一种潜在疗法正在开发中,它使用的是反义寡核苷酸(ASO)。ASO 是一类在基因水平调控的分子药物,它通过序列特异地与靶基因 DNA 或 mRNA 结合而调控特定基因表达。

研究人员表示,如果能以某种方式让这些突变消失,那么就能解决图标带来的问题,肿瘤抑制基因还可以继续工作,也许还能对抗癌症。ASO 可能是一个很好的应用。

该团队发现的另一个非编码驱动突变高度集中的区域是在一些肿瘤抑制基因的非翻译区。肿瘤抑制基因 TP53 在许多类型的癌症中都存在缺陷,并已被发现在被称为 5 '非翻译区(5' UTR)的序列中积累了许多缺失。他们在肿瘤抑制基因 ELF3 中也发现了同样的模式。


研究人员还使用 Dig 来检查已知的常见突变是否也可能导致不同类型的癌症。例如,以前与黑色素瘤有关的 BRAF 也有助于其他类型癌症中较小比例的癌症进展,包括胰腺癌、肝癌和胃食道癌等。

该研究第一作者 Maxwell Sherman 博士表示,这些发现表明,常见驱动突变与罕见驱动突变之间实际上有很多重叠之处。这为治疗方法的再利用提供了机会,并有助于指导我们开展临床试验,以将这些药物从仅在一种癌症中获得批准,扩大到在多种癌症中获得批准,从而帮助更多患者。

论文链接
https://www.nature.com/articles/s41587-022-01353-8
来源: 生物世界 2022-06-24

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/146476
 
144 次点击