社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

赵莉团队利用CNN + multi-head attention深度学习模型预测果蝇染色质可及性和其演化规律

BioArtMED • 1 年前 • 285 次点击  

染色质可及性 (open chromatin accessibility) 在基因调控和生演化中的重要性近年来越来越受到关注,但我们对此的了解仍然有限。关于染色质的可及性是如何发展和演化的,学界更是知之甚少。

近日,美国洛克菲勒大学的赵莉实验室在Genome Biology杂志上发表了一篇题为The evolution and mutational robustness of chromatin accessibility in Drosophila的研究论文。该团队采用了创新性的深度神经网络模型来准确预测了果蝇中的ATAC-seq峰值。他们的发现不仅表明染色质可及性在序列上有很强的保守性,而且这些可及性区域尤其是新产生的可及性区域可能是推动生物演化的关键因素


跨物种模型泛化和染色质可及性的保守性

研究团队使用高通量测序方法ATAC-seq在三个物种中生成了大量的染色质可及性数据。他们基于这些数据训练了深度神经网络模型,并成功准确地预测峰值。令人惊讶的是,这些模型不仅在果蝇中表现出了高度的预测准确性,而且还能够适用到其他昆虫物种,如黄热病蚊(Aedes aegypti)。这一点进一步证明了在不同物种中存在一套共同的基因调控机制或模式,这些机制或模式在演化过程中被保留下来。


物种特异性峰值和基因调控的演化多样性

研究通过比较不同物种的模型性能,发现染色质可及性的序列特点在各个物种中都非常相似和保守。尽管如此,研究也指出不同物种的染色质可及性存在一些差异。这些特定于某物种的特征可能标志着染色质从不可及到可及的演化过程,为我们深入探讨基因调控的演变提供了宝贵的线索。研究者发现,深度学习模型在预测演化中新出现的开放染色质区域时,准确率并不高。这可能意味着新的开放染色质区域与长久以来保守的开放染色质在序列或特征上存在差异。此外,研究还显示,新出现的开放染色质在其他物种的同源闭合区域中也有一些相应的开放染色质特征。这暗示某些区域在演化过程中可能更容易在开放和闭合状态之间切换。但这背后的生物学原理还需进一步研究来解明。

对染色质可及性突变稳健性的深度探究

该研究进一步深入了解了染色质可及性在遭遇基因突变压力下的稳健性(robustness,又称鲁棒性)。通过在果蝇模型中进行大规模的随机突变实验,研究团队对模型输出的稳定性进行了观察。引人注目的是,即使当基因序列出现高达20%的差异(相当于200个突变点)时,多数的峰和非峰状态在两种不同组织环境中仍能维持其原始状态。

这一结果暗示染色质可及性具有极高的突变稳健性。这种稳健性可能源于突变效应呈现的重尾分布特性(heavy-tailed distribution)。也就是说,大多数突变对染色质可及性几乎没有影响,只有少数突变会产生显著效应。


序列冗余性与染色质可及性的关联

通过计算模拟的敲入/敲出突变分析,研究团队揭示了染色质可及性可以由极短的连续序列进行精确预测。具体来说,短至5-10个碱基对的序列也表现出明显的判别能力。这一结果暗示染色质可及性可能存在序列冗余性,即多个不同的碱基序列可能都能导致相同的染色质状态。

这种冗余性可能作为一种生物进化中的自适应机制,使生物能在面临环境变化和基因突变压力时,维持基因调控的稳态。

模型在群体遗传学和多组织数据中的应用潜力

研究团队运用了“强选择-弱突变”(Strong Selection Weak Mutation, SSWM) 模型进行了计算模拟实验。实验数据显示,在仅对头部组织施加选择压力的情况下,染色质可及性在短时间内(即几代之内)能显著提高。值得注意的是,这种可及性的提高还对未受选择压力影响的其他组织(如睾丸组织)产生了影响。这进一步证实了染色质可及性在强选择压下具有高度的可塑性。

该研究进一步探究了在不同组织环境下,选择压力方向不一致时对染色质可及性的影响。研究结果揭示,特定组织(例如仅限于头部组织)的选择作用能够减缓适应进程,并转变染色质从不可接近到可接近的突变途径。这一发现意味着存在多条基本上互不干扰的突变路径,从而为组织特异性峰的普遍出现提供了解释。

此外,该研究借助TF-MoDISco技术成功识别出了与染色质可及性有预测能力的转录因子结合序列。这些序列包括但不限于GAF、cad和ttk等与染色质可及性密切相关的转录因子,对于深入了解染色质可及性的调控机制具有至关重要的作用。

总结

综上,该团队使用CNN + multi-head attention深度学习模型成功预测了果蝇不同种类和组织的染色质可及性。染色质可及性的序列特征在进化过程中显示出高度的保守性,同时也表现出在强烈自然选择压力下的适应性和抗突变稳健性。该研究证明了深度学习在基因调控机制和进化生物学领域中的广阔应用前景。

原文链接:
https://genomebiology.biomedcentral.com/articles/10.1186/s13059-023-03079-5


制版人:十一


转载须知

【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/164030
 
285 次点击