社区
教程
Wiki
注册
登录
创作新主题
社区所有版块导航
Python
python开源
Django
Python
DjangoApp
pycharm
DATA
docker
Elasticsearch
分享
问与答
闲聊
招聘
翻译
创业
分享发现
分享创造
求职
区块链
支付之战
aigc
aigc
chatgpt
WEB开发
linux
MongoDB
Redis
DATABASE
NGINX
其他Web框架
web工具
zookeeper
tornado
NoSql
Bootstrap
js
peewee
Git
bottle
IE
MQ
Jquery
机器学习
机器学习算法
Python88.com
反馈
公告
社区推广
产品
短视频
印度
印度
一周十大热门主题
一个回车符搞崩Git,甚至能触发远程代码执行?
AI商业洞察 | 比亚迪与香港科技大学成立具身智能联合实验室;上海19所高校开设AI专业;LGND ...
阿里千问悄悄上线 ChatGPT 平替:Qwen Chat 桌面版,MCP 功能真香!
Nginx 正式拥抱现代 JavaScript!
不止AlphaFold,「药界ChatGPT」横空出世!华人女投资人深度揭秘
Java×AI:黑马《AIGC应用与智能体开发》项目上线!
谷歌斥资24亿美元购买Windsurf技术授权,并聘请其CEO;OpenAI CEO:将推迟开放式权...
「4K超分打工仔」4KAgent横扫26项SOTA | 通吃老照片、AIGC图、卫星图、医疗影像等!
潘渡招商ETF持仓系列:Galaxy Digital -致力于成为加密货币界的“高盛”
速递|OpenAI亲自下场做Agent,ChatGPT能做Excel和PPT,Manus们还卷得动吗...
关注
Py学习
»
机器学习算法
赵莉团队利用CNN + multi-head attention深度学习模型预测果蝇染色质可及性和其演化规律
BioArtMED
• 1 年前 • 285 次点击
染色质可及性
(open chromatin accessibility)
在基因调控和生演化中的重要性近年来越来越受到关注,但我们对此的了解仍然有限。关于染色质的可及性是如何发展和演化的,学界更是知之甚少。
近日,美国洛克菲勒大学的
赵莉
实验室在
Genome Biology
杂志上发表了一篇题为
The evolution and mutational robustness of chromatin accessibility in Drosophila
的研究论文。
该团队采用了创新性的深度神经网络模型来准确预测了果蝇中的ATAC-seq峰值。他们的发现不仅表明染色质可及性在序列上有很强的保守性,而且这些可及性区域尤其是新产生的可及性区域可能是推动生物演化的关键因素
。
跨物种模型泛化和染色质可及性的保守性
研究团队使用高通量测序方法ATAC-seq在三个物种中生成了大量的染色质可及性数据。他们基于这些数据训练了深度神经网络模型,并成功准确地预测峰值。令人惊讶的是,这些模型不仅在果蝇中表现出了高度的预测准确性,而且还能够适用到其他昆虫物种,如黄热病蚊
(Aedes aegypti)
。这一点进一步证明了在不同物种中存在一套共同的基因调控机制或模式,这些机制或模式在演化过程中被保留下来。
物种特异性峰值和基因调控的演化多样性
研究通过比较不同物种的模型性能,发现染色质可及性的序列特点在各个物种中都非常相似和保守。尽管如此,研究也指出不同物种的染色质可及性存在一些差异。这些特定于某物种的特征可能标志着染色质从不可及到可及的演化过程,为我们深入探讨基因调控的演变提供了宝贵的线索。研究者发现,深度学习模型在预测演化中新出现的开放染色质区域时,准确率并不高。这可能意味着新的开放染色质区域与长久以来保守的开放染色质在序列或特征上存在差异。此外,研究还显示,新出现的开放染色质在其他物种的同源闭合区域中也有一些相应的开放染色质特征。这暗示某些区域在演化过程中可能更容易在开放和闭合状态之间切换。但这背后的生物学原理还需进一步研究来解明。
对染色质可及性突变稳健性的深度探究
该研究进一步深入了解了染色质可及性在遭遇基因突变压力下的稳健性
(robustness,又称鲁棒性)
。通过在果蝇模型中进行大规模的随机突变实验,研究团队对模型输出的稳定性进行了观察。引人注目的是,即使当基因序列出现高达20%的差异
(相当于200个突变点)
时,多数的峰和非峰状态在两种不同组织环境中仍能维持其原始状态。
这一结果暗示染色质可及性具有极高的突变稳健性。这种稳健性可能源于突变效应呈现的重尾分布特性
(heavy-tailed distribution)
。也就是说,大多数突变对染色质可及性几乎没有影响,只有少数突变会产生显著效应。
序列冗余性与染色质可及性的关联
通过计算模拟的敲入/敲出突变分析,研究团队揭示了染色质可及性可以由极短的连续序列进行精确预测。具体来说,短至5-10个碱基对的序列也表现出明显的判别能力。这一结果暗示染色质可及性可能存在序列冗余性,即多个不同的碱基序列可能都能导致相同的染色质状态。
这种冗余性可能作为一种生物进化中的自适应机制,使生物能在面临环境变化和基因突变压力时,维持基因调控的稳态。
模型在群体遗传学和多组织数据中的应用潜力
研究团队运用了“强选择-弱突变”
(Strong Selection Weak Mutation, SSWM)
模型进行了计算模拟实验。实验数据显示,在仅对头部组织施加选择压力的情况下,染色质可及性在短时间内
(即几代之内)
能显著提高。值得注意的是,这种可及性的提高还对未受选择压力影响的其他组织
(如睾丸组织)
产生了影响。这进一步证实了染色质可及性在强选择压下具有高度的可塑性。
该研究进一步探究了在不同组织环境下,选择压力方向不一致时对染色质可及性的影响。研究结果揭示,特定组织
(例如仅限于头部组织)
的选择作用能够减缓适应进程,并转变染色质从不可接近到可接近的突变途径。这一发现意味着存在多条基本上互不干扰的突变路径,从而为组织特异性峰的普遍出现提供了解释。
此外,该研究借助TF-MoDISco技术成功识别出了与染色质可及性有预测能力的转录因子结合序列。这些序列包括但不限于GAF、cad和ttk等与染色质可及性密切相关的转录因子,对于深入了解染色质可及性的调控机制具有至关重要的作用。
总结
综上,该团队使用CNN + multi-head attention深度学习模型成功预测了果蝇不同种类和组织的染色质可及性。染色质可及性的序列特征在进化过程中显示出高度的保守性,同时也表现出在强烈自然选择压力下的适应性和抗突变稳健性。该研究证明了深度学习在基因调控机制和进化生物学领域中的广阔应用前景。
原文链接:
https://genomebiology.biomedcentral.com/articles/10.1186/s13059-023-03079-5
制版人:十一
转载须知
【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。
Python社区是高质量的Python/Django开发社区
本文地址:
http://www.python88.com/topic/164030
285 次点击
登录后回复