社区
教程
Wiki
注册
登录
创作新主题
社区所有版块导航
Python
python开源
Django
Python
DjangoApp
pycharm
DATA
docker
Elasticsearch
分享
问与答
闲聊
招聘
翻译
创业
分享发现
分享创造
求职
区块链
支付之战
aigc
aigc
chatgpt
WEB开发
linux
MongoDB
Redis
DATABASE
NGINX
其他Web框架
web工具
zookeeper
tornado
NoSql
Bootstrap
js
peewee
Git
bottle
IE
MQ
Jquery
机器学习
机器学习算法
Python88.com
反馈
公告
社区推广
产品
短视频
印度
印度
一周十大热门主题
用Python优雅地写LaTeX
易点天下入选虎嗅智库大鲸榜AIGC数字营销技术商TOP15
从AIGC到AGI,为什么我们需要更多的“技术信仰派”?
Python 3.8 新运算符 := 让我们懒出新高度
建筑人坦白局 | AIGC如何引爆传统设计?
UTM坐标转WGS84坐标,以及怎么查看python源代码!
开源机器学习编译器的“理想与现实” src:网页链接 -20240423084002
为什么Python是网络安全人最爱的编程语言?
危!比 Python 快 90,000 倍的 Mojo 官宣开源
为Python应用选择最好的Docker镜像
关注
Py学习
»
机器学习算法
【Nucleic Acids Research】利用生成式深度学习模型设计蓝藻细菌的合成启动子
生信宝典
• 2 周前 • 249 次点击
题目:Design of synthetic promoters for cyanobacteria with generative deep-learning model
期刊:Nucleic Acids Research
影响因子:19.16
发表时间:2023.5.29
原文作者:Euijin Seo, Yun-Nam Choi, Ye Rim Shin, Donghyuk Kim, Jeong Wook Lee
作者单位:蔚山国立科学技术研究院、浦项科技大学
摘 要
该研究提供了一个基于深度学习的一般框架,使用生成模型来设计和评估蓝藻的合成启动子,并通过无细胞转录试验验证生成的启动子序列是否可以起始转录。通过位置权重矩阵和k-mer分析,作者证实他们的模型从数据集中捕获了蓝藻启动子的有效特征。关键亚区鉴定分析一致揭示了蓝藻启动子中-10区序列基序的重要性。通过无细胞转录试验验证了生成的启动子序列可以有效地驱动转录。
主要内容
1
、
一种深度学习辅助合成启动子生成方案
本研究旨在利用深度学习方法合成蓝藻启动子序列。整个过程包括三个步骤
(图1):(i)
使用变分自编码器(VAE)模型生成启动子
;(ii)
使用卷积神经网络(CNN)模型预测启动子强度
;(iii)验证合成启动子的转录活性。在启动子生成步骤,来自于集胞藻属的dRNA-seq的天然启动子序列作为VAE模型的训练数据,生成新的合成启动子序列。在启动子强度预测这步,使用每个启动子序列和dRNA-seq的reads数训练CNN模型,用于预测由VAE模型产生的启动子序列的强度。最后,使用先前开发的蓝藻无细胞转录实验去验证预测。
图
1 基于深度学习方法的蓝藻合成启动子设计框架
2
、
使用
variational autoencoder (VAE)生成合成启动子序列
图
2
利用位置权重矩阵
(PWM)和6-mer频率分析对变分自编码器(VAE)模型进行评价
利用
VAE模型,生成了1万个合成启动子序列。使用PWM和6-mer频率分析评估生成的序列是否具有基因表达启动子的功能,都得到了较好的结果。
3
、
使用预测
CNN模型预测启动子强度
使用
CNN开发了启动子序列的预测模型。来自dRNA-seq研究的基因表达数据被用来训练CNN模型。使用k-fold交叉验证来避免过拟合。根据预测的启动子强度与实验确定的基因表达水平之间的Pearson相关性评估预测模型,并证实了预测的准确性(P=0.41) 。
4
、
关键亚区识别
图
3 关键亚区识别
使用
CNN模型通过以下程序评估子区域改变前后的启动子强度。将3-mer指定为一个单位子区域,从-99到-1,得到33个子区域(图3A)。创建了两个子区域的所有可能组合,产生了528个不同的集合。对于指定两个独特变异位点的每一组,评估了红色矩形指定的两个亚区变异前后所有3712个启动子的强度(图3A)。计算两组之间的Pearson相关系数,一组是与原始序列对应的3712个启动子强度,另一组是核苷酸序列改变后的启动子强度(图3A)。经计算Pearson相关系数,显示的值如图3B所示。从Set 1到Set 528重复了这个过程,并在图3C中表示Pearson相关系数,以显示哪个子区域对启动子强度至关重要。除了启动子区域-99到-1,对启动子区域-100到-2和-98到-3分别重复了相同的分析。从关键子区域鉴定中,分别发现-15至-7区域、-13至-8区域和-14至-6区域,即总的-15至-6区域,与其他区域相比,对启动子强度很重要(图3)。这个结果与之前的PWM结果一致(图2A)。
5
、
数据细化,提高预测精度
通过排除相对较少特征的数据试图去定义训练数据集。基于在
PWM分析中确定的一致启动子序列(图2A),最可信的6-mer共识是-12和-7之间的TANANT。试图用TANANT收集天然启动子序列,但将范围扩大到-13到-6之间,以允许启动子共识序列的位置变化。在蓝藻中发现了在-13到-6之间包含TANANT的826个启动子。然而,当使用新的数据再一次训练CNN模型时,这个模型的预测准确性并没有得到提高。然后,将共识序列的约束(4个bps)减少到2个bp(图4A),并制作了NANNNT、NANANT和TANNNT集合,分别包含3339、1254和1933个启动子。使用这三个精炼的数据集,重新训练CNN模型,发现使用TANNNT集合的CNN模型对启动子强度的预测能力显著提高(图4B)。这一结果表明,对训练数据进行细化可以成为提高预测CNN模型预测精度的一种简单策略。
图
4 改进训练数据以提高预测精度
6
、
利用无细胞转录实验验证合成启动子的转录活性
使用先前开发的基于无细胞转录
(CF-TX)的高效启动子强度评估方法验证了它们的转录活性。可以通过测量CF-TX反应的荧光来有效地量化启动子强度(图5A)。为了确认合成的启动子是否驱动蓝藻转录,选择了前20个序列,构建了含有这些启动子序列的crRNA表达质粒;携带S9和S10启动子的两个质粒很难产生,用S21和S22启动子代替,总共20个合成启动子进行实验验证。另外准备了五个随机序列,dummy 1-5作为阴性对照。与背景荧光相比,所有5个假序列的转录活性都可以忽略不计,背景荧光是在没有任何构建DNA的CF-TX中测量的,这表明假序列不具有启动子的功能。相反,除S18外的所有合成启动子都比假序列显示出更高的荧光,表明每个合成启动子介导的报告基因crRNA的高效转录。与显示最高荧光的一个假序列(D1)相比,95%的合成启动子显示出出色的转录活性。
为了进行比较,对原生
Synechocystis启动子序列进行了类似的评估。从训练数据集中选择了排名前12位的天然启动子序列,以及另外4个在cyanobacteria代谢工程中广泛使用的Synechocystis启动子,即psbA2S、psaA、rbcL和rnpB。合成的启动子表现出不同范围的强度,4个新启动子比蓝藻启动子psbA2S的活性更高(图5B)。
7
、
合成启动子的进一步分析和体内验证
试图验证合成启动子的高启动子活性是否是由于核心启动子序列,而不是由于合成启动子其他区域内丰富的
AT-rich区域。为此,将启动子强度最高的S12启动子序列(图5B)划分为3个50-bp的片段。随后,确定crRNA是否在含有AT-rich区域的部分序列下产生。结果表明,第一个50-bp序列和中间50-bp序列都没有促进任何转录活性。其次,将前三个启动子(S12, S6和S5)的-10元素替换为三个虚拟序列(D1, D2和D3)的相应序列。这种限制性突变导致其作为启动子的原始活性完全丧失。这些结果表明在合成的启动子序列中不存在其他有效的启动子序列。
研究了合成启动子序列与天然启动子的不同之处。对
10000个合成启动子进行了核苷酸BLAST搜索。对于合成启动子序列和假启动子序列,在针对整个
Synechocystis
sp. PCC 6803基因组的核苷酸BLAST搜索中没有发现显著的相似性。
图
5 使用基于CRISPR/cas12的无细胞转录试验验证启动子活性
为了进一步证明它们作为启动子的功能,将生成的启动子应用于
YFP的表达,并在体内监测表达水平。在体内测试的所有合成启动子都显示出比假序列更高的YFP表达,证明它们能够促进蓝藻中的基因表达(图5C)。研究了预测的启动子强度如何与实验测量的强度相关,得到了良好的相关性。
结 论
本研究通过利用原始启动子数据训练生成式模型VAE从而生成新的启动子序列,并对该启动子序列的有用性以及与原始数据的相似性进行评估,提供一种生成启动子序列的框架。
原文链接
https://doi.org/10.1093/nar/gkad451
END
文案编辑:陈聪葛
审 稿:彭 冲
排 版:魏立坤
高颜值免费 SCI 在线绘图
(
点击图片直达
)
最全植物基因组数据库IMP
(
点击图片直达
)
往期精品
(
点击图片直达文字对应教程
)
机器学习
Python社区是高质量的Python/Django开发社区
本文地址:
http://www.python88.com/topic/169000
249 次点击
登录后回复