Py学习  »  机器学习算法

【Nucleic Acids Research】利用生成式深度学习模型设计蓝藻细菌的合成启动子

生信宝典 • 2 周前 • 249 次点击  
题目:Design of synthetic promoters for cyanobacteria with generative deep-learning model
期刊:Nucleic Acids Research
影响因子:19.16
发表时间:2023.5.29
原文作者:Euijin Seo, Yun-Nam Choi, Ye Rim Shin, Donghyuk Kim, Jeong Wook Lee
作者单位:蔚山国立科学技术研究院、浦项科技大学


摘   要   

该研究提供了一个基于深度学习的一般框架,使用生成模型来设计和评估蓝藻的合成启动子,并通过无细胞转录试验验证生成的启动子序列是否可以起始转录。通过位置权重矩阵和k-mer分析,作者证实他们的模型从数据集中捕获了蓝藻启动子的有效特征。关键亚区鉴定分析一致揭示了蓝藻启动子中-10区序列基序的重要性。通过无细胞转录试验验证了生成的启动子序列可以有效地驱动转录。

 主要内容    

1一种深度学习辅助合成启动子生成方案

本研究旨在利用深度学习方法合成蓝藻启动子序列。整个过程包括三个步骤(图1):(i)使用变分自编码器(VAE)模型生成启动子;(ii)使用卷积神经网络(CNN)模型预测启动子强度;(iii)验证合成启动子的转录活性。在启动子生成步骤,来自于集胞藻属的dRNA-seq的天然启动子序列作为VAE模型的训练数据,生成新的合成启动子序列。在启动子强度预测这步,使用每个启动子序列和dRNA-seq的reads数训练CNN模型,用于预测由VAE模型产生的启动子序列的强度。最后,使用先前开发的蓝藻无细胞转录实验去验证预测。

1 基于深度学习方法的蓝藻合成启动子设计框架


2 使用variational autoencoder (VAE)生成合成启动子序列

2 利用位置权重矩阵(PWM)和6-mer频率分析对变分自编码器(VAE)模型进行评价

利用VAE模型,生成了1万个合成启动子序列。使用PWM和6-mer频率分析评估生成的序列是否具有基因表达启动子的功能,都得到了较好的结果。


3使用预测CNN模型预测启动子强度

使用CNN开发了启动子序列的预测模型。来自dRNA-seq研究的基因表达数据被用来训练CNN模型。使用k-fold交叉验证来避免过拟合。根据预测的启动子强度与实验确定的基因表达水平之间的Pearson相关性评估预测模型,并证实了预测的准确性(P=0.41) 。


4关键亚区识别

3 关键亚区识别

使用CNN模型通过以下程序评估子区域改变前后的启动子强度。将3-mer指定为一个单位子区域,从-99到-1,得到33个子区域(图3A)。创建了两个子区域的所有可能组合,产生了528个不同的集合。对于指定两个独特变异位点的每一组,评估了红色矩形指定的两个亚区变异前后所有3712个启动子的强度(图3A)。计算两组之间的Pearson相关系数,一组是与原始序列对应的3712个启动子强度,另一组是核苷酸序列改变后的启动子强度(图3A)。经计算Pearson相关系数,显示的值如图3B所示。从Set 1到Set 528重复了这个过程,并在图3C中表示Pearson相关系数,以显示哪个子区域对启动子强度至关重要。除了启动子区域-99到-1,对启动子区域-100到-2和-98到-3分别重复了相同的分析。从关键子区域鉴定中,分别发现-15至-7区域、-13至-8区域和-14至-6区域,即总的-15至-6区域,与其他区域相比,对启动子强度很重要(图3)。这个结果与之前的PWM结果一致(图2A)。


5数据细化,提高预测精度

通过排除相对较少特征的数据试图去定义训练数据集。基于在PWM分析中确定的一致启动子序列(图2A),最可信的6-mer共识是-12和-7之间的TANANT。试图用TANANT收集天然启动子序列,但将范围扩大到-13到-6之间,以允许启动子共识序列的位置变化。在蓝藻中发现了在-13到-6之间包含TANANT的826个启动子。然而,当使用新的数据再一次训练CNN模型时,这个模型的预测准确性并没有得到提高。然后,将共识序列的约束(4个bps)减少到2个bp(图4A),并制作了NANNNT、NANANT和TANNNT集合,分别包含3339、1254和1933个启动子。使用这三个精炼的数据集,重新训练CNN模型,发现使用TANNNT集合的CNN模型对启动子强度的预测能力显著提高(图4B)。这一结果表明,对训练数据进行细化可以成为提高预测CNN模型预测精度的一种简单策略。

4 改进训练数据以提高预测精度


6利用无细胞转录实验验证合成启动子的转录活性

使用先前开发的基于无细胞转录(CF-TX)的高效启动子强度评估方法验证了它们的转录活性。可以通过测量CF-TX反应的荧光来有效地量化启动子强度(图5A)。为了确认合成的启动子是否驱动蓝藻转录,选择了前20个序列,构建了含有这些启动子序列的crRNA表达质粒;携带S9和S10启动子的两个质粒很难产生,用S21和S22启动子代替,总共20个合成启动子进行实验验证。另外准备了五个随机序列,dummy 1-5作为阴性对照。与背景荧光相比,所有5个假序列的转录活性都可以忽略不计,背景荧光是在没有任何构建DNA的CF-TX中测量的,这表明假序列不具有启动子的功能。相反,除S18外的所有合成启动子都比假序列显示出更高的荧光,表明每个合成启动子介导的报告基因crRNA的高效转录。与显示最高荧光的一个假序列(D1)相比,95%的合成启动子显示出出色的转录活性。

为了进行比较,对原生Synechocystis启动子序列进行了类似的评估。从训练数据集中选择了排名前12位的天然启动子序列,以及另外4个在cyanobacteria代谢工程中广泛使用的Synechocystis启动子,即psbA2S、psaA、rbcL和rnpB。合成的启动子表现出不同范围的强度,4个新启动子比蓝藻启动子psbA2S的活性更高(图5B)。


7合成启动子的进一步分析和体内验证

试图验证合成启动子的高启动子活性是否是由于核心启动子序列,而不是由于合成启动子其他区域内丰富的AT-rich区域。为此,将启动子强度最高的S12启动子序列(图5B)划分为3个50-bp的片段。随后,确定crRNA是否在含有AT-rich区域的部分序列下产生。结果表明,第一个50-bp序列和中间50-bp序列都没有促进任何转录活性。其次,将前三个启动子(S12, S6和S5)的-10元素替换为三个虚拟序列(D1, D2和D3)的相应序列。这种限制性突变导致其作为启动子的原始活性完全丧失。这些结果表明在合成的启动子序列中不存在其他有效的启动子序列。

研究了合成启动子序列与天然启动子的不同之处。对10000个合成启动子进行了核苷酸BLAST搜索。对于合成启动子序列和假启动子序列,在针对整个Synechocystis sp. PCC 6803基因组的核苷酸BLAST搜索中没有发现显著的相似性。 

5 使用基于CRISPR/cas12的无细胞转录试验验证启动子活性

为了进一步证明它们作为启动子的功能,将生成的启动子应用于YFP的表达,并在体内监测表达水平。在体内测试的所有合成启动子都显示出比假序列更高的YFP表达,证明它们能够促进蓝藻中的基因表达(图5C)。研究了预测的启动子强度如何与实验测量的强度相关,得到了良好的相关性。

结  论   

 
本研究通过利用原始启动子数据训练生成式模型VAE从而生成新的启动子序列,并对该启动子序列的有用性以及与原始数据的相似性进行评估,提供一种生成启动子序列的框架。

原文链接   

https://doi.org/10.1093/nar/gkad451


END  

文案编辑:陈聪葛
审       稿:彭    冲
排       版:魏立坤


高颜值免费 SCI 在线绘图(点击图片直达)


最全植物基因组数据库IMP (点击图片直达)

往期精品(点击图片直达文字对应教程)

机器学习




Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/169000
 
249 次点击