【Nucleic Acids Research】利用生成式深度学习模型设计蓝藻细菌的合成启动子

题目：Design of synthetic promoters for cyanobacteria with generative deep-learning model

期刊：Nucleic Acids Research

影响因子：19.16

发表时间：2023.5.29

原文作者：Euijin Seo, Yun-Nam Choi, Ye Rim Shin, Donghyuk Kim, Jeong Wook Lee

作者单位：蔚山国立科学技术研究院、浦项科技大学

摘要

该研究提供了一个基于深度学习的一般框架，使用生成模型来设计和评估蓝藻的合成启动子，并通过无细胞转录试验验证生成的启动子序列是否可以起始转录。通过位置权重矩阵和k-mer分析，作者证实他们的模型从数据集中捕获了蓝藻启动子的有效特征。关键亚区鉴定分析一致揭示了蓝藻启动子中-10区序列基序的重要性。通过无细胞转录试验验证了生成的启动子序列可以有效地驱动转录。

主要内容

1、一种深度学习辅助合成启动子生成方案

本研究旨在利用深度学习方法合成蓝藻启动子序列。整个过程包括三个步骤(图1):(i)使用变分自编码器(VAE)模型生成启动子；(ii)使用卷积神经网络(CNN)模型预测启动子强度；(iii)验证合成启动子的转录活性。在启动子生成步骤，来自于集胞藻属的dRNA-seq的天然启动子序列作为VAE模型的训练数据，生成新的合成启动子序列。在启动子强度预测这步，使用每个启动子序列和dRNA-seq的reads数训练CNN模型，用于预测由VAE模型产生的启动子序列的强度。最后，使用先前开发的蓝藻无细胞转录实验去验证预测。

图1 基于深度学习方法的蓝藻合成启动子设计框架

2、 使用variational autoencoder (VAE)生成合成启动子序列

图2 利用位置权重矩阵(PWM)和6-mer频率分析对变分自编码器(VAE)模型进行评价

利用VAE模型，生成了1万个合成启动子序列。使用PWM和6-mer频率分析评估生成的序列是否具有基因表达启动子的功能，都得到了较好的结果。

3、使用预测CNN模型预测启动子强度

使用CNN开发了启动子序列的预测模型。来自dRNA-seq研究的基因表达数据被用来训练CNN模型。使用k-fold交叉验证来避免过拟合。根据预测的启动子强度与实验确定的基因表达水平之间的Pearson相关性评估预测模型，并证实了预测的准确性(P=0.41) 。

4、关键亚区识别

图3 关键亚区识别

使用CNN模型通过以下程序评估子区域改变前后的启动子强度。将3-mer指定为一个单位子区域，从-99到-1，得到33个子区域(图3A)。创建了两个子区域的所有可能组合，产生了528个不同的集合。对于指定两个独特变异位点的每一组，评估了红色矩形指定的两个亚区变异前后所有3712个启动子的强度(图3A)。计算两组之间的Pearson相关系数，一组是与原始序列对应的3712个启动子强度，另一组是核苷酸序列改变后的启动子强度(图3A)。经计算Pearson相关系数，显示的值如图3B所示。从Set 1到Set 528重复了这个过程，并在图3C中表示Pearson相关系数，以显示哪个子区域对启动子强度至关重要。除了启动子区域-99到-1，对启动子区域-100到-2和-98到-3分别重复了相同的分析。从关键子区域鉴定中，分别发现-15至-7区域、-13至-8区域和-14至-6区域，即总的-15至-6区域，与其他区域相比，对启动子强度很重要(图3)。这个结果与之前的PWM结果一致(图2A)。

5、数据细化，提高预测精度

通过排除相对较少特征的数据试图去定义训练数据集。基于在PWM分析中确定的一致启动子序列(图2A)，最可信的6-mer共识是-12和-7之间的TANANT。试图用TANANT收集天然启动子序列，但将范围扩大到-13到-6之间，以允许启动子共识序列的位置变化。在蓝藻中发现了在-13到-6之间包含TANANT的826个启动子。然而，当使用新的数据再一次训练CNN模型时，这个模型的预测准确性并没有得到提高。然后，将共识序列的约束(4个bps)减少到2个bp(图4A)，并制作了NANNNT、NANANT和TANNNT集合，分别包含3339、1254和1933个启动子。使用这三个精炼的数据集，重新训练CNN模型，发现使用TANNNT集合的CNN模型对启动子强度的预测能力显著提高(图4B)。这一结果表明，对训练数据进行细化可以成为提高预测CNN模型预测精度的一种简单策略。

图4 改进训练数据以提高预测精度

6、利用无细胞转录实验验证合成启动子的转录活性

使用先前开发的基于无细胞转录(CF-TX)的高效启动子强度评估方法验证了它们的转录活性。可以通过测量CF-TX反应的荧光来有效地量化启动子强度(图5A)。为了确认合成的启动子是否驱动蓝藻转录，选择了前20个序列，构建了含有这些启动子序列的crRNA表达质粒;携带S9和S10启动子的两个质粒很难产生，用S21和S22启动子代替，总共20个合成启动子进行实验验证。另外准备了五个随机序列，dummy 1-5作为阴性对照。与背景荧光相比，所有5个假序列的转录活性都可以忽略不计，背景荧光是在没有任何构建DNA的CF-TX中测量的，这表明假序列不具有启动子的功能。相反，除S18外的所有合成启动子都比假序列显示出更高的荧光，表明每个合成启动子介导的报告基因crRNA的高效转录。与显示最高荧光的一个假序列(D1)相比，95%的合成启动子显示出出色的转录活性。

为了进行比较，对原生Synechocystis启动子序列进行了类似的评估。从训练数据集中选择了排名前12位的天然启动子序列，以及另外4个在cyanobacteria代谢工程中广泛使用的Synechocystis启动子，即psbA2S、psaA、rbcL和rnpB。合成的启动子表现出不同范围的强度，4个新启动子比蓝藻启动子psbA2S的活性更高(图5B)。

7、合成启动子的进一步分析和体内验证

试图验证合成启动子的高启动子活性是否是由于核心启动子序列，而不是由于合成启动子其他区域内丰富的AT-rich区域。为此，将启动子强度最高的S12启动子序列(图5B)划分为3个50-bp的片段。随后，确定crRNA是否在含有AT-rich区域的部分序列下产生。结果表明，第一个50-bp序列和中间50-bp序列都没有促进任何转录活性。其次，将前三个启动子(S12, S6和S5)的-10元素替换为三个虚拟序列(D1, D2和D3)的相应序列。这种限制性突变导致其作为启动子的原始活性完全丧失。这些结果表明在合成的启动子序列中不存在其他有效的启动子序列。

研究了合成启动子序列与天然启动子的不同之处。对10000个合成启动子进行了核苷酸BLAST搜索。对于合成启动子序列和假启动子序列，在针对整个Synechocystis sp. PCC 6803基因组的核苷酸BLAST搜索中没有发现显著的相似性。