NAR | 江南大学邓禹等团队揭示深度学习引导大肠杆菌核心启动子的可编程设计

iNature

核心启动子是调控转录起始的关键元件，但由于复杂的序列-功能关系以及现有基于人工智能的方法普遍性有限，准确预测和设计其强度仍然具有挑战性。

2025年9月3日，江南大学邓禹、周胜虎和刘洋共同通讯在Nucleic Acids Research在线发表题为“Deep learning guided programmable design of Escherichia coli core promoters from sequence architecture to strength control”的研究论文。该研究开发了一个模块化平台，将合理的文库设计、预测模型和生成优化集成到一个闭环工作流程中，用于端到端的核心启动子工程。

核心启动子的保守区和间隔区对转录强度有不同的影响，前者导致大规模变异，后者则使转录强度分级更精细。基于此，作者采用突变-条形码-反向测序方法，构建了一个包含112,955个变体的合成启动子文库，这些变体冗余度极低，表达范围达16,226倍。基于该数据集训练的基于Transformer的模型与实验测量的启动子强度皮尔逊相关系数达到0.87。该系统与条件扩散模型相结合，能够从头生成具有特定强度的启动子序列，设计与测量相关性达到0.95，并在不同的序列环境下保持较高的准确度（R = 0.93）。设计的启动子始终保持其预期的强度梯度，展现出强大的即插即用功能。这项工作建立了一个可扩展且易于扩展的平台 (www.yudenglab.com)，用于深度学习引导的大肠杆菌核心启动子的可编程设计，从而实现精准的转录调控。

启动子区通过调节转录起始速率在调控基因表达中起着至关重要的作用。核心启动子由-10盒、-35盒和间隔区组成，是控制转录起始最紧凑但至关重要的部分。核心启动子周围的序列，包括基因组或质粒上组成型和诱导型启动子的上游启动子(UP)元件、非翻译区(UTR)和转录因子结合位点(TFBS)，赋予特定的转录功能。通过将核心启动子与这些周围序列中不同强度的变体整合，可以在保持功能完整性的同时对转录输出进行微调。尽管-10盒和-35盒在σ70启动子中相对保守，但它们的存在和一致性并不能可靠地预测转录强度，这突显了上下文相关特征的影响，而这些特征目前仍未完全理解。这种复杂性使合理设计和定量建模变得复杂，凸显了识别和理解真正控制启动子强度的序列特征的必要性。

人工智能 (AI) 方法已被开发出来，可以通过在大型启动子序列和强度数据集上进行训练来预测给定启动子的强度。目前，多元线性回归、支持向量机和 XgBoost 机器学习模型已被用于预测大肠杆菌中的启动子强度。然而，这些模型对未知数据的泛化能力有限，无法捕捉启动子活性中固有的非线性关系，并且容易对小型不平衡数据集过度拟合，从而降低了它们在实际应用中的预测准确性。相比之下，深度学习具有卓越的特征提取、处理高维数据的能力以及对复杂非线性关系进行建模的能力，从而显著提高了预测准确性。

准确建模启动子强度需要捕捉紧凑 DNA 区域内的保守序列元素和上下文相关的调控特征。卷积神经网络 (CNN) 非常适合检测短的局部基序，例如 -10 和 -35 框，这些基序是启动子核心功能的关键。然而，CNN 通常无法解释对转录输出有关键影响的位置依赖性和基序间相互作用，从而限制了它们在模拟看似相似的启动子序列之间的功能变异方面的有效性。为了解决这个问题，长短期记忆 (LSTM) 网络可以学习跨核苷酸位置的依赖关系并适应序列顺序效应，但它们在应用于短调控序列时效率较低，因为在短调控序列中功能信号稀疏，梯度在训练过程中会消失。同时，Transformer 模型提供全局注意机制和位置编码，使其特别有利于捕获启动子内保守区域和可变区域之间的分布式和非线性依赖关系。这种架构非常适合模拟基序间距、组成和背景的细微变化如何导致启动子强度的巨大差异。鉴于这些对比特征，系统地评估不同的架构对于识别可以有效捕获核心启动子序列中嵌入的调控逻辑的模型至关重要。

高效的人工基因回路通常需要利用从头设计的特定强度的核心启动子来定量调控代谢通量。对此，Kotopka等人开发了基于CNN的模型来预测酿酒酵母启动子活性，并用其筛选随机生成的序列，但该过程产生了大量无功能候选序列且计算负担较大。为了提高生成序列的效率和质量，提出了生成对抗网络(GAN)和变分自编码器(VAE)，它们是专门为生成任务设计和优化的。通过利用GAN学习大肠杆菌基因组启动子序列，结合基于CNN的强度预测模型进行两轮筛选，生成的启动子功能率提高到70.8%。此外，Seo等人应用VAE将蓝藻启动子映射到潜在空间并重构新的变体，经过预测筛选后达到95%的功能性。因此，将 GAN 或 VAE 模型与 CNN 相结合可以促进生成具有特定强度的新型启动子。然而，GAN 面临稳定性问题，而 VAE 通常生成较低分辨率的输出，阻碍了它们在启动子库数据处理中的应用。生成架构的持续改进及其与预测模型的集成仍然是可扩展合成启动子设计的一个有希望的方向。

数据集的准确性和大小直接决定了模型的质量。许多先前的模型都是在包含基因组启动子序列和转录组结果的数据集上进行训练的。然而，基因组中启动子的边界通常不明确，信使 RNA (mRNA) 的丰度并不能直接反映基因组启动子的强度，因为多个启动子可以共同调控同一基因的表达，未知的转录因子也可能影响基因表达。这些因素导致设计的可靠性难以令人满意。为了克服这些问题，LaFleur 等人通过系统地将核心启动子与 UP 元件和非编码区 (UTR) 组合，构建了一个包含 14 206 个变体的合成启动子库。他们基于 346 个序列衍生参数开发了生物物理和机器学习模型来探索序列-活性关系。同时，随机诱变通常用于生成具有广泛强度范围的大型、多样化启动子库。将启动子序列与强度联系起来的常用方法包括大规模并行报告基因检测 (MPRA) 和荧光激活细胞分选与测序 (FACS-seq)。然而，FACS-seq 无法分辨单个启动子的强度，而 MPRA 需要预先合成大量的寡核苷酸池，这既昂贵又费力，限制了组合的灵活性。因此，开发新方法来突破大数据集信息收集的瓶颈迫在眉睫。

为了解决这些局限性，作者开发了突变-条形码-反向测序 (MBRS) 方法，用于高效生成具有可测量表达强度的启动子库。由此产生的数据集使我们能够构建一个基于深度学习的平台，该平台将基于 Transformer 的预测与基于条件扩散的序列生成相结合。该平台托管在 www.yudenglab.com，支持在不同序列环境下以可编程的方式设计具有特定表达水平的核心启动子。这项工作展示了结构化的合成数据集和定制架构如何推进模块化、可扩展的合成启动子工程解决方案。

图1稳健质粒的构建、优化和表征。（图源自Nucleic Acids Research）

参考消息：

https://academic.oup.com/nar/article/53/16/gkaf863/8246948

—END—

内容为【iNature】公众号原创，

转载请写明来源于【iNature】

微信加群

iNature汇集了4万名生命科学的研究人员及医生。我们组建了80个综合群（16个PI群及64个博士群），同时更具专业专门组建了相关专业群（植物，免疫，细胞，微生物，基因编辑，神经，化学，物理，心血管，肿瘤等群）。 温馨提示：进群请备注一下（格式如学校+专业+姓名，如果是PI/教授，请注明是PI/教授，否则就直接默认为在读博士，谢谢）。可以先加小编微信号（love_iNature），或者是长按二维码，添加小编，之后再进相关的群，非诚勿扰。

投稿、合作、转载授权事宜

请联系微信ID：13701829856 或邮箱：iNature2020@163.com

觉得本文好看，请点这里！