最经典且最流行的方式是通过保守的RiPPs合成酶编码基因簇挖掘已知类别中的新成员。研究表明,不同的RiPPs家族在结构和功能上均存在很大的差异,不同的修饰酶在其中发挥着至关重要的作用。值得注意的是,RiPPs通常有以低遗传成本获得高化学多样性的潜在进化优势,某些RiPPs合成酶(例如Ⅰ型羊毛硫肽合成酶中独立的脱水酶LanB和环化酶LanC)极其保守。基于此特性,对于那些同已知RiPPs共享保守的合成酶但在前体肽上与后者存在明显差异或同时存在其他合成酶的生物合成基因簇(biosynthetic gene clusters, BGCs),可以认为是存在已知RiPPs类型中的新型成员,这为绝大部分用于挖掘RiPPs的生物信息学工具提供了思路。AntiSMASH是被广泛运用的BGCs预测和分析平台,基于隐马尔可夫模型以及前体肽识别的“规则”(如前体肽中通常富含相关生物合成酶作用的残基),在与已知RiPPs序列的数据库比较后可检测RiPPs,例如具有独特且保守修饰酶的羊毛硫肽和套索肽。
寻找新的前体肽是挖掘RiPPs的另外一种常用方法。前体肽是RiPPs生物合成的前体,即便与已知类型共享同类修饰酶,在前体肽差异较大的前提下,亦存在得到结构与功能完全不同的全新RiPPs的极大可能。然而编码RiPPs前体肽的开放阅读框(open reading frame, ORF)通常较小,经常被经典的基因预测算法如Prodigal和Glimmer所忽视,因此这种算法往往不适用于RiPPs的挖掘。Kuipers课题组提出的BAGEL通过搜索核心的翻译后修饰酶附近小段ORFs来预测RiPPs前体肽,很好地解决了这一问题。Mitchell课题组设计的RODEO算法则在前者的基础上更加完善,结合隐马尔可夫模型和Pfam数据库检索RiPPs的生物合成基因簇,并通过机器学习和启发式算法对RiPPs前体肽生成预测。
然而随着研究的不断深入,RiPPs的多样性和复杂性对挖掘算法计算策略提出了较高的挑战。以上提及的生物信息学方法在底层逻辑上均未离开基于基因同源性及上下文信息的范畴,即只有潜在的生物合成基因与已知的RiPPs相似时才会被识别,所以不可避免地面临两大问题——无法识别新的RiPPs家族,无法判断是否存在新的酶修饰机制。可以肯定地说,利用这种策略挖掘RiPPs也只会得到已知RiPPs的类似产物。如果能够揭开RiPPs前体肽的内在规律和特性,不难预见挖掘RiPPs甚至其他天然产物的研究将跨入新纪元。随着计算机技术的飞速发展以及算力水平大幅提升,科学家们尝试将人工智能运用在生物化学领域,取得了不错的进展。Agrawal等尝试通过机器学习来对RiPPs进行预测,提出的RiPPMiner工具实际上是基于机器学习中支持向量机(support vector machine, SVM)算法的衍生,也是分类算法的一种。Agrawal等将经实验表征的RiPP组成的数据库用于训练RiPPMiner,抽取RiPPs前体肽特征,从大量的组合可能性识别前体肽中正确的交联模式,并以此将RiPPs前体肽与其他肽类区分开来,分为RiPPs的12个子类,并预测前导肽可能的裂解位点。结果表明,RiPPMiner仅在羊毛硫肽类数据集上取得了良好的效果,展示了其在RiPPs大家族鉴定上的高灵敏度和特异性,其主要原因是机器学习的效果往往受到训练数据集的大小和质量的影响较大,训练RiPPMiner所采用的数据集过小,加之支持向量机算法的固有缺陷,RiPPMiner在对其他RiPPs家族识别及裂解位点预测上没有取得很好的效果,后者精度仅为0.69。随后新的人工智能方法深度学习也被用于进一步提升预测的准确性,NeuRiPP将卷积神经网络(convolutional neural network, CNN)和长短期记忆网络(long short-term memory, LSTM)结合来判断短肽是否为RiPPs前体肽,但CNN和LSTM在一定程度上依然存在局限性,如前者在训练中可能出现忽略局部和整体间关联性的情况。DeepRiPP在采用深度神经网络的基础上将基因组和代谢组学信息结合用于对新型RiPPs的鉴定。为了在现有研究基础上进一步探索适合处理蛋白质序列的深度学习方法,本文首次将基于自注意力机制的NLP预训练模型BERT(bidirectional encoder representations from transformers)运用于天然产物的挖掘,并提出可以完全依赖序列数据而非基因组背景识别RiPPs的深度学习模型BERiPPs,其能够在全新的测试数据集上达到90%以上的预测准确率。