蛋白质在生物体内发挥着至关重要的作用,包括信号转导、催化代谢反应、维持细胞结构等,准确的蛋白质功能鉴定有助于疾病机制的阐明和药物新靶点的发现。由于传统测定蛋白质功能的生化实验通常成本高、耗时长、通量低,开发高效且有效的蛋白质功能预测计算方法十分重要。同时,传统的计算方法如分子动力学模拟、统计能量函数、分子对接等需要耗费大量资源且耗时较长,限制了这一领域的发展。随着深度学习的蓬勃发展,通过深度学习进行蛋白质功能预测已经成为生物信息学的研究热点。蛋白质功能预测可以分为残基水平的结合位点预测和蛋白水平的基因本体论(gene ontology, GO)预测,下面我们将从这两个方面逐一进行介绍。蛋白质的结合位点预测和GO预测是两个不同水平的预测,GO预测研究的是蛋白质具有的不同功能,而结合位点预测则是研究蛋白质在残基水平所具有的一些性质,两者是对蛋白质功能不同水平的刻画。
蛋白质结合位点是蛋白质上与特异性配体相结合的区域,蛋白质的结合位点预测在信号转导、运输和代谢、揭示疾病的分子机制和设计新药等方面有着重要作用。目前蛋白质结合位点预测的方法可以分为基于序列和基于结构的方法。基于序列的方法如DELPHI、PepNN等,利用序列提取的特征学习生物理化特征的局部模式,其优点是它们可以通过序列对任意蛋白进行预测。然而,由于结合残基的潜在模式并不能仅从它们的序列中显式地体现,而可能在空间结构中是保守的,从蛋白质序列中捕获的特征可能不足以充分地表示残基。因此,基于序列的方法的性能可能受到限制。与基于序列的方法不同,以实验结构为输入的基于结构的方法往往更加准确,其一般可分为基于模板的方法、基于机器学习的方法和混合方法。基于模板的方法如MIB使用比对算法来转移模板的结构信息并推断结合位点。然而,当缺少高质量的模板时,这些方法将受到严重的限制。基于结构的机器学习方法从蛋白质结构提取几何特征,然后再将其输送到神经网络,如DELIA。另外,也可以考虑蛋白质结构的上下文拓扑信息,并使用端到端的方式进行训练,如GraphBind。对于混合方法,如COACH和IonCom,则同时集成了基于模板和基于机器学习的方法。相对于基于序列的方法,基于结构的方法更加准确,但这种方法应用范围有限,只适用于存在实验三维结构的蛋白。
蛋白质功能可通过GO中的功能项描述,其中GO涵盖了分子功能(molecular function, MF)、生物过程(biological process, BP)和细胞组分(cellular component, CC)三个生物学领域。通常一个蛋白质会与多个GO项相关,因此蛋白质功能预测可以看作是一个大规模、多类别、多标签的问题。此外,GO是一个有向无环图(directed acyclic graph, DAG),如果蛋白质被注释了GO项,那么它所有的祖先项也应该被注释。因此,蛋白质功能预测应该考虑GO的层次结构并产生合理的输出:一个GO项的预测概率必须等于或大于其所有子项。为了促进蛋白质GO功能预测的发展,CAFA比赛(critical assessment of functional annotation)已成功举办了四次。具体来说,给定一个蛋白质,参加者需要在T0之前提交预测结果,几个月后(T1)组织者会收集具有最新实验注释的蛋白质作为测试集,对不同的方法进行评估。现有的蛋白质GO功能预测的方法根据所使用的信息大致可以分为三类:基于序列、基于结构和基于生物网络。大多数基于序列的方法利用序列相似性,搜索序列域,或者采用深度学习捕获判别性特征来进行预测。其中,由于相似的序列往往具有相似的功能,一种基本的方法就是直接从已知功能的同源序列中转移注释,如Blast2GO。此外,另一种方法是寻找序列的结构域或蛋白家族进行预测。例如,GOLabeler利用排序学习(learning to rank, LTR)算法整合了序列同源性、蛋白质结构域和家族信息。随着深度学习技术的发展,通过设计复杂的神经网络,如DeepGOPlus中的卷积神经网络和TALE中的Transformer,也可以从序列中自动提取判别性嵌入信息。然而,目前基于序列的方法预测精度较低。相比于基于序列的方法,基于结构的方法具有更高的预测精度。基于结构的方法使用天然的蛋白质结构作为输入,通常使用图神经网络(graph neural networks, GNN)学习局部三级模式进行功能预测,如DeepFRI。此外,基于网络的方法,利用生物网络(例如蛋白质-蛋白质相互作用或代谢网络)中连接的蛋白质可能具有相同功能的原理,对蛋白质GO功能进行预测。例如,NetGO在STRING中集成了多个蛋白质网络,在网络中从最近的邻居转移注释至目标蛋白。NetGO 2.0将文献和序列信息融入到NetGO中,进一步提高性能。尽管CAFA比赛表明结合多种信息的集成预测方法通常优于基于序列的方法,但这些额外的特征对于大多数蛋白质来说往往是不可用、不完整或难以获得的,这限制了它们的应用范围。单独从序列中预测蛋白质功能的方法则更具有普遍性,适用于大多数尚未被广泛研究的蛋白质。
通过与实验结合,使用计算方法对蛋白质功能进行准确预测具有重要意义。由于对蛋白质的全链筛选耗时且昂贵,预测方法可以帮助缩小潜在的结合位点范围。在我们之前的合作研究中,通过计算预测方法并结合湿实验成功验证了JAK2激酶中的结合残基。同时,SPOT-Struc使用结构比对和蛋白质结合亲和力预测对糖结合蛋白进行识别,并成功找到了糖结合蛋白。准确的蛋白质功能预测也可以为许多致病基因突变机制提出假设或结论,例如影响mRNA转运的THOC2 突变。在新的药物设计中,结合位点预测可用于预测药物的可药用性或作为从头分子设计的生成模型的条件。综上所述,研究高效准确的蛋白质功能预测方法在生命科学领域具有重要作用,这也突出了这项研究的重要意义。
在本文中,我们将从残基水平的结合位点预测和蛋白水平的GO预测两方面对蛋白质功能预测进行详细的介绍。首先,我们将介绍该领域常用的数据库和蛋白特征。然后,在结合位点预测方面,我们按照配体的不同类型分别介绍了蛋白质-蛋白质、蛋白质-多肽、蛋白质-核酸和蛋白质-小分子或离子配体的结合位点预测方法,着重分析了每种方法的优缺点及不同方法之间的区别。同时,我们根据GO预测所使用的信息分别介绍了基于序列、基于结构和基于网络的GO预测方法,对这些方法进行详细的对比分析。最后,本文综合前面的介绍进行总结与展望,希望能推动该领域的进一步发展。