PPI的鉴定对于许多生物过程的理解至关重要。在本综述中,我们详细讨论了深度学习在基于序列的PPI预测中的应用,介绍了数据集的构建与蛋白质序列的编码方法,重点介绍了基于深度神经网络、卷积神经网络、循环神经网络及其变体和基于混合网络的计算模型,最后介绍了深度学习中常用的评估指标及其计算公式。
深度学习方法已经在PPI预测中取得了显著成果,展示出深度学习技术在该领域的巨大潜力。然而,尽管当前的研究已经取得了一定的进展,但仍然有很多问题有待解决。首先,大多数计算模型都遵循监督学习范式,对训练数据的依赖程度高,而当前蛋白质互作数据集存在以下弊端:①主要由实验方法获得,存在假阳性和假阴性,影响了预测的准确性;②数据集覆盖的物种范围较窄,通常来自于酵母或人类,这限制了模型的泛化能力。泛化能力描述的是模型在训练集外的数据上的性能表现,一个具有良好泛化能力的模型能够很好地捕捉到训练数据背后的真实分布,从而在新的数据上也能够做出准确的预测。相反,泛化能力差的模型很可能在遇到新类型数据时表现不佳。因此,模型的泛化能力直接决定了其在实际应用场景中的价值与效果。由于目前用来训练PPI预测模型的数据通常来源于酵母或者人类,这一局限性可能导致模型在处理其他物种时出现预测偏差。因此,建立更大、更广泛、更高质量的蛋白质互作数据集是有必要的。
另外,现有常用的蛋白质序列编码方法仍有局限性,例如本文1.2节提到的方法都是通过简单的线性关系表示蛋白质序列,无法全面地捕捉到蛋白质序列中的内在复杂性。因此,探索更有效的序列表示方法有助于更准确地揭示蛋白质序列的丰富信息和潜在特征。参考当前语言类模型取得了突破性进展,基于自然语言处理的方法显示出了巨大的潜力,尽管这些技术最初是为文本和语言设计的,但它们在处理蛋白质序列时也表现出了惊人的能力。词嵌入技术(如Word2Vec和FastText)以及基于Transformer的模型(如ProtBERT)已经成功地利用自然语言处理思想来编码蛋白质序列。这些方法为蛋白质序列提供了一种动态的、上下文相关的表示,与传统的编码方法相比,它们能够捕捉更多的序列模式和特性。
除了数据集的物种来源和蛋白质的序列编码,数据多样性也是值得探索的方向。虽然仅基于序列的模型已经被证明是可行的,但考虑到生物系统的复杂性和多样性,序列数据、结构数据、基因表达数据以及其他分子生物学数据都蕴藏着丰富的PPI相关信息。未来可以尝试将多种信息融合进行特征提取进而预测PPI,该策略旨在综合各类数据的优点,为蛋白质之间的复杂互作关系提供一个更全面的视角。通过融合不同数据类型的特性和信息,我们可以构建更为准确和稳健的PPI预测模型。
在本综述的引言部分,我们提到了基于结构的模型由于蛋白质结构的获取成本较高,已测定的蛋白质结构数量不充足,受到发展限制。然而随着AlphaFold2的出现,蛋白质结构预测的准确性显著提高,帮助研究者在没有实验结构数据的情况下获得高质量的蛋白质预测结构。这一技术有助于辅助PPI预测,为基于结构的PPI预测方法开辟了新的道路,值得深入研究。展望未来,随着生物大数据的增长和新型生物信息学技术的出现,多种数据类型的融合预计将成为PPI预测和其他生物信息学任务的核心策略,为该领域带来深刻的变革。
除了上述数据和输入层面的问题,随着深度学习的不断发展,通过设计算法或选择合适的新算法来增强现有深度学习模型的PPI预测能力值得探索。另外也可以考虑结合其他计算方法进行更详实的预测,如将深度学习模型和传统机器学习相结合已经被证明具有潜力。
随着技术的不断发展和计算能力的显著提升,我们有充分的理由相信深度学习将在基于序列预测蛋白质相互作用领域扮演更加核心的角色,有望显著提升PPI预测的准确性和泛化能力,并且能为基于PPI的靶点研究、药物研发和疾病机制探索等相关研究提供有力帮助。同时我们也应注重深度学习技术与生物实验研究的紧密结合,以确保算法开发的科学性和实用性,努力向可解释深度学习方向发展。总之,深度学习在基于序列预测PPI领域的应用,将提升蛋白质相互作用网络的解析效率,推动人类对生命过程本质的认识。