Nat. Biotechnol. | 用机器学习预测多肽质谱库

王建民

本文介绍Max-Planck生物化学研究所计算系统生物化学研究组的Jürgen Cox近期发表在Nature Biotechnology的综述Prediction of peptide mass spectral libraries with machine learning。最近开发的机器学习方法用于识别复杂的质谱数据中的肽，是蛋白质组学的一个重大突破。长期以来的多肽识别方法，如搜索引擎和实验光谱库，正在被深度学习模型所取代，这些模型可以根据多肽的氨基酸序列来预测其碎片光谱。这些新方法，包括递归神经网络和卷积神经网络，使用预测的计算谱库而不是实验谱库，在分析蛋白质组学数据时达到更高的灵敏度或特异性。机器学习正在激发涉及大型搜索空间的应用，如免疫肽组学和蛋白质基因组学。该领域目前的挑战包括预测具有翻译后修饰的多肽和交联的多肽对的光谱。将基于机器学习的光谱预测渗透到搜索引擎中，以及针对不同肽类和测量条件的以光谱为中心的数据独立采集工作流程，将在未来几年继续推动蛋白质组学应用的灵敏度和动态范围。

“鸟枪法”蛋白质组学(shotgun proteomics)是一种识别和量化目标样品中蛋白质的技术。该方法包括两个主要步骤。首先，蛋白质被蛋白酶消化成肽，其次，肽在质谱仪中被片段化，从而产生片段化光谱。由于肽的寡聚结构和主链中键断裂的优势，碎片光谱显示出可用于确定其氨基酸序列和氨基酸共价修饰的规律性。因此，与缺乏重复结构的分子相比，肽谱的解释有些不同。通过了解碎片化的物理方法——例如碰撞诱导解离、高能碰撞解离 (HCD) 或电子转移解离, 可以很容易地从序列中计算出主要肽片段的质量。然而，预测光谱中碎片峰的相对强度，或者在某些情况下它们在光谱中的缺失，这都是由量子化学决定的，这并非易事。传统上在“鸟枪法”蛋白质组学中用于识别肽的肽搜索引擎通常会忽略超出简化规则的强度信息。尽管这些工具已成功应用多年，但强度模式携带的信息可用于提高肽识别过程的灵敏度和特异性。

利用强度信息的一种方法是直接从先前测量的光谱中组装库，并将它们应用于感兴趣的样品的分析。这种方法的优点是对光谱的内容是无假设的。原则上，它可以容纳不属于任何标准碎片离子系列的非标准峰，目前大多数预测方法都没有考虑这些峰。缺点是样品中没有获得谱库光谱的任何新肽都会在分析中丢失。然而，另一种方法也容易在分析中丢失新肽，即获取项目特定的库。生成这样的库为项目增加了大量的测量工作，并且通常仅限于提高灵敏度的好处远远超过肽空间受库内容限制的缺点的应用。

如果可以从氨基酸序列中快速准确地预测碎片光谱中的峰值强度，无论是检测新肽的失败还是生成项目特定库的额外测量工作都将得到克服。这样做的第一次尝试可以追溯到近 20 年前，使用决策树或单个隐藏层神经网络。最近的一项突破中，深度学习方法已经开始以接近实验的精度从氨基酸序列中预测肽片段谱。本综述侧重于准确预测光谱库的机器学习方法。

机器学习和深度学习方法

碎片谱预测是一个监督学习问题，其中谱是从肽序列预测的，模型在肽序列集和元数据作为输入变量和片段强度作为输出变量。有多种回归方法可用，包括基于树的模型，如随机森林和 XGBoost、支持向量回归和神经网络。神经网络因其优越的性能而经常用于频谱预测。

循环神经网络 (RNN)已证明对碎片谱预测非常有用。它们旨在处理序列数据，并且可以应用于可变长度的序列，这使得它们特别适用于肽。双向 RNN 结合了两个 RNN，一个用于序列中的每个方向，以考虑到某个键断裂的频率取决于该键之前和之后的序列上下文。对于某些肽键，它们的断裂倾向主要由局部分子环境决定，而对于其他更远的序列特性是相关的。门控 RNN 已被开发用于处理序列中的多个因果距离尺度。门控 RNN 的两种主要类型，长短期记忆 (LSTM) 和门控循环单元 (GRU) 都已应用于碎片谱预测。此外，传统上用于图像分类和识别任务的卷积神经网络 (CNN) 已应用于光谱。

经过训练的迁移学习模型的一部分在具有不同但相关任务的模型中重复使用，然后通过较少数量的训练实例进行微调，如果模型是从头开始训练的。这种技术可用于针对特定技术或生物环境预测光谱的应用，为此人们可以从更通用的环境中借用训练模型的一部分。例如，在未修饰肽的大型数据集上训练的模型可以部分转移到携带翻译后修饰 (PTM) 的肽模型，该模型随后在较小的数据集上进行训练。最后，有趣的是，诸如形状加性解释 (SHAP) 和积分梯度之类的计算方法可用于将输入特征范围归因于特定实例的预测结果。例如，在图像识别中，这些方法可以指示图像中对某个决定最负责的像素范围。类似地，在光谱中，它们可以提供关于最有助于确定碎片离子强度的序列区域的信息。

光谱数据

碎片光谱可以通过两种方式预测，或者通过关注预定义的离子系列类型，其质量可直接从输入序列计算并且其强度将被预测，或者通过在不参考离子系列注释的情况下预测全光谱。训练预测模型的关键是输入和输出已知的示例数据集。这样的基本事实数据集可以从具有定义序列的合成肽中获得，然后进行质谱分析。这种方法的优点是肽混合物的整个组成是已知的。然而，从这些测量中获得的光谱并不能反映真实样品的组成，因为它们仅涵盖有限的一组肽，合成和分析需要大量的努力。更常见的是利用现有的 DDA 数据集，这些数据集存放在公共原始数据存储库中。这种情况下，可以确保肽被正确识别到可选择的错误发现率 (FDR)，因此可以作为准基本事实。可选地，可以应用关于附加质量参数的进一步阈值，例如搜索引擎分数。对于预测全谱的方法，重新分析复杂的蛋白质组学数据以训练模型具有复杂性，即峰可能是由共同片段化的肽引起的，这要么必须通过光谱聚类来减少，要么通过测量阈值来减少。否则，机器学习模型将具有识别由于共同碎片而存在的特征的额外任务。相比之下，在仅预测离子系列强度的方法中，即使在复杂的蛋白质组样本中，预计共同片段化肽的污染影响也很小。

为了确定机器学习模型的性能，需要将可用数据拆分为训练、验证和测试数据集。训练和验证集用于模型构建，而测试集完全排除在此过程之外，但随后用于以无偏见的方式评估模型在预测准确性方面的性能。对于模型构建，训练数据集用于确定模型的参数，验证集用于调整模型的超参数并避免在此过程中过度拟合。为了判断预测的准确性，需要一种光谱相似性度量，它可以量化预测光谱与实验光谱的接近程度。计算测试集元素上所有预测的相似性度量会产生一个直方图，该直方图可用于计算整个预测群体的平均准确度、置信区间或箱线图。在可用数据有限的情况下，可以使用交叉验证来增加准确度直方图的统计数据。

模型的预测性能取决于可用训练实例的数量。如果训练集太小，该方法的全部潜力可能还没有达到，需要获得更多实例才能达到渐近性能的平台期。实践中重要的是模型如何在有限数量的训练实例下执行，因为在给定的技术或生物环境中可用光谱的数量可能会受到限制。对于相同的肽段和相同的元数据参数值，串联质谱 (MS/MS) 光谱的相似技术复制的预测准确性存在实际限制。

离子序列强度预测

大多数流行的离子序列强度预测深度学习模型都使用 RNN，这pDeep、DeepMass:Prism、Prosit 和 Guan 等人中已经实现，但也使用了 CNN。Prosit 基于 GRU，而其他基于 RNN 的模型使用 LSTM 层。例如，DeepMass:Prism 的架构使用编码器-解码器架构，该架构是在机器翻译的背景下开发的。编码器部分将可变长度的肽序列作为输入，并将其转换为固定长度的表示，这是通过三个 LSTM 层实现的。与元数据参数的值一起，由多层感知器组成的解码器生成离子序列强度的“转换”序列。Prosit 也遵循编码器-解码器架构，但其结构略有不同，因为它将归一化的碰撞能量作为额外的元数据参数输入。

传统的机器学习也已应用于离子序列强度预测。这些方法可以细分为固定长度和基于窗口的方法。前者中，在 MS2PIP 中实现，为每个可能的肽长度训练一个单独的模型。因此，不同长度的肽没有协同作用，就像 RNN 的情况一样。由于可变长度输入没有复杂性，原则上任何传统的机器学习算法都可以使用随机森林作为首选。对于基于窗口的方法，例如 wiNNer，由于其神经网络包含多个隐藏层，因此被归类为深度学习，不同长度的肽段有助于同一模型。该模型预测了由一次断裂一个肽键形成的离子相对于光谱中最高峰的峰高。特征空间是固定长度的，可以认为是表示当前考虑的键周围的序列窗口以及一些附加特征。特征包括以所考虑的肽键为中心的序列窗口中的 one-hot 编码氨基酸、肽的长度、到 C 和 N 末端的距离（残基数）、末端的 one-hot 编码氨基酸加上值元数据参数也被馈送到基于 RNN 的模型中。通过沿序列滑动窗口，将从一个肽创建多个基于窗口的训练数据实例。其他几种方法也属于这一类，因为它们的预测一次只关注一个肽键，并且特征部分是从具有小窗口大小的键周围的氨基酸中招募的。尽管与基于 RNN 的预测相比，基于窗口的预测的预测精度通常较低，但它可以接近，并且具有减少训练实例数量和降低计算复杂度的潜在优点。

全光谱预测

开发了一种基于 CNN 的架构，用于预测包括非骨架离子在内的全光谱。该方法不依赖于峰注释，而是使用最高 2,000 Da 的分箱 m/z 范围，分箱宽度为 0.1，从而生成 20,000 维向量作为预测强度的目标。输入序列的 one-hot 编码用于预测双电荷和三电荷未修改的 HCD 光谱，许多训练实例可用。大约需要 150 万个光谱才能达到预测精度的饱和。由于可用于训练的电荷一和四个 HCD 光谱要少得多，因此将多任务学习应用于预测不太频繁的电荷状态。一个辅助预测任务，即前体电荷预测，作为一种聚焦方法被集成到模型中，以避免灾难性遗忘。通过包含碎片类型的伪预测器，通过与 HCD 模型类似的集成来实现电子转移解离谱的预测。全光谱预测的未来工作可能包括扩展到其他碎片化方法。此外，特征归因方法的应用可能会揭示非骨架离子产生背后的机制。

修饰和交联的多肽

PTMs是对蛋白质的共价修饰，可以发生在氨基酸侧链或末端。它们的存在改变了离子序列成员的质量，也可以对峰强度产生深远的影响。此外，由于特定于修改的中性损失，它们可能会产生额外的碎片。迁移学习用于修改 pDeep2以预测包含修改的光谱。该模型首先在来自未修饰肽的大型光谱数据集上进行了预训练。完整模型由一个输入层、两个双向 LSTM 层和一个输出层组成，输出层增加了代表由 PTMs中性损失引起的 b 和 y 离子的节点。迁移学习步骤中，只有第一个 LSTM 层和输出层被微调，而模型的其余部分被冻结在其预训练状态。结果发现，特别是当只有少量携带 PTMs 的光谱可用时，迁移学习模式的性能优于从头训练的模型的性能。一个模型最近被用于修饰肽的保留时间预测。将来可能会改进表示，因为它不能充分表示复杂的 PTMs，例如糖基化，不能区分异构体，并且固有地在修饰的原子组成之间进行插值，这可能不是表示化学性质的最佳选择。DeepPhospho 是另一种深度学习模型，它通过使用转换器网络预测肽碎片模式，将光谱库预测集成到 DIA 工作流程中。

交联质谱法中产生了另一类需要专门方法进行光谱预测的肽。此处产生了成对的肽，它们通过连接两个氨基酸的接头共价连接，两个氨基酸中的一个来自两个肽中的每一个。每个肽的片段化模式都受到其他肽存在的影响，这使得它们的预测比线性肽更难。一些片段包括接头和相应的其他肽，这使它们平均更重和更高的电荷。与线性肽相比，交联肽的可用数据较少，并且由于许多可用的交联试剂，它们显示出高度的多样性。交联剂可以通过质谱法裂解或不可裂解，从而产生两种不同类型的碎片光谱。pDeepXL 是一个深度神经网络，它在可切割和不可切割交联数据上分别进行训练，从而产生两个基于迁移学习的预测模型。深度学习架构的未来迭代可能与交联肽的保留时间预测器一起在集成到其分数中时可能会提高交联搜索引擎的敏感性。

DDA 应用

准确片段光谱强度预测的一个重要应用是其用于改进实验光谱与候选肽段的匹配。在 DDA 中，肽数据库搜索引擎为每个给定的碎片谱做出决定，通常在几个候选中构成最佳肽谱匹配 (PSM)。PSM 分配正确性的整体改进导致更好的灵敏度、特异性或两者兼而有之。强度整合的早期尝试表明，这在原则上是可行的。最近表明，通过使用强度信息，可以在标准蛋白质组搜索中针对来自智人UniProt蛋白质序列的物种特异性序列数据库进行标准蛋白质组搜索，从而进一步提高分配的正确性，该数据库包含所有胰蛋白酶肽，最多有几个缺失的切割。一种方法直接将强度信息集成到Andromeda搜索引擎分数中，另一种方法使用渗透器将光谱比较特征与 MS-GF+ 搜索引擎分数集成。灵敏度的提高取决于 q 值，并且在 q 值较小时更高。在 1% 的标准 FDR 下，深度学习预测的改进约为 4%。尽管对标准蛋白质组的鉴定增加只是适度的，但预计在更大的搜索空间中，强度预测的好处更高，因为在某个公差窗口内，每个前体质量平均存在更多潜在的 PSM，其中正确的 PSM 需要被发现。具有较大肽搜索空间的应用包括免疫肽组学、蛋白质组学和元蛋白质组学。

免疫肽组学专注于与人类白细胞抗原 (HLA) 结合的肽，这些肽由细胞内蛋白质的蛋白酶体降解产生，然后重新定位到细胞表面。定义呈现在癌细胞上的 HLA 肽组是生物医学研究的一个深入研究领域，因为这些肽为治疗干预提供了靶标。与必须由特定蛋白酶消化才能进行鸟枪法蛋白质组学的蛋白质相比，HLA 肽可以通过质谱直接测量，但由于非特异性切割而带来了搜索空间增加的挑战。此外，管理片段化的规则与胰蛋白酶肽的规则不同。因此，预测 HLA 肽片段化的模型也需要在非胰蛋白酶肽上进行广泛的训练。基于深度学习的强度预测用于改进免疫肽组学中的肽鉴定。

蛋白质组学是借助基因组或转录组序列对蛋白质组的研究，允许识别不属于参考蛋白质组序列的肽。这种扩展序列空间的计算机翻译导致肽搜索空间膨胀，在确定光谱的最佳 PSM 时必须考虑这一点。搜索空间膨胀的程度取决于科学问题，范围可以从包含转录本的非翻译区域到整个基因组的六帧翻译。蛋白质组学还受益于通过在基于渗滤器的方法中对 PSM 重新评分来整合预测的光谱强度。蛋白质组学搜索空间是通过核糖体分析和基于使用纳米孔的 RNA 测序 (RNA-seq) 的三帧翻译数据库生成的。后者导致序列数据库大小增长超过 50 倍，相关的氨基酸含量增加了 20 倍。

尽管应用于标准蛋白质组、蛋白质基因组学和免疫肽组的方法不同，不能直接比较，但结果表明，到目前为止，免疫肽组学的改进是最大的。深度学习在多肽识别问题上的另一个有前途的应用是DeepMatch，它规避了光谱的预测，直接预测PSM分数。尽管该方法在识别率方面显示出有希望的结果，但其计算要求太高，无法将其整合到常规的肽搜索引擎中。

DIA 应用

DIA 数据分析工作流程可细分为以光谱为中心和以肽为中心的方法。以光谱为中心的软件工具从 DIA 数据的前体和碎片特征中组装伪 DDA 光谱，然后将其提交给传统的搜索引擎。在以肽为中心的方法中，专用光谱库用于查询 DIA 样品中由库光谱表示的肽。因此，以肽为中心的方法可以直接受益于文库预测。已经开发了几个以肽为中心的软件框架，原则上它们都可以与预测的库一起操作。对于没有额外富集的单一物种的标准蛋白质组学样品，例如磷酸化，发现使用无偏的完整蛋白质组计算机预测库进行胰蛋白酶消化是可行和有益的。此外，蛋白质鉴定的错误率处于良好的统计控制之下，即使在使用如此大的计算机库时也是如此。

结论

目前光谱库预测工具的预测准确性正在推进DDA和DIA数据分析。在DDA中对PSMs的重新评分正在改善其敏感性-特异性特征。DIA数据分析现在可以在光谱库的无偏全蛋白质组预测的基础上常规进行，消除了测量项目特定库的需要。尽管取得了这些进展，蛋白质组学仍然面临着灵敏度方面的挑战。尽管细胞蛋白质组可以常规地进行足够深度的量化，但大多数蛋白质的序列覆盖还远未完成，并且落后于RNA-seq的转录组分析。这意味着，由于缺乏敏感性，在鸟枪法蛋白质组学中往往不能解决因替代剪接而存在的蛋白质形态。同样，单细胞蛋白质组学和血浆蛋白质组学将大大受益于灵敏度和动态测量范围的改善。通过将强度信息更好地整合到现有的搜索引擎中，碎片光谱的预测将有助于解决这些挑战。为此，也为了适应PTMs，强度预测模型必须具有计算效率。此外，需要考虑的肽类的多样性，使得一个什么都知道的大型深度学习模型似乎不太可能成为首选方式。相反，许多专门的模型，每一个都可以通过适度的努力和有限的训练数据进行训练，应该能更好地满足需求。

参考资料

Cox, J. Prediction of peptide mass spectral libraries with machine learning. Nat Biotechnol (2022).

https://doi.org/10.1038/s41587-022-01424-w