Nat. Commun. | 预测肽特性的模块化深度学习框架

作者 | 郑仰昆
审稿 | 杨崇周

今天带来的是丹麦哥本哈根大学健康科学学院NNF蛋白质研究中心蛋白质组学项目的实验室的Matthias Mann课题组发表在nature communications上的AlphaPeptDeep: a modular deep learning framework to predict peptide properties for proteomics。

机器学习，尤其是深度学习 (DL) 在基于质谱 (MS) 的蛋⽩质组学中越来越重要。最近的 DL 模型可以仅从氨基酸序列中准确预测肽的保留时间、离⼦淌度和碎⽚强度。然⽽，DL 是⼀个发展⾮常迅速的领域，新的神经⽹络架构经常出现，这对蛋⽩质组学研究⼈员来说是⼀个挑战。本文开发了⼀个名为 AlphaPeptDeep 的深度学习框架，它最重要的功能是预测给定⽬标肽的特性，并且统⼀了⾼级功能来训练、迁移学习和使⽤模型进⾏肽特性预测。

AlphaPeptDeep 在“model shop”模块中提供了⼏个基于 transformers 和 LSTM 架构的模型模板来开发新的 DL 模型，并且还允许从头开始选择超参数以使⽤很少的代码进⾏分类或回归。⽤⼾只需⼏⾏代码即可从头开始开发新模型。

基于这些上述的功能，本文构建了 MS2、RT 和 CCS 模型等模型，预测多种不同的 PTM 类型，同时保存了预训练模型权重可供调用。这些模型可以促进 DDA识别，例如 HLA 肽。本文还建⽴了⼀个 HLA 预测模型来预测⼀个肽序列是否是⼀个呈递的 HLA 肽，借助HLA 模型和 MS2、RT 和 CCS 模型，本文直接从整个⼈类蛋⽩质组预测 HLA 谱库，并使⽤ HLA DIA 数据对其进⾏搜索。结果表明使用AlphaPeptDeep预测的库优于现有的 DDA 和 DIA ⼯作流程。

图1 AlphaPeptDeep框架概述

AlphaPeptDeep框架

整个流程如图1a所示，首先测得的肽特性用各自的氨基酸序列编码，并用于训练AlphaPeptDeep中的网络。图1b展示了具体的细节，AlphaPeptDeep框架读取并嵌入感兴趣的肽序列。它的组件包括模型可以在其中构建的构建功能。元嵌入是指元信息的嵌入，如前体电荷状态、碰撞能量、仪器类型和其他非顺序输入。然后，它被训练、保存并用于预测感兴趣的属性。表盘表示可以预测的不同标准性质(RT保留时间，CCS碰撞截面，碎片光谱的MS2强度)。Custom指的是任何其他感兴趣的肽属性。

为了构建新模型，AlphaPeptDeep 提供模块化应⽤程序编程接⼝ (API) 以使⽤不同的神经⽹络架构。像 LSTM、卷积神经⽹络 (CNN) 以及许多其他常⻅的都可以从底层的 PyTorch 库中轻松获得。

嵌⼊编码：在使用神经网络前需要将氨基酸序列及其相关的 PTM 映射到 NN 作为输⼊的数字张量空间。对于每个氨基酸，通常使⽤“one-hot 编码器”将其转换为由 0 和 1 组成的向量。对于每个 PTM，本文使⽤ 6-D 嵌⼊向量来表⽰ C、H、N、O、S 和 P 原⼦。PTM 的所有其他原⼦都嵌⼊到具有完全连接 (FC) 层的⼆维向量中。6-D 和 2-D 向量连接成 8-D 向量以表⽰PTM。

训练：本文设计了⼀个通⽤的训练界⾯，允许⽤⼾使⽤⼀⾏ Python 代码“model.train()”来训练模型。并提供了⼀个“热⾝”训练策略来安排不同训练时期的学习率。这在不同的任务中⾮常有⽤，可以减少早期训练阶段的偏差。

预测：当仅使⽤ CPU 时，可以选择多处理（使⽤多个 CPU 内核进⾏预测），使得预测速度在普通个⼈计算机 (PC) 和笔记本电脑上可以接受（整个审查的⼈类蛋⽩质组将近 2 ⼩时）。在GPU 上的预测速度快了⼀个数量级。由于 PyTorch 在第⼀个预测批次中缓存 GPU RAM，因此同⼀模型的后续批次会更快。GPU 随机存取存储器 (RAM) 应该在预测阶段之后释放，从⽽使 RAM 可⽤于其他DL模型。这些操作都在 AlphaPeptDeep的“model.predict()”功能中⾃动完成。

基于AlphaPeptDeep的模型结构

为了验证AlphaPeptDeep框架效果，本文利用该框架构建了MS2、RT 和 CCS 等预测模型，具体结构如图2所示。MS2 预测模型继承⾃ pDeep2，但在 transformer 上重新实现。AlphaPeptDeep 中预训练的 MS2 模型⽐其他模型⼩得多，⽽没有牺牲准确。测试表明，AlphaPeptDeep 的⽚段强度预测只需要35s⽐ Prosit-Transformer 快40倍。本文还将轻量级模型的相同原理应⽤于RT 和 CCS 模型。

本文使⽤来⾃各种仪器、碰撞能量和肽的约 4000 万张谱图训练和测试了 MS2 模型，并使⽤⼤约 50 万个肽的 RT 和 CCS 值训练了 RT 和 CCS 模型。然后将初始训练的结果存储为预训练模型以供进⼀步使⽤或作为迁移学习改进的基础。

图2 MS2、RT 和 CCS 预测模型。

MS2 模型：MS2 模型由⼀个嵌⼊层、位置编码器层和四个变换器层以及两个 FC 层组成。嵌⼊层不仅可以嵌⼊氨基酸序列和修饰，还嵌⼊元数据（如果需要），包括电荷状态、归⼀化碰撞能量和仪器类型。所有这些嵌⼊的张量都连接到下⼀层。

RT 模型：RT 模型由⼀个⽤于序列和修改的嵌⼊层、⼀个 CNN 层和后⾯两个隐藏层⼤⼩为 128 的 LSTM 层组成。最后⼀个 LSTM 层的输出在肽⻓度维度上求和并由两个 FC 层，输出⼤⼩分别为 64和1。模型参数总数为 708,224。

CCS 模型：CCS 模型由⼀个⽤于序列、修饰和电荷状态的嵌⼊层和⼀个 CNN 层组成，后跟两个 LSTM 层，隐藏层⼤⼩为 128。最后⼀个 LSTM 层的输出在肽⻓度维度上求和并由输出⼤⼩为 64 和 1 的两个 FC 层处理。模型参数总数为 713,452。

HLA 预测模型: HLA 预测模型由⼀个序列嵌⼊层、⼀个 CNN 层和两个隐藏层⼤⼩为 256 的 LSTM 层组成。最后⼀个 LSTM 层的输出在序列⻓度维度上求和并由两个线性处理输出⼤⼩为 64 和 1 的层。S 形激活函数应⽤于最后⼀个线性层以获得概率。模型参数总数为 1,669,697。

结果

图3 各个训练阶段在不同测试数据集上的MS2预测精度

MS2预测精度如图3所示，测试模型所用的数据集名称在x轴上。性能由“PCC90”(PCC值大于0.9的百分比)来评估。每个数据集的前缀“PT”指的是ProteomeTools。经过多种数据集测试发现，预训练的MS2模型表现良好，在经过微调后基本可以适应各个数据集的预测。

评估迁移学习建模性能

图4 迁移学习的模型性能比较

在Proteome Tools的21个pms上使用迁移学习建模，每个PTM使用不同数量的多肽进行迁移学习时MS2预测的准确性。每个PTM分别进行测试。“80% seqs”是指使用80%已识别的修改序列进行迁移学习。本文使⽤ 10 或 50 个具有不同电荷状态和碰撞能量的训练肽对每种 PTM 类型应⽤迁移学习，保留具有相同 PTM 的剩余肽⽤于测试学习到的迁移。值得注意的是，在仅10个多肽上的迁移学习大大提高了测试数据的预测精度，最⼤改进⾼达 60%。这表明，由于迁移学习的强⼤功能，预训练的模型可以适应新情况，只需很少的额外数据。

AlphaPeptDeep 现在能够预测任意修饰肽的特性，甚⾄是具有意外 PTM 的 HLA 肽。此功能旨在与现代开放搜索引擎（如pFind）结合使⽤来增强 HLA 肽的识别，pFind通过使⽤序列标签技术识别意外的 PTM。AlphaPeptDeep 将半监督 Percolator 算法应⽤于搜索引擎的输出，对 PSM 进⾏重新评分，以根据深度学习预测参数（⽅法）更好地区分真假识别还⽀持开放搜索。AlphaPeptDeep 还允许⽤⼾可视化“注意力”权重，分析肽的各部分的重要程度。

总结

本文为研究者提供了一个更简单易用的模型框架AlphaPeptDeep。并构建了几个预测模型以供使用。尽管AlphaPeptDeep功能强大且易于使用，但传统的机器学习问题，如框架中的过拟合等，仍然需要用户自行解决。但是，模型商店为任何属性预测问题提供了基线模型。本文希望AlphaPeptDeep能够最大限度地减少非人工智能专家的研究人员从头开始或在预先训练的模型上构建自己的模型的挑战。

参考资料

Zeng, WF., Zhou, XX., Willems, S. et al. AlphaPeptDeep: a modular deep learning framework to predict peptide properties for proteomics. Nat Commun 13, 7238 (2022).

https://doi.org/10.1038/s41467-022-34904-3