Nat. Biotechnol.｜基于深度学习从人体肠道微生物群中识别抗菌肽

编译| 郭梦月
审稿| 厉小明

本文介绍了中国科学院微生物研究所王军及陈义华共同通讯发表在Nature Biotechnology的文章《Identification of antimicrobial peptides from the human gut microbiome using deep learning》。作者结合了包括LSTM、Attention和BERT在内的多种自然语言处理神经网络模型，形成了一个统一的管道，用于从人类肠道微生物组数据中识别候选抗菌肽（AMP）。在被确定为候选AMP的2349个序列中，化学合成了216个，其中显示出抗菌活性的有181个。并且，在这些多肽中，大多数与训练集中AMP的序列同源性低于40%。对11种最有效的AMP的进一步表征表明，它们对抗生素耐药的革兰氏阴性病原体具有很高的疗效，并且对细菌性肺部感染的小鼠模型显示出了细菌负荷降低10倍的效果。该研究展示了机器学习方法从宏基因组数据中挖掘功能肽并加速发现有前景的AMP候选分子以进行深入研究的潜力。

研究背景

当下耐药菌感染问题愈演愈烈，对全球健康构成威胁，据预测，到2050年，由耐药病原体引起的感染相关死亡人数将占全球死亡人数最多。2017年，世界卫生组织公布了新抗菌药物的优先病原体名单，统称为ESKAPE2。在这些病原体中，革兰氏阴性细菌，如耐碳青霉烯类肠杆菌科（CRE），由于其快速产生抗生素耐药性的能力而受到特别关注。然而，由于缺乏经济激励和市场失灵，近十年来发现和开发的努力逐渐减少，商业化的抗生素非常少。

现有的大量抗生素和许多其他药物都来源于微生物代谢产物，来自细菌的大量抗菌肽已被用于治疗细菌、真菌和病毒感染，甚至癌症。

测序技术的发展使人们能够深入了解微生物组，尤其是人类肠道中的微生物组，人们越来越认识到微生物组对宿主代谢和免疫健康的贡献。肠道微生物组编码高度多样的基因，是抗生素耐药基因的最大储存库之一。同时，由于长期的竞争和协同进化，预计它将产生大量的抗菌药物，甚至是抗多重耐药（MDR）细菌的抗生素。多个案例表明，在人类肠道中，AMP能够调节物种间的竞争并维持群落结构。根据生物信息学分析，人类肠道微生物群中的大量潜在AMP家族仍有待深入研究。

因此，从理论上讲，大量来自人类肠道微生物群的潜在AMP可以作为抗感染性细菌的候选来源。然而，到目前为止，AMP的发现在很大程度上仍然是由实验驱动的，由于AMP的长度相对较短，序列相似性较低，生物信息学方法仍然具有挑战性。

人工智能方法，尤其是自然语言处理方法，可以自主学习序列特征，并且可以通过识别基因组序列中的特征，甚至是低同源性的短序列来识别候选AMP。机器学习已经成功地识别出具有抗生素作用的小分子。此外，最近通过深度学习和受控数据生成的物理化学选择相结合，在计算机中生成了短AMP，证明了这种方法的可行性。

在这里，作者证明了将自主学习AMP序列特征的神经网络模型（NNM）与大规模人类微生物组数据资源相结合，可以发现具有高抗菌效力的AMP。

作者构建了多个NNM，并将它们结合起来，在大量宏基因组数据中挖掘潜在AMP。总体而言，化学合成了216种新肽，其中至少181种被证实具有抗菌活性。进一步筛选发现，AMP对MDR、革兰氏阴性菌有很高的疗效，并在动物模型中具有抗体内感染的效力。该研究工作强调了机器学习和大型宏基因组数据集相结合，以改进AMP预测并识别新的功能性AMP分子类别的潜力。

模型与方法

将神经网络模型与宏基因组数据相结合

下图是研究工作的总体流程，作者首先收集序列构建训练集和测试集，构建并优化了五种神经网络模型，并寻找这五种模型最好的组合方式，以形成一个统一的抗菌肽（AMP）识别管道。然后通过挖掘宏基因组和宏蛋白质组数据寻找候选AMP，利用候选AMP和细菌之间的相关网络分析进行进一步筛选，获得用于化学合成和体外验证的候选AMP。选择有潜力的候选药物，并进一步进行耐多药细菌疗效试验、细菌性肺部感染动物模型的体内试验和机理分析。

图1 研究工作的流程示意图

神经网络模型的创建

作者共训练了五种神经网络模型来区分抗菌肽（AMP）和非抗菌肽。首先，作者将AMP和非AMP数据集转换为一个固定大小的向量，并将20种基本的氨基酸（AA）转换为1~20的数字形式。如果原始序列未达到300个氨基酸，则序列向量用0填充。序列向量在最后一列中添加数字1/0，作为序列的分类标签，分别表示AMP/非AMP。

第一个模型，同时也是最基本的模型，是具有LSTM层结构的卷积NNM，它的结构细节如下：

嵌入层：

(input_dim=21, output_dim=128,

input_length=300)

一维卷积层:
(nb_filter=64, filter_length=16, strides=1,

activation=relu);

一维最大池化层:

(pool_size=5, strides=5);

LSTM层:

(units=100, unroll=True, stateful=False);

稠密层:

(units=1, activation=sigmoid)

第二个模型是将第一个模型架构中的LSTM层更改为注意层得来的。注意层可以有效地捕捉整个蛋白质序列中任意两个（或更多）的氨基酸之间的长程依赖关系。该模型没有添加额外的输入信息。

然后，作者利用特定的训练数据来训练上述两个模型，以获得第三和第四个分类模型（LSTM和ATT）。

第五个模型是一个应用于NLP的预训练表示模型，称为BERT。BERT从无监督语料库中学习上下文信息，并生成相应的表示向量；它广泛适用于不同的NLP任务，包括文本分类和序列注释。作者将氨基酸视为文本信息，将每个氨基酸视为一个单词代码。在训练中，各个氨基酸由间隙隔开，序列的开始/结束用[CLS]和[SEP]标签标记，然后在BERT模型的末尾添加了一个线性层，以将维度减少到2，以交叉熵作为损失函数，以默认参数作为优化器，对初始参数进行微调。

图2 用于构建管道的五个NLP模型总结

为了防止过拟合，作者采用了“提前停止”策略进行训练，当模型的性能开始下降时，就停止并保存模型，并进行了十折交叉验证。所有模型在训练过程中迅速收敛，预测分数大于0.5（阳性）的肽被视为候选抗菌肽。

实验结果

结合NLP模型创建AMP识别的统一管道

作者利用NLP算法构建AMP识别模型，包括五种神经网络模型，分为三类。其中基础模型的核心层是长短时记忆层（LSTM），已被证明对AMP识别有效。第二个模型将LSTM层替换为注意层，形成ATT模型。作者优化了五种模型的性能，并将它们结合形成了统一的AMP识别管道。

图3 模型不同组合方式的效果比较

研究发现，不同模型识别的真阳性（TP）和假阳性（FP）序列的比例差异很大，由于它们的预测偏差相互独立，作者将这些不同的模型结合起来，以进一步提高精度。作者最终测试了各种模型组合（2-5个模型）的交集，并使用精度、召回率和精确召回曲线下面积评估了模型组合。结果表明，精度最高的组合是三个模型的组合，为91.31%（ATT、LSTM和BERT，与单个BERT模型的最佳性能相比，提高了约15%，召回率达到83.32%，最高AUPRC为0.9244，见图2）。

与使用相同测试数据集的其他当前可用的AMP识别方法相比，该研究的管道在AUPRC和精度方面超过了所有其他方法（见图2）。这些结果表明该研究中结合多个NLP模型形成的统一管道是一种从序列数据中识别AMP的稳健方法。

筛选出对耐抗生素革兰氏阴性细菌最有效的肽

作者检测了从最初的抗菌活性筛选中获得的前11种c_AMP对常见的耐抗生素革兰氏阴性细菌病原体的有效性，实验结果如下图。

图4 c_AMP对耐抗生素革兰氏阴性细菌的效力分析

所有检测菌株对第三代头孢菌素头孢他啶、头孢曲松、头孢吡肟和舒巴坦头孢哌酮（CAZ、CRO、FEP和SCF）具有耐药性；所有肺炎克雷伯菌和大肠杆菌临床分离株以及鲍曼不动杆菌Ab8对至少一种碳青霉烯类抗生素：厄他培南、亚胺培南或美罗培南（ETP、IPM或MEM）具有耐药性。

而c_AMP1043对所有临床分离株的MIC均小于10μM，7个c_AMP对至少9个临床分离株的MIC均小于20μM（见图3）。因此，作者选择的候选药物与已知AMP的相似性较低，但具有广谱和有效的抗菌活性，包括抗MDR、革兰氏阴性菌。

小鼠模型选定的c_-AMP对细菌性肺部感染有效

在对小鼠进行体内感染实验之前，作者评估了11种c_AMP对真核细胞的毒性，包括HCT116细胞（人类结直肠癌细胞系）和新鲜人类红细胞。作者使用不同浓度对这11种肽进行了溶血和细胞毒性试验，并估计了各自的IC50/CC50值，结合这些结果和针对耐多药肺炎克雷伯菌（ATCC 700603）的c-AMP的MIC数据，作者最终选择了c_-AMP1043、c_-AMP593和c_-AMP575进行体内分析，使用感染肺炎克雷伯菌的小鼠模型，监测体重恢复数据。

图5 c_AMP治疗小鼠细菌感染模型

与对照组相比，用c-AMP处理的感染小鼠显示出明显更快的体重恢复率（见图4）；额外的菌落形成单位和实时聚合酶链反应分析进一步证实，c-AMP治疗24小时后，小鼠肺中的肺炎克雷伯菌负荷显著降低（见图4），表明c-AMP降低了细菌感染的严重程度。大约一半的对照组显示出体重减轻耗时超过7天，而所有接受c_AMP治疗的小鼠此时已恢复到其原始体重。结果表明，三种c-AMP对肺部感染具有抗菌活性，对宿主无明显不良影响，值得进一步研究。

总结

该研究展示了通过将NLP方法与大型微生物组数据相结合挖掘AMP的实用性，与传统的基于实验的方法相比，NLP驱动的方法可以在更短的时间内获得较高的目标类肽识别成功率。

这种方法还可用于利用大规模数据集对环境和医学宏基因组学进行基于测序的研究，以发现部分功能性“暗物质”。这种方法的应用可以极大地促进用于研究和治疗的肽制剂的识别和优先排序。并且还可用类似的方法挖掘与微生物信号以及调节宿主免疫或代谢有关的其他类型的肽。

参考资料

Ma, Y., Guo, Z., Xia, B. et al. Identification of antimicrobial peptides from the human gut microbiome using deep learning. Nat Biotechnol (2022).

https://doi.org/10.1038/s41587-022-01226-0.