浙大团队开发机器学习方法，在巨量肽序列空间中实现对有效抗菌肽的精准识别

多肽药物因具备优良的特异性和安全性等优势，已经在多个疾病领域得到了应用，比如心血管疾病、糖尿病等。由于常见的氨基酸有二十种，而多肽分子是由单个氨基酸按照一定的序列排布而成，因此肽序列形成了一个巨大的潜在治疗库。

用传统的方法发现多肽药物，主要通过对自然界中的多肽进行提取和鉴定，再对其序列进行改动而得到。不过，因为自然界中存在的多肽，比理论上应有的多肽少得多，所以这种方法极大地限制了候选药物的搜寻空间。

近日，浙江大学团队开发了一种可以在多肽全库进行搜索的机器学习方法，通过对虚拟肽库中数千亿条序列的挖掘，成功筛选出高效的抗菌短肽。

图丨AMP 筛选方法概述（来源：Nature Biomedical Engineering）

2023 年 1 月 12 日，相关论文以《通过挖掘整个肽序列空间的机器学习 Pipeline 来识别有效的抗菌肽》（Identification of potent antimicrobial peptides via a machine-learning pipeline that mines the entire space of peptide sequences）为题发表在 Nature Biomedical Engineering 上[1]。

图丨相关论文（来源：Nature Biomedical Engineering）

浙江大学高分子科学与工程系博士后黄俊杰和计算机科学与技术学院博士研究生徐彦超为论文的共同第一作者。浙江大学高分子系计剑教授、计算机学院“百人计划”研究员赵俊博和高分子系“百人计划”研究员张鹏为论文的共同通讯作者。

该团队之所以将抗菌肽作为筛选对象，主要有以下原因。

张鹏介绍道：“一是抗菌肽是应对当前多重耐药“超级细菌”感染挑战的备选药物。二是采用机器学习方法需要大量训练数据，抗菌肽的数据相对容易获得。”

图丨张鹏（来源：张鹏）

据其介绍，虽然此前有研究者已经利用算法，在给定的多肽库中实现了抗菌肽的搜寻，但这仅仅限于在一个局部的空间内。

这是为什么呢？

“传统上训练 AI 模型的方法，都是基于大量的训练数据进行的。训练的数据越多，模型的精度往往越高。但是对于材料、生物等物质学科而言，能用于模型训练的数据非常少，因此模型精度也会受到很大的限制。”张鹏表示。

也就是说，即便所用模型的算法已经足够好，但如果用有限的数据对其进行训练，并使之在巨大的多肽库中，完成对抗菌能力较强的抗菌肽的精准预测，也是极其困难的。

图丨扩展肽库的筛选（来源：Nature Biomedical Engineering）

为了将不可能变为可能，该团队采用一种新的逻辑架构，通过对执行不同任务（包括经验判断、分类、排序、回归等）的模型的顺序进行排列，逐渐地把备选的多肽库，缩小到可以接受的范围，进而筛选出效果较好的抗菌多肽。

实验结果显示，经由该方法筛选出的三种抗菌六肽，对多种多重耐药病原体的临床分离株，具有较强的抗菌活性。

图丨预测肽对金黄色葡萄球菌抗菌活性的湿实验室验证（来源：Nature Biomedical Engineering）

从整体上看，该研究总共使用了 1762 条训练数据。“这是相对较大的数据量，在实验科学相关的很多其他研究中，积累数据是非常困难的。”张鹏。

后续，他们计划尝试在数据量更小的条件下，实现在多肽库中预测序列。同时，也期待针对一种特定的、更具现实意义的细菌，比如多重抗药性鲍曼不动杆菌，在更有限的数量下，找到针对它的药物分子。

近几年，“AI for Science”迎来了如火如荼的发展态势，在国家政策倡导和支持的基础上，高校、企业、资本等多方纷纷积极推进。

在赵俊博看来，该研究得以完成，离不开多学科背景的科研人员的交叉合作。

图丨赵俊博（来源：赵俊博）

“我和张鹏、计剑两位合作者的学科背景完全不同。我专注于计算机科学，他们倾向于生物大分子，我们对于对方的知识都不太了解。因此，我觉得这次交叉合作，是一个比较成功的案例，实现了‘从 0 到 1’的突破。”赵俊博说。

同时，他也认为，计算机科学领域的论文大多由专门研究该领域的团队所发表，他们更多地会选择固定的数据集，然后在上面进行算法的开发。但是，因为这些数据集的代表性有限，基于此得到的论文成果，不一定具备足够的启示意义。

但在该研究中，通过与不同领域的研究人员开展合作，他得到了对方给予的数据和方法层面的帮助。

“我们这项研究的关键点在于，通过对不同的方法进行集成，进而实现不同层级的搜索。这绝不是一个简单的计算机模拟结果就能实现的，需要更多的专业性见解。”

参考资料：

1. Huang, J., Xu, Y., Xue, Y. et al. Identification of potent antimicrobial peptides via a machine-learning pipeline that mines the entire space of peptide sequences. Nature Biomedical Engineering (2023). https://doi.org/10.1038/s41551-022-00991-2