Py学习  »  机器学习算法

Nat. Commun. | 小样本深度学习模型从百亿级多肽样本库中 精准挖掘抗鲍曼不动杆菌肽

DrugAI • 2 周前 • 30 次点击  

鲍曼不动杆菌是临床感染致死率最高的菌种之一,并被WHO列为“Critical”细菌第一位。多粘菌素是治疗鲍曼不动杆菌感染的临床药物,但是使用该药易引发肾毒性,并且已经逐渐发展出细菌耐药性。因此,针对鲍曼不动杆菌的新抗菌剂研发刻不容缓。抗菌肽的杀菌机理是裂解细胞膜,不易诱导耐药性,被认为是下一代抗生素理想备选药物。但是因鲍曼不动杆菌生存力顽强的特性,其靶向抗菌肽的研发进展缓慢,目前仅报道百余条相关抗菌肽,这证明开发抗鲍曼不动杆菌肽难度较大。



近年来,人工智能等方法在开发抗菌肽领域获得巨大成功。2023年浙江大学计剑、张鹏、赵俊博,中国科学院杭州医学研究所黄俊杰等开发SMEP工作流,仅耗时27天即从超过5000亿多肽文库中挖掘抗菌肽,成功率高达98.1%(Nat. Biomed. Eng. 2023, 7, 797)。但是报道的抗鲍曼不动杆菌肽数据过少,直接使用如此少的数据训练深度学习模型会造成严重的过拟合问题,致使任务失败。



在这项工作中,浙江大学计剑、张鹏、赵俊博,中国科学院杭州医学研究所黄俊杰原班人马再度合作,针对抗鲍曼不动杆菌肽数据稀缺的问题,结合了预训练与多步微调技术,开发了小样本深度学习工作流FSLSMEP。该工作流集成了分类模型、排序模型以及回归模型,从多肽理论库中挖掘抗鲍曼不动杆菌肽(图1)。


图1: FSLSMEP概览。


针对每个模型,作者选择预训练模型ESM作为基模型,再使用相似数据—抗绿脓杆菌肽(1186条)做微调,最后使用抗鲍曼不动杆菌肽进行二次微调,分别训练分类、排序、回归模型(图1b)。实验结果显示,相比于直接训练,采用预训练模型+多步微调训练能大幅提升每个模块模型的预测能力(图2)。


图2: 分类、排序、回归模块中各模型指标。


模型训练完成后,作者将其串联为“分类-排序-回归”工作流,从多肽理论库(20n)中挖掘强效抗鲍曼不动杆菌肽。使用该工作流,分别从六肽(0.64亿)、七肽(12.8亿)以及八肽(256亿)全文库中挖掘抗菌肽。湿实验结果表明,91.1%(41/45)的多肽表现抗菌活性(图3a,b)。其中,EME7(7)表现出对抗鲍曼不动杆菌优异的抗菌性能,MIC达8 μg/mL。并且,由工作流筛选的多肽与已报道的抗菌肽展现较低相似性,具有新颖性(图3c,d)。除抗菌活性外, EME抗菌肽还表现出较强的杀菌动力学,在2h内就可杀灭~109细菌;展现较低的溶血毒性以及细胞毒性,赋予抗菌肽优异的治疗窗口(图4a-c)。


图3: 从256亿多肽文库中挖掘抗鲍曼不动杆菌肽。


在抗菌肽的杀菌机理探究中,扫描电镜以及透射电镜照片显示,经抗菌肽处理后,细菌出现细胞膜破损、内容物渗出现象,在表型水平证明抗菌肽的杀菌机理为裂解细菌细胞膜(图4d-i)。RNA-seq结果显示,经抗菌肽处理后,细菌的细胞膜修复以及氧化应激相关途径的基因上调,在分子水平证明抗菌肽的杀菌机理为裂解细菌细胞膜。这是一种不易耐药的杀菌机制,而耐药性实验也证明,抗菌肽在10天细菌培养条件下,没有产生耐药性(图4j)。RNA-seq结果也证明,抗菌肽处理后,细菌耐药基因未出现上调(图4k)。


图4: EME抗菌肽生物活性评价。


为验证工作流的泛化性,作者针对全新菌种白色念珠菌进行从头开发。使用657个抗白色念珠菌肽阳性样本微调模型(替换了148个抗鲍曼不动杆菌肽数据),分别重新训练分类-排序-回归模型。再从包含12.8亿样本的七肽全文库中挖掘top-10样本。湿实验结果证明,90%(9/10)多肽具有抗菌活性,最强抗菌肽的MIC达16 μg/mL。该结果证明FSLSMEP具有较强的泛化性,能有效帮助筛选其他数据匮乏的抗菌肽。


最后,作者使用小鼠肺炎动物模型证明EME7(7)抗菌肽的体内治疗效果(图5)。在与临床药物多粘菌素B的头对头比较中,EME7(7)展现出相媲美的体内治疗效果,能够杀灭超过95%的肺部细菌(图5b,c)。更值得一提的是,EME7(7)在体内应用中表现出优于多粘菌素B的肾毒性,使其展现出优异的临床潜力(图5d,e)。


图5: EME抗菌肽体内治疗效果与毒性评价。


总结而言,在这项工作中,作者结合“预训练+多步微调”小样本学习策略开发深度学习模型,首次实现仅利用148阳性样本训练高预测性模型,从百亿级的多肽空间中精准挖掘抗鲍曼不动杆菌肽,成功率高达91.1%(41/45)。湿实验测试表明,抗菌肽能高效杀灭鲍曼不动杆菌、不易诱导耐药性并且细胞毒性低;其中,EME7(7)表现出优于临床用药多粘菌素B的治疗效果,其体内杀菌效率与多粘菌素B持平,并且不会诱导肾毒性。这项工作为解决现实中突出存在的小样本问题场景提供了全新解决范式。

参考资料

Huang, J., Zhang, W., Wang, A. et al. Discovery of antimicrobial peptides targeting Acinetobacter baumannii via a pre-trained and fine-tuned few-shot learning-based pipeline. Nat Commun (2026). 

https://doi.org/10.1038/s41467-026-69306-2


Huang, J., Xu, Y., Xue, Y. et al. Identification of potent antimicrobial peptides via a machine-learning pipeline that mines the entire space of peptide sequences. Nat. Biomed. Eng 7, 797–810 (2023). https://doi.org/10.1038/s41551-022-00991-2

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/192851