第一作者:黄俊杰、徐彦超
通讯作者:张鹏、赵俊博、计剑
第一单位:浙江大学
DOI:10.1038/s41551-022-00991-2
本文报道了一个由经验判断、分类、排序和回归任务组成的全新机器学习pipeline(SMEP),实现在六肽-九肽全多肽序列文库(5000亿样本,27天)中挖掘强效抗菌肽,其中3条代表性的抗菌六肽对多种临床分离耐药菌表现出了高杀菌活性,并且脱靶毒性低、不易诱导耐药性,在小鼠细菌性肺炎模型中表现出了良好的治疗效果。
具有序列多样性的多肽分子构成了一个近乎无限的潜在药物储藏库。通过噬菌体展示、核糖体展示等高通量实验,最多可实现在10^7-10^15数量级的序列库中进行筛选。抗菌多肽是应对耐药细菌感染的潜在手段。然而针对抗菌多肽,当前最先进的实验技术也仅实现了在80万序列文库中的筛选。在这项研究中,作者以抗菌肽识别为例,建立了一种高效而准确的方法来实现完整短肽库中抗菌肽的高效识别。
1.结合经验判断、分类、排序和回归任务组建pipeline,各任务对多肽进行多尺度抗菌肽识别,不断优化备选库,提高模型对抗菌肽的预测能力。
2.训练好的模型无需进行再优化,可以完成对六肽、七肽、八肽、九肽全肽库抗菌肽识别任务,湿实验结果表明识别成功率高达98.2%。
3. Pipeline任务执行效率极高,只需花费27天即可完成对5120亿样本的全文库扫描,获得top抗菌肽。
1.SMEP概述
这项工作通过结合经验判断、分类模型、排序模型、回归模型、增量学习模型修正以及湿实验验证等步骤,探索建立了一种基于SMEP的抗菌肽快速识别方法(图1)。研究以六肽为模型肽进行识别任务,从具有6400万条多肽的六肽全库中识别抗菌肽。在识别工作实施前,作者借助文献数据分别训练分类模型、排序模型以及回归模型。
在识别工作中,作者首先借助经验判断(正电性;两亲性),生成符合条件的393万多肽子库。接着利用分类模型对393万肽库中的多肽进行分类,得到56万模型预测显示抗菌活性的多肽。然后使用排序模型对这些多肽的抗菌活性进行预排序,并挑选了前500条肽作为最终抗菌肽备选库。最后,使用回归模型对500条肽进行MIC预测,并挑选MIC预测值最低的10条肽(CRRI抗菌肽)进行湿实验验证。
2.各任务模型选择与消融研究
从数据库中获取7660个数据用于训练并测试分类、排序、回归模型。根据各模型的测试指标,确认XGBoost、XGBoost、LSTM分别执行分类、排序、回归任务。考虑到数据噪声问题,合成并测试了67个随机抗菌肽,并使用实验MIC值修正LSTM回归模型。执行SMPE后,获得top-10多肽并测试MIC。全部10条肽均具备抗菌性。(图2a)。而消融实验显示,删除SMPE中的任何模块都会严重影响pipeline预测能力(图2b,c),证明了SMPE设计的合理性。
3.SMPE泛化与抗菌肽体外测试
在未对SMPE进行任何修改的前提下,执行SMPE对七肽、八肽、九肽抗菌肽识别任务。图3a表明了SMPE极高的运算效率,仅需19天即可完成对九肽全文库共5120亿样本的抗菌肽识别任务。汇总六肽-九肽测试结果,识别的54条多肽(共55条)具有抗菌性,SMPE识别成功率高达98.2%。进一步测试了最具应用潜力的抗菌六肽的生物性能,证明了它们对包括临床分离的各类多药耐药菌具有抗菌活性(表1),极低的脱靶细胞与血液毒性(图4a,b),且不易诱导细菌耐药性(图4i)。
表1 抗菌肽对各种细菌的MIC测试(黄色区域为临床分离多药耐药菌)
4.抗菌肽体内治疗测试
首先测试抗菌肽治疗短时间大量细菌感染急性肺炎的能力。采用中性粒细胞缺乏症小鼠建立细菌急性感染模型,再用雾化给药的方式进行治疗(图5a)。经抗菌肽治疗后(CRRI3、4、7组),小鼠肺部细菌减少99.8%(图5b),且肺部损伤得到明显改善(图5c)。类似的,作者还测试了抗菌肽应对更难以治疗的小鼠慢性肺炎的能力。结果显示,经抗菌肽治疗后小鼠肺部细菌减少了98.1,且肺部损伤也得到明显改善,证明抗菌肽优异的体内治疗效果。
张鹏,浙江大学高分子系百人计划研究员。研究方向:1.高分子生物材料;2.免疫活性材料;3.蛋白质多肽药物递送;4.生物材料表界面。
赵俊博,浙江大学计算机学院百人计划研究员。研究方向:1.深度学习;2. AI+X;3.预训练大模型;4. Diffusion models。
计剑,浙江大学高分子系教授(杰青)。研究方向:1.心血管医用材料和微创介入医用材料;2.医用材料的组织工程化设计;3.生物治疗用智能纳米微载体;4.新型固相基因传递体系的研究;5.仿生双亲聚合物的溶液和界面组装;6.层层组装构建生物相容性和生物功能性纳米层状超薄膜的研究。
本文创造性地整合经验判断、分类、排序、回归模型,并结合湿实验测试,完成对抗菌肽的高速(5120亿样本,27天)高精度(98.2%)识别任务。一举解决了算力不足与预测不准两大困扰机器学习应用的问题。其中分类-排序-回归任务的鲁棒性逐渐降低,预测精度逐渐升高。如此排列,一方面可以大幅节省回归模型算力,提高计算效率;另一方面,多尺度优化多肽备选库,提高模型预测准确度。可以认为,该项工作为分子大规模识别任务提供了一套完整的标准流程。
PS:细心的读者应该可以发现,编者正是本文的第一作者。编者正处于并将长期处于人工智能加速药物/材料识别领域,希望在以后的日子中,可以持续为大家输出高质量的工作,与大家一起徜徉AI for SCIENCE大海!同时,也欢迎大家联系合作,一起学习、一起进步!最后,此篇文章为公众号今年的收官之作,提前祝大家新年快乐,大展宏兔!!!
朋友们,我们来年再见!
转载须知
【原创文章】AItellU原创文章,欢迎个人转发分享,未经允许禁止转载,所刊登的所有作品的著作权均为AItellU所有。AItellU保留所有法定权利,违者必究。
投稿、转载及合作邮箱:
zjhuangjunjie@163.com
原文链接:
https://www.nature.com/articles/s41551-022-00991-2