Py学习  »  机器学习算法

浙江大学计剑/赵俊博/张鹏团队Nat. Biomed. Eng.:通过机器学习在短肽全库中高效筛选抗菌肽

高分子科学前沿 • 1 年前 • 127 次点击  
具有序列多样性的多肽分子构成了一个近乎无限的潜在药物储藏库。通过噬菌体展示、核糖体展示等高通量实验,最多可实现在10^7-10^15数量级的序列库中进行筛选。抗菌多肽是应对耐药细菌感染的潜在手段。然而针对抗菌多肽,当前最先进的实验技术也仅实现了在80万序列文库中的筛选。
浙江大学计剑赵俊博张鹏团队针对抗菌肽高通量筛选的问题建立了一种高效而准确的机器学习方法来实现完整短肽库中抗菌肽的高效识别。具体而言,该工作结合经验判断、分类、排序和回归任务组成的全新机器学习pipeline(SMEP),极短时间内即可实现在含有数千亿候选序列的六肽-九肽全序列文库中抗菌肽的识别。作者对其中3条代表性的抗菌六肽进行了实验研究,其对多种临床分离耐药菌表现出了高杀菌活性,并且脱靶毒性低、不易诱导耐药性,在小鼠细菌性肺炎模型中表现出了良好的治疗效果。该项工作以题为“Identification of potent antimicrobial peptides via a machine-learning pipeline that mines the entire space of peptide sequences”的文章发表于Nature Biomedical Engineering上。黄俊杰博士徐彦超博士生为文章共同第一作者。
1.SMEP概述
这项工作通过结合经验判断、分类模型、排序模型、回归模型、增量学习模型修正以及湿实验验证等步骤,探索建立了一种基于SMEP的抗菌肽快速识别方法(图1)。研究以六肽为模型肽进行识别任务,从具有6400万条多肽的六肽全库中识别抗菌肽。
在识别工作中,作者首先借助经验判断(正电性;两亲性),生成符合条件的393万多肽子库。接着利用分类模型对393万肽库中的多肽进行分类,得到56万模型预测显示抗菌活性的多肽。然后使用排序模型对这些多肽的抗菌活性进行预排序,并挑选了前500条肽作为最终抗菌肽备选库。最后,使用回归模型对500条肽进行MIC预测,并挑选MIC预测值最低的10条肽(CRRI抗菌肽)进行湿实验验证。
图1 SMEP概述
2.MIC测试
执行SMPE后,获得top-10多肽并测试MIC。全部10条肽均具备抗菌性(图2a)。性能最好的抗菌肽MIC达8 µg/mL。为证明模型设计合理性,尝试删除SMPE中分类、排序模块并重新组合模型输出top-10多肽。图2b,c表明,删除任意模块均会都会严重影响模型预测能力,证明了SMPE设计的合理性。进一步测试多肽对包括临床分离多药耐药菌的MIC,发现与目前报道的最强抗菌六肽MP196相比,识别多肽具有更强的抗菌活性(表1)。
图2 MIC测试
表1 抗菌肽对各种细菌的MIC测试(黄色区域为临床分离多药耐药菌)
3.SMPE泛化与抗菌肽体外测试
在未对SMPE进行任何修改的前提下,执行SMPE对七肽、八肽、九肽抗菌肽识别任务。图3a表明了SMPE极高的运算效率,仅需19天即可完成对九肽全文库共5120亿样本的抗菌肽识别任务。汇总六肽-九肽测试结果,识别的54条多肽(共55条)具有抗菌性,SMPE识别成功率高达98.2%。进一步测试了最具应用潜力的抗菌六肽的生物性能,证明了它们极低的脱靶细胞与血液毒性(图4a,b),且不易诱导细菌耐药性(图4i)。
图3 SMPE泛化七肽、八肽、九肽抗菌肽
图4 抗菌六肽体外测试
4.抗菌肽体内治疗测试
测试抗菌肽治疗短时间大量细菌感染急性肺炎的能力。采用中性粒细胞缺乏症小鼠建立细菌急性感染模型,再用雾化给药的方式进行治疗(图5a)。经抗菌肽治疗后(CRRI3、4、7组),小鼠肺部细菌减少99.8%(图5b),且肺部损伤得到明显改善(图5c)。类似的,作者还测试了抗菌肽应对更难以治疗的小鼠慢性肺炎的能力。结果显示,经抗菌肽治疗后小鼠肺部细菌减少了98.1%,且肺部损伤也得到明显改善,证明抗菌肽优异的体内治疗效果。
图5 抗菌六肽体内治疗效果
小结:
本文创造性地整合经验判断、分类、排序、回归模型,并结合湿实验测试,完成对抗菌肽的高速(19天)高精度(5120亿样本)识别任务。模型对多肽的识别成功率高达98.2%,获得的抗菌六肽不仅比目前报道最强的MP196抗菌活性更强,并且具备抗菌广谱性、低脱靶毒性、不易诱导细菌耐药以及优异的体内治疗效果。该项工作结合人工智能方法,极大程度提升了功能肽识别效率,为高通量功能多肽筛选提供了新思路。
作者介绍
张鹏,浙江大学高分子系百人计划研究员。研究方向:1.高分子生物材料;2.免疫活性材料;3.蛋白质多肽药物递送;4.生物材料表界面。
赵俊博,浙江大学计算机学院百人计划研究员。研究方向:1.深度学习;2. AI+X;3.预训练大模型;4. Diffusion models。
计剑,浙江大学高分子系教授(杰青)。研究方向:1.心血管医用材料和微创介入医用材料;2.医用材料的组织工程化设计;3.生物治疗用智能纳米微载体;4.新型固相基因传递体系的研究;5.仿生双亲聚合物的溶液和界面组装;6.层层组装构建生物相容性和生物功能性纳米层状超薄膜的研究。

--纤维素推荐--

--荐号--
来源:AItellU
声明:仅代表作者个人观点,作者水平有限,如有不科学之处,请在下方留言指正!

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/151453
 
127 次点击