Py学习  »  机器学习算法

基于蛋白质无序区域无监督深度学习的寡肽生成策略

DrugAI • 1 年前 • 98 次点击  

短肽类药物(寡肽)因其高生物利用度和低合成成本而受到越来越多的关注。目前,虽然许多人工智能方法被用来提高肽类药物发现的效率,但由于寡肽药物相对较少的可用数据和可区分特征,这些方法取得的进展有限。202231日,同济大学孙瑶教授、王佐林教授与北京航空航天大学王晓刚教授、张永彪教授团队合作在Bone Research上发表了题为“Generation of functional oligopeptides that promote osteogenesis based on unsupervised deep learning of protein IDRs”的文章,提出了一种结合自然语言处理(NLP)模型与蒙特卡洛模拟来生成新功能寡肽的策略。


—1.背景——


为了获得更多的先验知识和提高成功发现寡肽药物的概率,可以基于与特定兴趣过程相关的一组蛋白质的功能子序列进行信息挖掘。例如,对识别功能肽序列感兴趣的心脏病学研究人员可以将他们的注意力(搜索空间)缩小到具有心脏发生功能的蛋白质子集上。而近年来,越来越多的研究表明蛋白质中的无序区域(intrinsically disordered regionsIDRs)具有多种重要的生物学功能。此外,这些短无序片段通常包含3-10个氨基酸,与寡肽的长度十分相似,所以本研究重点关注蛋白质中的无序区域来开发促进骨生成的功能性寡肽。


——2.方法——


数据集

首先,研究者从UniProt中收集了具有“ossification”,osteogenesis”, “osteoblast development” 以及 “osteoblast differentiation”这四个Go term注释的171种与成骨相关的蛋白质,再使用IUPred2A程序来确定这171种蛋白质中的无序区域。

NLP模型

NLP算法随着深度学习的兴起而迅速发展,从经典的N-gramRNN到更高级的TransformerBERT。更先进的模型具有更好的远程语义模式挖掘能力,但这些模型也需要更多的训练数据。鉴于有限的可用数据,研究者使用了一个基本的N-gram模型。N-gramNLP中常见的基于概率的判别模型,它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作,形成了长度是N的字节片段序列,每一个字节片段称为gram。在所给语句中对所有的gram出现的频数进行统计,再根据整体语料库中每个gram出现的频数进行比对则可以得到所给语句中每个gram出现的概率[2]。本研究的模型中,输入为一个氨基酸向量,经过projection layerhidden layer后,softmax layer 层输出该向量可能的N个下一个向量的概率(N为预设值),模型最终输出为概率最大时所对应的那一个向量。

蒙特卡洛模拟

如上所述,N-gram模型获得的是最可能的一个结果,但实际需要更多的结果来进行选择。因此,研究者引入了蒙特卡洛模拟来获得更自然的结果。蒙特卡洛方法将softmax层的概率向量作为输入,然后通过掷骰子生成多个结果,其中骰子的每个面表示N个结果中的一种可能性,其出现概率为概率向量中相应的概率。

这样,以一个氨基酸为起点,首先调用经171种蛋白无序区域训练好的N-gram模型来获得概率向量,然后使用蒙特卡洛模拟来生成下一个可能的词向量,将输入的单词和这些可能的词向量拼接成下一输入N-gram的新向量,重复上述过程,直至达到设定的氨基酸长度即可获得不同长度的寡肽。

1 利用深度学习进行功能性寡肽设计的工作流程。(a)总体工作步骤;(b)深度学习模型的具体架构;(c)收集的171种成骨蛋白的生物学功能注释分析;(d171种蛋白质无序区域和全长序列中的氨基酸频率分布。


——结果——


研究者对于上述方式生成的寡肽,再进行聚类和按照之前获得的条件概率排序,每一类取排名靠前的寡肽(共28个)进行成骨功能验证。实验表明,大多数候选寡肽可显著加速体外骨髓间充质干细胞(BMSC)成骨分化,其中作用最强的为五氨基酸寡肽(AIB5P),AIB5P在小鼠体内实验也表现出了良好的促进骨形成和骨矿化功能。

2 AIB5P增强体内骨形成。每组6只小鼠服用AIB5P或溶媒(100μg·kg−1,每3天,静脉注射,总共1.5个月),收集股骨进行进一步实验。

 

——小结——

 

总的来说,该研究成功地建立了基于自然语言处理N-gram模型的功能性寡肽生成策略,并通过体内外的功能实验验证了该策略的实用性。研究者认为虽然本次研究只涉及与骨形成相关的蛋白质集,但对于其他任何感兴趣的生物过程也可应用此策略,从而加快用于许多临床适应症的寡肽药物的开发。

 

参考文献:

[1] Cai, M., etal. "Generation of functional oligopeptides that promote osteogenesis based on unsupervised deep learning of protein IDRs." Bone Research 10.1(2022): 10-23. DOI: 10.1038/s41413-022-00193-1.

[2] https://www.cnblogs.com/dahuang123/p/11990665.html

 

点击左下角的"阅读原文"即可查看原文章。


者:王丽莹

审稿:黄志贤

编辑:王妍妍

GoDesign

ID:Molecular_Design_Lab

( 扫描下方二维码可以订阅哦!)

本文为GoDesign原创编译,如需转载,请在公众号后台留言。

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/132092
 
98 次点击