社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

Nat. Biotechnol. | 使用深度学习来注释蛋白质宇宙

DrugAI • 3 年前 • 427 次点击  

编译 | 华浩宇

审稿 | 郑仰昆

指导 | 闵小平(厦门大学


今天带来的是谷歌与欧洲生物信息学研究所研究小组发表在Nature biotechnology上的Using deep learning to annotate the protein universe。


1

背景

了解氨基酸序列和蛋白质功能之间的关系是一项长期存在的挑战,具有深远的科学和转化意义。目前最先进的注释方法是使用从手工制作的序列排列和评分函数建立的隐马尔可夫模型(pHMMs),或使用在大型标记序列集上进行成对排列的算法,如BLASTp7。虽然这些方法非常成功,但广泛使用的蛋白质家族数据库Pfam在过去5年中增长了不到5%,而且至少有三分之一的微生物蛋白质不能通过与功能特征序列的比对而被注释,这阻碍了利用来自不同生物体的数据的能力。本文训练深度学习模型(ProtCNN),以准确预测未对齐氨基酸序列的功能注释,这些注释基于从蛋白质家族数据库 Pfam 的17,929 个家族构建的严格基准评估。这些模型推断出已知的进化替代模式,并学习准确聚类来自看不见的家族的序列的表示。将深度模型与现有方法相结合显着提高了远程同源性检测,表明深度模型学习了互补信息。这种方法让主流数据库 Pfam 中注释的蛋白质序列覆盖范围扩大了9.5%,超过了过去十年的新增注释,并预测了 360 种人类蛋白质组蛋白的功能。


2

网络架构

中央图展示了输入(红色)、嵌入(黄色)和预测(绿色)网络以及残差网络(ResNet)架构,ProtCNN 对氨基酸序列进行编码,填充后,通过卷积神经网络在Pfam数据库的监督下学习向量表示,而右图展示了 ProtCNN 学习并由 ProtREP 通过简单的最近邻方法。在这种表示中,每个序列对应一个点,来自同一家族的序列通常比来自其他家族的序列更接近。


图 1 ProtCNN 架构


3

结果分析

论文使用来自Pfam v.32.0的17,929个家族的种子序列来构建基准注释任务,其中每个家族的未配对种子序列被分成训练和测试集。对于随机分割实验,81.2%的序列用于训练,9.4%用于验证,9.4%作为所有模型的未见过的测试序列保留。论文训练了一个神经网络(ProtCNN)来按Pfam家族对持有的测试序列进行分类,并表明它优于现有的方法,尽管没有使用序列比对,但显示了卓越的准确性。


ProtCNN和ProtENN

在随机分割中,ProtCNN明显优于基于比对的方法Top Pick HMM(TPHMM)、BLASTp和phmmer, ProtENN是由19个ProtCNN模型组成的一个集成模型,将错误率降低到0.16%,即对126,171个测试序列进行了205次错误分类,对与训练集相同度 <90%的序列的准确性明显提高(图2),对短序列的注释也有明显改善。


图 2 模型在Pfam-seed上的表现


ProtREP

ProtCNN 在Pfam数据库的监督下学习氨基酸序列的向量表示,无论其未对齐长度如何。为获得高精度,来自每个家族的表示必须紧密地聚集在一起,以便不同的族很好地相互分离。为了测试这种学习表示是否可用于准确分类最小家族的序列,作者构建了一种称为 ProtREP 的新方法。对于 ProtREP,计算每个家族在其训练序列中的平均学习表示,产生一个标记家族表示。然后通过在学习表示空间中找到其最近的标记来对每个保留的测试序列进行分类。ProtREP 具有与 ProtCNN 相同的计算复杂度,但对小型蛋白质家族更准确(图3)。这表明可以改进 ProtCNN 和 ProtENN 之间的速度-准确度权衡,以产生比集成更快且准确度更高的分类器,随着更多初始序列的加入,ProtREP对未知家族的准确率迅速提高。这表明,ProtREP擅长于用迭代的方法来识别蛋白质家族。


图 3 蛋白质家族识别率


为探究深度模型对蛋白质序列数据的理解,文章在来自Pfam的80%的未对齐序列上训练 ProtCNN,并计算了学习氨基酸表示的混淆矩阵(图4)。


图 4 氨基酸表示的混淆矩阵


ProteENN 和 TPHMM 的组合

ProteENN 和 TPHMM 的组合(图5)提高了远程同源任务的性能,在来自 Pfam-seed 的聚类分裂的保留测试序列的模型性能比较中,TPHMM和ProtENN 模型的简单组合将错误率降低了 38.6%,将 ProtENN 数据的准确度从 89.0% 提高到 93.3%。每项指标都显著超越BLAST和 TPHMM 模型的结合。


图 5 TPHMM 和 ProtENN 模型的简单组合图示


结果表明,ProtCNN 学习了具有代表性的蛋白序列的向量表达,理解蛋白质序列的特性,使其可泛化到序列空间未知的部分。通过深度学习去探索蛋白宇宙,让人类对生命本源的理解更进一步。


参考资料

Bileschi, M.L., Belanger, D., Bryant, D.H. et al. Using deep learning to annotate the protein universe. Nat Biotechnol (2022). 

https://doi.org/10.1038/s41587-021-01179-w

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/127708
 
427 次点击