社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

结合AlphaFold的AI工具,基于超级计算机和深度学习预测基因组规模的蛋白质功能

生辉 • 2 年前 • 422 次点击  


随着高性能计算 (HPC) 的出现,计算生物学科正在进入创新和加速成熟阶段之中。近年来,机器学习领域也从 HPC 的应用中受益匪浅。

1月10日,由美国能源部(DOE)橡树岭国家实验室(ORNL)和佐治亚理工学院共同领导的科学团队,发布了高性能计算工具包以及在超级计算机上 Summit 部署的详细信息,以加快准确识别生物体整个基因组中蛋白质结构和功能的速度。


该项目中,研究人员通过利用 ORNL 的 Summit 超级计算机、Google 旗下的 DeepMind 和佐治亚理工学院开发的工具,来预测数千种功能未知的蛋白质的结构和作用。

该团队的深度学习驱动方法通过 DNA 序列推断蛋白质结构和功能,以便促进新发现,从而为生物技术、生物安全、生物能源和环境污染和气候变化等提供更加丰富的解决方案。

长期以来,根据 DNA 的长串核苷酸序列解析蛋白质的结构和功能一直是生命科学的瓶颈问题之一。随着 DNA 测序技术的进步,大约有 3.5 亿个蛋白质序列数据,并且该数字还在继续攀升。

然而,由于需要大量的实验工作来确定三维结构,科学家们仅解决了其中约 170,000 种蛋白质的结构,仍有大规模的蛋白质结构问题亟待解决。

在深度学习领域中,通过计算工具 Sequence Alignments from deep-Learning of Structural Alignments(简称为 SAdLSA)能够将结构与序列信息有效对应起来。该计算工具由佐治亚理工学院的 Mu Gao 和 Jeffrey Skolnick 共同开发。

SAdLSA 可以检测出一些几乎不相关的蛋白质是否可能会具有相同功能,”ORNL 计算化学家 Jerry Parks 介绍,“将其与蛋白质 3D 结构预测模型的 AlphaFold 相结合,可以通过分析活性位点以确定哪些氨基酸正在发挥化学作用,以及它们对于蛋白质功能的贡献。”

在2020年,来自 DeepMind 的工具 AlphaFold 2 在蛋白质结构预测(CASP)竞赛中,预测未知蛋白质结构的准确性接近 X 射线晶体学等实验技术解析的3D结构。自1994年 CASP 竞赛开展以来,AlphaFold 2 是第一个也是唯一一个达到该准确度水平的预测工具。

随着 AlphaFold 的成功,欧洲生物信息学研究所(EBI)随即与其开展合作,对超过 1 亿种蛋白质进行了建模——从模式生物以及那些具备医学和人类健康领域应用的蛋白质开始。

目前,来自 ORNL 的研究人员及其它研究者正在努力将工具包提供给 Summit 上的其他用户,并公开分享数千种蛋白质结构数据集,以便促进科学发展。

图丨Summit 超级计算机(来源:ORNL)

“基于这一创新工具,我们现在正在处理天体物理学家处理的大量数据。”ORNL 研究员 Ada Sedova 说,“通过高性能计算获取测序数据并提出有效推论,我们将有可能快速缩小实验范围。以便快速回答诸如‘这种蛋白质有什么作用?它如何影响细胞?我们如何利用蛋白质来实现目标?’等诸多问题。”

Ada 的研究小组长期专注于与能源相关的生物研究工作。他们已经针对四种微生物的完整蛋白质组进行了建模,每种微生物大约有 5,000 种蛋白质。并发现其中两种微生物可产生制造塑料的重要材料。另外两种则会分解和转化金属。这些结构数据或将为推动合成生物学进展以及减少汞污染等提供新式策略。

该团队还生成了在泥炭藓中起作用的 24,000 种蛋白质的模型。泥炭藓存在于泥炭沼泽中并能够储存大量碳,泥炭沼泽的碳含量比世界上所有森林都多。这些数据可以帮助科学家确定哪些基因在增强泥炭藓吸收碳和抵御气候变化的能力中具有突出贡献。

除此之外,该项工具还具备适配更先进计算平台的能力。其性能将随着平台设备的进化而不断发展,基于 ORNL 搭建的 Frontier 系统来看,预计其每秒计算量将超过 1018 次。

参考资料:
  • DOI: 10.1109/MLHPC54614.2021.00010
  • https://www.ornl.gov/news/scientists-use-summit-supercomputer-deep-learning-predict-protein-functions-genome-scale

-End-



【往期】

英国 AI 制药公司丨拟 SPAC 上市丨估值 17 亿美元

蓝海资本 CEO 杨锋丨善用长板丨助力科学家创业

西比曼生物丨刘必佐丨细胞治疗需严控 CMC 流程

专访传奇生物范晓虎丨攻坚实体瘤丨开发通用疗法

高瓴张磊丨首谈合成生物学丨让科学家坐 C 位

卢冠达丨“逻辑门”细胞疗法公司丨拟 SPAC 上市


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/125777
 
422 次点击