Py学习  »  机器学习算法

SPJ|Health Data Science:深度学习多模态技术构建全新蛋白质编辑大模型

ScienceAAAS • 3 周前 • 28 次点击  
图片
图片

图片


Science合作期刊Health Data Science《健康数据科学(英文)》近期发表了题为Multi-Modal CLIP-Informed Protein Editing的研究工作,将深度学习技术应用到生命科学研究领域,使用多模态学习技术构建了全新的蛋白质编辑模型ProtET. 所构建的模型针对酶的催化活性、蛋白质稳定性以及抗原-抗体结合性能,成功实现了基于文本指引的有效蛋白质编辑,进一步推动了在真实世界场景中实现可控蛋白质发现和优化。



作|者|团|队|介|绍



图片

殷铭泽


硕士研究生

浙江大学 


图片

周寒靖

硕士研究生

浙江大学 

图片

朱屹恒

博士研究生

浙江大学 

图片

陈晋泰

助理教授

香港科技大学 (广州)  

图片

吴健

教授

浙江大学 



蛋白质是生物系统中至关重要的组成部分,参与执行着支撑细胞过程和生物活动的多种功能。而蛋白质编辑是一种自然过程,它随着时间的推移逐步增加了蛋白质结构和功能的多样性,为可控的蛋白质发现和优化提供了有效途径。近期人工智能技术驱动的蛋白编辑方法通过模拟自然进化过程,广泛应用于包括疫苗研发、基因治疗以及精准医疗在内的多个健康领域,做出了突出的贡献。然而,实现可控的蛋白质编辑仍然面临着重大挑战,如何组织人类可以理解的自然语言信号并在编辑过程中实现可控的“人类-蛋白”交互仍然需要研究和探索。


这项研究工作应用深度学习领域的多模态技术,构建通用的蛋白质编辑框架ProtET,成功实现了基于目标功能属性的可控蛋白质编辑。具体来说,我们首先收集了大规模的蛋白序列及属性标注的多模态数据,并引入transformer架构的大语言模型分别编码氨基酸序列和功能文本描述,最终结合编辑指令描述进行氨基酸序列的生成设计,实现了有效的蛋白编辑。在训练过程中,ProtET使用了层级式的训练策略,包含了多模态的预训练阶段以及跨模态的编辑生成阶段。在预训练阶段,我们收集整理了超过250million的蛋白质及其生物属性标注的多模态数据,并通过对比学习实现了蛋白序列和生物文本的特征对齐。而在编辑生成阶段,我们引入了 FiLM 模块对不同模态的提取特征进行融合,并使用了生成式解码器以自回归的方式设计目标蛋白质序列。


图片

图1: ProtET模型框架总览


经过大量的试验验证,ProtET通过对齐生物语言和自然语言,在蛋白质功能分类任务上取得了目前最优的效果。并且,我们的模型还在包括酶的催化活性、蛋白质稳定性以及抗原-抗体结合属性在内的多个功能领域实现了有效的蛋白编辑,编辑后的蛋白展示出了人们预期的功能属性优化。这突显了 ProtET在真实世界场景中进行可控蛋白质发现和优化的巨大潜力。我们希望这项研究工作能加速这一最终目标的实现。


图片

图2: 蛋白质功能分类试验结果


图片

图3: 编辑生成蛋白结构可视化





往期推荐
01

Health Data Science  | 吸烟与慢性肾脏病的因果关系:孟德尔随机化视角下的分析

02

Health Data Science丨推动医疗数据隐私保护的新前沿:工程和统计两类算法在结构化数据分析中的基准比较

03

Health Data Science  | 打破传统思维,探究电子健康档案缺失数据处理的新策略

04

Health Data Science | 突破性AI模型助力ICU输血决策,精准度高达97%


图片

版权信息
本文由《健康数据科学(英文)》编辑部负责翻译、编写或约稿。中文内容仅供参考,所有内容请以英文原版为准。文中除标明来源的图片,其余均来自网络公开渠道,不能识别其来源,如有版权争议,请联系公号方。欢迎转发至朋友圈,如需转载,请联系hds@bjmu.edu.cn。未经授权的翻译是侵权行为,版权方保留追究法律责任的权利。



期刊简介



Health Data Science(中文刊名《健康数据科学(英文)》)是由北京大学主办、北京大学健康医疗大数据国家研究院承办、北京大学信息技术高等研究院 (浙江)协办的全新英文科技期刊(CN10-1749/R),作为Science合作期刊以开放获取的出版形式全球范围内发行。中国工程院院士、北京大学健康医疗大数据国家研究院院长詹启敏院士担任主编。期刊分别入选中国科技期刊卓越行动计划高起点新刊项目和中国科技期刊卓越行动计划二期英文梯队期刊项目,现已被PubMed、Scopus、CNKI、Google Scholar、开放获取期刊目录(Directory of Open Access Journals,简称DOAJ)、Inspec和CABI Global Health收录,入选中国科技核心期刊目录,并被正式接受为国际出版伦理委员会会员(COPE member)。


期刊官网:https://spj.science.org/journal/hds


编辑部公邮:
HDS@hsc.pku.edu.cn

Data for Better Health|数促健康、智赋医学

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/183920
 
28 次点击