蛋白质是生物系统中至关重要的组成部分,参与执行着支撑细胞过程和生物活动的多种功能。而蛋白质编辑是一种自然过程,它随着时间的推移逐步增加了蛋白质结构和功能的多样性,为可控的蛋白质发现和优化提供了有效途径。近期人工智能技术驱动的蛋白编辑方法通过模拟自然进化过程,广泛应用于包括疫苗研发、基因治疗以及精准医疗在内的多个健康领域,做出了突出的贡献。然而,实现可控的蛋白质编辑仍然面临着重大挑战,如何组织人类可以理解的自然语言信号并在编辑过程中实现可控的“人类-蛋白”交互仍然需要研究和探索。
这项研究工作应用深度学习领域的多模态技术,构建通用的蛋白质编辑框架ProtET,成功实现了基于目标功能属性的可控蛋白质编辑。具体来说,我们首先收集了大规模的蛋白序列及属性标注的多模态数据,并引入transformer架构的大语言模型分别编码氨基酸序列和功能文本描述,最终结合编辑指令描述进行氨基酸序列的生成设计,实现了有效的蛋白编辑。在训练过程中,ProtET使用了层级式的训练策略,包含了多模态的预训练阶段以及跨模态的编辑生成阶段。在预训练阶段,我们收集整理了超过250million的蛋白质及其生物属性标注的多模态数据,并通过对比学习实现了蛋白序列和生物文本的特征对齐。而在编辑生成阶段,我们引入了 FiLM 模块对不同模态的提取特征进行融合,并使用了生成式解码器以自回归的方式设计目标蛋白质序列。
图1: ProtET模型框架总览
经过大量的试验验证,ProtET通过对齐生物语言和自然语言,在蛋白质功能分类任务上取得了目前最优的效果。并且,我们的模型还在包括酶的催化活性、蛋白质稳定性以及抗原-抗体结合属性在内的多个功能领域实现了有效的蛋白编辑,编辑后的蛋白展示出了人们预期的功能属性优化。这突显了 ProtET在真实世界场景中进行可控蛋白质发现和优化的巨大潜力。我们希望这项研究工作能加速这一最终目标的实现。
图2: 蛋白质功能分类试验结果
图3: 编辑生成蛋白结构可视化