图 1. 从概念上来说,Peptimizer 能够生成氨基酸序列,然后预测肽的性质,接着优化该序列
肽是由氨基酸组成的短聚合物链,类似于由字母组成的单词。我们已将其广泛用于治疗领域,如通过细胞穿膜肽进行基因治疗。得益于模块化化学具有适合自动合成和拥有广阔设计空间的特性,相比于难以合成的传统小分子药物,肽越来越受到人们的青睐。然而,巨大的序列空间(就氨基酸排列而言)却是功能性肽设计过程中的一大障碍。
除功能优化以外,合成便捷性也是一项挑战。我们会使用流动化学一类的方法,对单体进行精确排列,以合成多肽和其他功能性聚合物。在合成过程中,我们会将单体逐个添加到不断增长的聚合物链。在这一过程中,每个步骤都必须获得较高的反应产率,因此想要得到较长的聚合物链会非常困难。
在实验室环境中,优化功能性聚合物(例如肽)的常规方法是通过反复试验对化学空间进行启发式探索。但是,可能存在的聚合物数量会以 mn 的形式呈指数增长,其中 m 是可能存在的单体数量,n 是聚合物长度。
您可以使用机器学习来设计功能性聚合物,并将其视作在实验室开展实验的替代方法。
在细胞穿膜活性与合成便捷性的优化研究中,我们使用基于 TensorFlow 的机器学习框架 Peptimizer 对肽进行了设计。从概念上来说,Peptimizer 能够生成氨基酸序列,然后预测肽的性质,接着优化该序列。
Peptimizer 可用于优化聚合物的功能(以及细胞穿膜活性以外的功能)与合成便捷性。我们会使用单体(氨基酸)的拓扑表征和聚合物链(肽序列)的矩阵表征来开发可解释的(将获得的聚合物性质归因于特定的单体和/或化学亚结构)机器学习模型。通过使用基于梯度的归因方法,我们能够根据所选表征和模型体系来推断生化设计原理,如单体组成、序列长度或聚合物的净电荷。
将机器学习应用到高级功能肽设计的关键挑战包括数据集大小有限(通常少于 100 个数据点)、需要选择有效的表示形式,以及要具备说明和解释模型的能力。
在本文中,我们将使用从实验合作者处收集到的多肽数据集来证明该代码库的实用性。