机器学习替代传统实验，聚合物设计的新思路！

特邀博文 / Somesh Mohapatra 和 Rafael Gómez-Bombarelli，来自 MIT

简介

聚合物是由重复的较长分子链所组成的材料，如塑料或橡胶。聚合物由彼此之间相互化学键合的亚单位（单体，Monomers）组成。单体的组成和排列将决定聚合物的化学性质。在日常生活中，我们经常使用的聚合物有水瓶、特氟龙不粘涂层及粘合剂。

图 1. 从概念上来说，Peptimizer 能够生成氨基酸序列，然后预测肽的性质，接着优化该序列

肽是由氨基酸组成的短聚合物链，类似于由字母组成的单词。我们已将其广泛用于治疗领域，如通过细胞穿膜肽进行基因治疗。得益于模块化化学具有适合自动合成和拥有广阔设计空间的特性，相比于难以合成的传统小分子药物，肽越来越受到人们的青睐。然而，巨大的序列空间（就氨基酸排列而言）却是功能性肽设计过程中的一大障碍。

除功能优化以外，合成便捷性也是一项挑战。我们会使用流动化学一类的方法，对单体进行精确排列，以合成多肽和其他功能性聚合物。在合成过程中，我们会将单体逐个添加到不断增长的聚合物链。在这一过程中，每个步骤都必须获得较高的反应产率，因此想要得到较长的聚合物链会非常困难。

在实验室环境中，优化功能性聚合物（例如肽）的常规方法是通过反复试验对化学空间进行启发式探索。但是，可能存在的聚合物数量会以 mn 的形式呈指数增长，其中 m 是可能存在的单体数量，n 是聚合物长度。

您可以使用机器学习来设计功能性聚合物，并将其视作在实验室开展实验的替代方法。

在细胞穿膜活性与合成便捷性的优化研究中，我们使用基于 TensorFlow 的机器学习框架 Peptimizer 对肽进行了设计。从概念上来说，Peptimizer 能够生成氨基酸序列，然后预测肽的性质，接着优化该序列。

细胞穿膜活性
https://www.biorxiv.org/content/10.1101/2020.04.10.036566v1
合成便捷性
https://chemrxiv.org/articles/preprint/Deep_Learning_for_Prediction_and_Optimization_of_Fast-Flow_Peptide_Synthesis/12649343

Peptimizer 可用于优化聚合物的功能（以及细胞穿膜活性以外的功能）与合成便捷性。我们会使用单体（氨基酸）的拓扑表征和聚合物链（肽序列）的矩阵表征来开发可解释的（将获得的聚合物性质归因于特定的单体和/或化学亚结构）机器学习模型。通过使用基于梯度的归因方法，我们能够根据所选表征和模型体系来推断生化设计原理，如单体组成、序列长度或聚合物的净电荷。

Peptimizer
https://github.com/learningmatter-mit/peptimizer

将机器学习应用到高级功能肽设计的关键挑战包括数据集大小有限（通常少于 100 个数据点）、需要选择有效的表示形式，以及要具备说明和解释模型的能力。

在本文中，我们将使用从实验合作者处收集到的多肽数据集来证明该代码库的实用性。

功能优化

我们基于在设计新型而高效的细胞穿膜肽方面所做的研究，提出了用于发现功能性聚合物的框架（图 1）。该框架由循环神经网络生成器、卷积神经网络预测器和遗传算法优化器组成：

生成器：我们会使用 Teacher Forcing 在一个肽序列数据集上对其进行训练，并使其支持对与训练数据集中的数据类似的新序列进行采样。
预测器：我们会使用基于序列的矩阵表征和经实验确定的生物活性对其进行训练。
优化器： 我们会将生成器采样得到的序列植入其中。我们通过评估涉及预测活性和其他参数（如长度和精氨酸含量）的目标函数来优化该框架。
研究
https://www.biorxiv.org/content/10.1101/2020.04.10.036566v1

最后，我们可以得到具有高预测活性的优化后序列列表，并可以在湿实验室环境下对其开展验证。

您可以在此教程中访问其中的各个组件，并使用自定义数据集进行训练。我们使用模块化的方式设计了各个组件的脚本，以便于您用相对轻松的方式对其进行修改。

此教程
https://github.com/learningmatter-mit/peptimizer/blob/master/Tutorial_CPP.ipynb

优化合成便捷性

除功能优化外，Peptimizer 还可优化野生型序列的合成便捷性（图 2）。该框架由一个多模态卷积神经网络预测器和一个强力优化器组成。对于预测器，我们会使用实验性的合成参数（如预合成链、传入的单体、温度、流速和催化剂）对其进行训练。优化器会评估野生型序列的单点突变，以获得更高的理论产量。

合成便捷性
https://chemrxiv.org/articles/preprint/Deep_Learning_for_Prediction_and_Optimization_of_Fast-Flow_Peptide_Synthesis/12649343

而对于优化合成便捷性的强力优化器，我们会根据野生型序列变量 (m x n) 的线性增长序列空间来做出选择。与在功能优化中遇到的指数增长型序列空间相比 (mⁿ)，这个序列空间相对较小。

通过指定不同的输入和输出变量以及相应的数据类型，我们可将此框架用于内嵌监控功能的其他递进式化学反应平台。您可使用教程笔记本访问该框架。

教程笔记本
https://github.com/learningmatter-mit/peptimizer/blob/master/Tutorial_Synthesis.ipynb

图 2. 合成便捷性优化过程概览

模型的可解释性

Peptimizer 的一个重要功能便是基于梯度为模型预测归因，以对其进行解释（图 3）。以输入序列表征作为预测活性的梯度，我们可以看到每个输入特征的正活化值与负活化值。在热图中，如果指纹指数与能够正向促进活性的亚结构相关，则会有较高的活化值。这个活化热图沿拓扑指纹轴平均分布，以便于您在其中找到对预测活性有正/负促进作用的关键亚结构或化学基序。在平均分布的单体位置轴上，我们可以得到各个单体对聚合物预测功能的相对贡献。我们可通过这些可视化结果深入了解序列与活性之间的关系，并加强对当代生化设计原理的理解。

图 3.（左）正梯度活化热图，（右）用于功能肽序列的活化后化合物亚结构

展望

通过使用 Peptimizer 优化功能性聚合物，我们可以为制定实验策略提供依据，并节省大量时间和成本。

我们相信，该教程笔记本将有助于化学、材料科学和序列设计等众多领域的实验科学家使用自定义数据集（如 Khazana）运行机器学习模型。此外，我们还可通过归因方法了解高维序列与活性之间的关系，并掌握设计原则。

Khazana
https://khazana.gatech.edu/

实验合作

这项研究由我们与 Bradley Pentelute 实验室（麻省理工学院化学系）协作完成。负责优化功能和合成便捷性的协作者分别是 Carly Schissel 和 Nina Hartrampf 博士。由衷感谢他们提供的数据集、做出的实验验证，以及在模型开发过程中开展的讨论。

致谢

我们衷心感谢 Google 公司员工 Thiru Palanisamy 和 Josh Gordon 给予的支持，感谢他们共同帮助撰写这篇文章，以及提供的积极反馈。

— 推荐阅读 —