Nat. Commun. | 核酸聚合物生成，机器学习来帮忙

编译 | 卢长城
审稿 | 刘莹

今天给大家介绍哈佛大学David R. Liu课题组在国际期刊nature communications上发表的核酸序列生成的文章《Generating experimentally unrelated target molecule-binding highly functionalized nucleic-acid polymers using machine learning》。虽然体外筛选是探索大范围序列空间的有效方法，但由于选择引起的序列收敛，以及有限的测序深度，使得序列的搜索空间仅局限在少数区域。为了解决该问题，作者提出结合湿实验和机器学习方式去探索未被湿实验检索的序列空间。该论文通过体外筛选，发现了与柔红霉素具有高亲和力（KD=5-65 nM）的高度侧链功能化的核酸聚合物（HFNAP）。然后利用该数据训练条件变分自编码器(CVAE)模型，生成了与柔红霉素（daunomycin）高度亲和（KD=9-26nM）且独特多样的HFNAP序列。该论文将体外筛选与机器学习模型耦合，直接生成活性变体，是一种新的发现功能性生物聚合物的方法。

简介

体外筛选（in vitro selection）通过在大型组合文库上进行选择、扩增和偶尔发生突变的迭代循环，能够分离出具有高亲和力或催化活性的基于序列定义的聚合物。在早期的体外筛选中，有限的测序能力仅能从筛选结果中识别有限数量的活性序列。高通量测序(HTS)的发展和测序成本的降低使重建更广阔的适应度空间成为可能，能揭示序列和活性之间更广泛的关系。

机器学习为官能化合成聚合物的发现带来了新的机遇。许多机器学习辅助的蛋白质进化工作广泛依赖于共进化的活性蛋白质序列，即使从活性低但非零水平的蛋白质开始，机器学习也可以引入先前解决的蛋白质结构，或经过数百万年自然进化优化的相关蛋白质序列的信息。相比之下，体外筛选从原始库开始，由于活跃的样本被大量的非活跃样本掩盖，产生了稀疏和嘈杂的数据集。选择过程中的序列收敛性也限制了活跃样本的序列多样性。此外，低通量命中的特征往往限制了可测量活性序列的数量。在缺乏生化分析的真实活性测量的情况下，使用富集值替代会引入大量测量噪声，因为富集值和活性值之间的相关性可能受选择的随机性和活性无关的因素的影响，如在翻译、选择或PCR扩增过程中发生的偏差。最后，有限的测序深度限制了对大量输入序列的进化轨迹进行采样和观察的能力，从而产生了已有噪声数据的噪声视图。

为了获得足够用于训练的数据，作者在一个化学多样的起始文库上进行了优化的体外筛选，该文库包含序列定义的侧链合成聚合物，称为高度功能化核酸聚合物（HFNAP）。HFNAPs由在每三个核苷酸上具有侧链的寡核苷酸组成，其使用基于配体的翻译系统从DNA模板翻译（图1a）。该HFNAP翻译系统的迭代由15个连续的三核苷酸构建块组成，每个构建块包含由32个密码子编码的8个不同侧链中的一个。作者提出一种集成的方法来发现与任何先前已知的序列不同的、高活性的序列：使用体外筛选数据训练的机器学习模型直接生成。

图1 HFNAP的构建块、翻译和选择过程

HFNAP库的选择和设计

图2 对柔红霉素产生具有结合亲和力HFNAP的筛选过程

每一轮选择的最佳选择压力是在保持序列多样性和能够有效富集活性个体之间的微妙平衡。过早应用高压力条件可能会导致选择失败或在获得罕见的高活性序列之前，序列多样性的过度损失。小心增加选择压力使选择步骤的随机性、容易出错和有偏差导致序列的不可逆丢失的概率最小化，这些序列可能在随后的几轮选择中产生表现最好的个体。

如图2c所示，前10个最富集的序列早在第3轮就已经高度排名，随后的几轮选择导致顶级序列的总体排名和分布变化很小。注意到升高温度会使略微稳定的HFNAP变性，从而富集具有更稳定构象的序列，在第4轮选择时提高温度至37℃。其后通过迭代的目标洗脱步骤选择性地富集慢速率的HFNAP来改善选择结果，其中用1 mM柔红霉素进行1分钟和10分钟的初始洗脱，使具有快速解离的弱结合序列洗脱并被丢弃。最后60分钟的洗脱捕获了较慢解离的序列(如图2a所示)。实验结果表明，高选择压力条件在去除弱结合物方面的有效性，同时提高了富集效率，使稀有序列的识别成为可能。改进的筛选产生了不同于之前的幸存序列对极性烯丙胺和乙醇侧链的强烈偏好。MST实验结果表明，改进筛选的HFNAPs表现出Kd=5-65nM之间的结合亲和力，比之前产生的HFNAPs提高了约15-200倍，HFNAP侧链在柔红霉素的结合中起着重要作用。

图3 提高选择压力产生与柔红霉素更有效结合的HFNAP

生成式机器学习模型

CVAE模型

在HFNAP体外筛选数据上训练的生成式机器学习模型，原则上可以学习柔红霉素结合的HFNAP适应度空间。由此得到的模型可以直接生成许多高活性的HFNAP，在理论上包括那些具有接近随机序列的序列多样性的HFNAP，从而避免了增加采样或搜索深度的需要。

为了指导模型只生成最活跃的序列，作者使用半监督的条件变分自动编码器(CVAE)来产生具有柔红霉素亲和力的HFNAP序列。为了标记体外筛选数据，作者通过第4轮和第8b轮之间的序列富集值定义了0到1之间的适应度值，以代表HFNAP对道诺霉素的预期结合亲和力。编码器由2层BiLSTM构成，解码器由全连接的序列重构解码器和适应度预测解码构成，将适应度和编码的序列特征一起输入解码器。采用交叉熵作为序列重构损失函数，MSE作为适应度预测损失函数。

图4 生成具有柔红霉素结合亲和力的HFNAP的机器学习模型

实验结果

大多数序列适应度接近于0，不到1%（大约2000条）序列的适应度大于0.25。将172545条HFNAP序列按8:2的比例分为训练集和测试集，为提高模型生成高亲和力序列的能力，额外从数据集中分离256条高适应度的序列作为高适应度测试集。对超参数进行网格搜索，在高适应度测试集上获得了95%的DNA重建准确率，同时在一般适应度测试集上的DNA重建准确率为89%。

将训练集中前3072条高适应度序列作为参考集，从中全适应度采样生成1万条HFNAP序列，发现模型捕获了训练数据中适应度与胺或醇侧链数量之间的一般频率和关系。

接着研究模型是否能生成实验测量的与柔红霉素具有结合亲和力的HFNAP序列，从参考集中将适应度从0.5以0.05的间隔调至0.95的方式采样生成1万条HFNAP序列。首先计算这1万条序列间的Levenshtein距离（LD），发现有136序列的成对LD<9（其中包含128个单对，6个双对，2个三对）。由于三对可能反映了模型置信度的局部区域，因此选择了2个三对（总共8个序列）进行进一步的研究，MST分析表明，其中两个序列亲和力结合度Kd=13-15nM（如图5a所示）。

为了直接比较CVAE生成的HFNAPs与实验筛选出的顶级序列的结合亲和力，作者将上述1万条CVAE生成的序列和实验筛选出前2000条高适应度序列（竞争集）混合，与柔红霉素进行1轮高压力筛选，富集了2433条序列，其中48.6%的序列来源于CVAE生成的HFNAPs。这1183条CVAE生成的序列在单轮高严格选择中表现得与竞争集的成员一样好或更好，对适应度最好的5条序列进行MST实验，以9-26nM的亲和力结合红柔霉素（如图5a所示）。

为了评估CVAE能否识别活性序列空间的不同区域，使用Levenshtein距离和降维来判断CVAE生成的HFNAP序列是否与参考集不相似。图5b UMAP可视化可以发现，实验生成的前7个高适应度的序列出现在大的聚类中（其与39%参考集的LD距离为1-2），这表明了由选择引起的序列收敛导致的序列相似性。而CVAE生成的前7个高适应度的序列能从所有3072个参考序列中分离出来，其LD距离至少为15，与训练集的序列LD至少为12，表明了极大的不相似性。之后发现尽管序列相似性不同，CVAE生成的和体外筛选的HFNAPs具有相似的预测二级结构。

图5 CVAE生成的序列与柔红霉素的实验

总结

虽然体外筛选是探索大范围序列空间的有效方法，但选择诱导的序列收敛和有限的测序深度将适应度空间限制在包含经过多轮选择并成功合成的序列的少数区域。虽然额外的体外筛选轮次原则上可以访问更大范围的序列空间，但这种解决方案的时间和资源成本高。与进行几轮体外筛选不同，即使数据有限，机器学习模型也可以被训练来对序列空间做出准确预测。然后，这些模型可以扩展已知活性序列的序列多样性，并能够更全面地描述HFNAP的适应度。该工作提出的CVAE生成模型可用于扩展序列多样性，增加识别具有不同属性的候选序列的可能性，生成未被实验筛选的活性聚合物序列。

参考资料

Chen, J.C., Chen, J.P., Shen, M.W. et al. Generating experimentally unrelated target molecule-binding highly functionalized nucleic-acid polymers using machine learning. Nat Commun 13, 4541 (2022).

https://doi.org/10.1038/s41467-022-31955-4