Nat. Protoc. | 麻省理工-哈佛博德研究所开发针对小分子的可解释深度学习平台

DRUGAI

今天为大家介绍的是来自美国麻省理工-哈佛博德研究所，加州大学圣巴巴拉分校团队合作的一篇论文。深度学习方法越来越多地应用于新化合物的发现。这些预测方法可以准确地对化合物进行建模并提高真实发现率，但它们通常具有黑盒特性，无法产生具体的化学见解。可解释深度学习旨在通过为模型预测提供可泛化的、人类可理解的推理来"打开"黑盒。这些解释可以通过识别具有所需活性的化合物结构类别来增强分子发现，而不是仅识别单个化合物。此外，这些解释可以指导假设生成并使大型化学空间的搜索更加高效。作者在此介绍一个可解释的深度学习平台，它能够挖掘庞大的化学空间并识别预测活性背后的化学亚结构。该平台依赖于Chemprop，这是一个实现图神经网络作为深度学习模型架构的软件包。与类似方法相比，图神经网络已被证明是分子性质预测的最新技术。针对发现抗生素的结构类别，本协议（protocol）提供了实验数据生成、模型实施以及模型可解释性和评估的指南。本协议不需要编程能力或专门的硬件，从数据生成到模型预测的测试，可以在短至1-2周内完成。该平台可以广泛应用于发现其他小分子的结构类别，包括抗癌、抗病毒和衰老清除药物，以及发现具有所需物理和化学性质的无机分子的结构类别。因篇幅限制，仅介绍论文中部分内容。

许多科学进展都得益于AI和ML模型执行大规模计算的能力，这些计算可以利用数据中常常难以察觉的模式，从而能够对组合爆炸性的大空间进行高效搜索。这些大规模搜索空间是特定领域的，但可以包括，例如，围棋可能的走法、蛋白质可能的几何构象或可能的化合物结构。搜索生物活性化合物的化学空间是一个特别重要的应用：药物发现持续需要新的生物活性化合物，据估计存在约10^60个可能的、主要是有机的类药物化合物。考虑到这个庞大的化学空间（在包含额外的无机化合物后更大），应用AI和ML模型对其进行高效搜索一直是一个长期目标。最近的工作已经应用深度学习(DL)方法，包括神经网络和VAE，在虚拟库中更高效地发现生物活性化合物并从头生成化合物。

然而，DL方法的一个主要局限性是它们通常具有黑盒特性，或无法提供模型预测背后的推理。可解释DL是一个新兴领域，旨在通过提供这种推理来打开黑盒。通过使模型能够直接预测结构类别，可解释DL能够产生具体的化学见解，高效缩小化学空间并引导研究人员找到有效的化学骨架。

在本协议中，作者介绍了一个用于分子发现的可解释DL平台。尽管作者重点关注将该平台应用于抗生素发现，但该平台是通用的，可用于发现具有其他生物或化学性质的分子。

使用协议指导用户发现具有抗菌活性化合物

图 1

本协议包括计算和实验两个组成部分，将实验数据生成与Chemprop结合，指导用户完成发现具有抗菌活性化合物的过程（图1）。该协议大致包括以下四个阶段。

第1阶段，数据生成（步骤1-20）。数据质量对ML模型至关重要，因为非标准化的数据集使得难以一致地推断目标性质，而标记错误的输入会影响ML模型的泛化能力。因此，本协议首先概述了执行标准化筛选化合物库以检测抗菌活性所需的实验程序。为了关注具有选择性抗菌活性的化合物，作者还概述了在人类细胞毒性对照筛选中生成数据的实验程序。这个阶段的结果是一个包含化合物结构及其相关活性值的表格。化合物结构可以用简化分子线性输入系统（SMILES）格式的文本字符串表示，相关的活性值可以表示为离散值（例如，用于二元分类模型的二元'0'或'1'值）或连续值（例如，用于回归模型的任何正数），具体取决于第2阶段执行的预测类型。通常，也可以使用不同来源和类型的数据（图2）。

图 2

第2阶段，模型训练和基准测试（步骤21-35）。本协议使用第1阶段生成的数据集训练Chemprop模型。必须指定模型的几个参数，包括模型类型（例如，分类或回归）、要训练的模型数量、模型超参数和额外的可选输入（例如，如何分割数据进行验证，使用哪些额外特征和损失函数进行训练，以及使用哪些指标进行基准测试）。根据数据集大小和计算能力，训练时间可能会有所不同。对于本协议描述的数据集和典型计算机，模型训练通常可以在1-2天内完成。然后应对训练好的模型进行基准测试，这个过程包括将模型应用于保留的训练数据子集，将模型预测与已知的真实值进行比较，并使用合适的指标（如精确率-召回率曲线下面积(AUPRC)或操作特征曲线下面积(AUROC)）对结果进行定量评估。

第3阶段，理由（rationale）分析和过滤（步骤36-44）。在用户对模型性能满意后，可以使用第2阶段描述的完整训练数据集训练Chemprop模型，并将其应用于其他化学空间。可以将这些化学空间中预测为活性的化合物（作者称为"hit"，命中）列入候选清单进行进一步验证。为了使这些预测可解释，作者描述了Chemprop的'interpret'函数，该函数执行MCTS来识别命中的理由。由于到达每个理由需要的可能MCTS步骤数量很大，MCTS可能对某些命中不会收敛。然而，当成功生成理由时，研究频繁出现的理由可以提供化学亚结构洞察，揭示Chemprop模型认为指示活性的特征。此外，这些理由为在第4阶段验证的化合物降采样提供了一种有效方法。在此过程的任何阶段，都可以通过计算方法过滤掉具有不良性质的化合物，例如，不利的物理化学参数或有问题的化学亚结构。

第4阶段，预测测试（步骤45和46）。应使用与第1阶段相同的实验协议验证命中。但是，如果在第3阶段生成了理由或应用了过滤步骤，则可以对这些命中进行降采样。这样可以筛选和测试更少但通常在结构上更有趣的化合物，从而能够更有效地探索大型化学空间。同样重要的是要指出，在许多情况下，第4阶段中经验证具有活性的命中需要额外的研究来支持其进一步开发的前景。对于抗生素和其他治疗领域，这些额外的研究可能包括机制表征以及进一步的体外和体内测试。

为指导读者，作者在图3中说明了建模过程以及每个阶段的预期输入和输出，并在图4中展示了协议的示例输出。用户可以通过各种方式调整本协议，包括将协议应用于发现具有其他性质的分子，放弃实验生成训练数据而转而基于已发表文献组装训练数据，或部署训练好的Chemprop模型而不使其可解释或不使用任何额外的过滤步骤。在"程序"部分，作者提供了在调整本协议时需要考虑的实用指南。

图 3

图 4

方法的应用

模型可解释性在实践中也很有用，因为它允许对大型化学空间进行高效的降采样。这种能力很有帮助，因为许多可用的化合物库是冗余的：化合物经常采样相同或相似的骨架，而这些库中的化学多样性是有限的。通过只关注感兴趣的关键骨架并测试代表这些骨架的少量独特化合物，研究人员可以在保持低成本的同时对这种化学多样性进行采样。

Chemprop的显著应用包括halicin的发现和小分子衰老清除剂及抗病毒药物组合的发现。Chemprop还被用于预测吸收、分布、代谢、排泄和毒性性质，化学光谱和化学反应性质。按照本协议使用的方式，Chemprop及其可解释性特征已经实现了一类结构性抗生素的发现。本协议建立在参考文献7的基础上，但使用更少的数据文件和示例来说明具体概念。作者预计该协议可以很容易地适应不同的应用，例如生物活性化合物的发现（包括其他抗感染、抗癌和抗衰老化合物）以及具有所需材料性质的无机化合物的发现。

对于生物学应用，先前的研究主要集中于使用表型筛选数据来训练Chemprop和类似模型。与基于靶标特异性活性的建模相比，基于表型活性的建模允许整合更多活性化学类型的化学结构信息。尽管如此，开发训练用于预测靶标特异性活性的模型是可能的，但考虑到可能更有限的活性化学类型空间，需要进一步的工作来确定这种方法的预测能力。

使用协议进行实验设计需要注意的问题

适合的活性类型。尽管本协议可用于预测从化学结构中可推断的任何类型的活性，但作者建议关注可以使用高通量筛选测量的明确定义的活性。这确保了可以生成标准化和控制良好的训练数据集，并且可以实验性测试多个（>100个）命中。有各种类型的高通量筛选，为了规模和成本效益，作者通常建议使用提供数值标量量作为活性测量的简单筛选。这类筛选的例子包括：测量不同细菌种类光密度的抗菌生长抑制筛选，测量不同细胞类型细胞活力的细胞毒性筛选，测量不同病毒种类病毒滴度的病毒复制筛选，测量不同蛋白质催化活性的蛋白质抑制筛选，以及测量不同化合物溶液浓度的水溶性筛选。原则上可以使用基于高内涵成像的筛选，但由于Chemprop不处理二维数据，成像数据应映射为标量量。

筛选文库的选择。初始筛选文库应至少包含约1,000个化合物。根据作者的经验，通常需要这个数量级的化合物来确保有足够的活性和非活性化合物用于学习。虽然模型可以在仅有45个活性化合物的情况下进行训练，但拥有更多（至少数百个）非活性化合物对模型从负面例子中充分学习很重要。对于筛选类药物化合物，包括MicroSource Discovery Systems、MedChemExpress、ChemDiv、Cayman Chemical、Selleck Chemicals等在内的商业供应商销售现成的文库，这些文库可以根据应用进行定制（例如，包含已知具有激酶抑制活性的化合物）。用于筛选无机化合物的可用文库较少，但一些数据库包含可能适合用作训练数据的大型数据集（表1）（由于表1占用3面，本文不进行展示，感兴趣的读者请自行查阅）。在适用的情况下，已知具有活性的化合物应作为对照包含在实验筛选中，这些化合物也可用于增加训练数据。

实验筛选的设计。由于最佳结果需要大量（>1,000个）化合物的训练数据，实验筛选应设计为确保高重现性和一致性。评估重现性和一致性的一种方法是使用相同的化合物对同一筛选进行实验重复，并计算每次重复值之间的皮尔逊相关系数(R)。作者此前对39,312个化合物进行了针对金黄色葡萄球菌的抗菌活性筛选，发现R=0.8。通常，R>0.7的筛选可以被视为具有重现性和一致性。评估筛选结果和效应大小的其他方法也是可能的，例如使用Z因子。提高重现性和一致性的实验考虑因素包括所有试剂的标准化、使用机器人或液体处理系统以及化合物文库的适当维护。

Chemprop模型的设计。正确定义模型（从模型类型到Chemprop的额外可选输入）取决于训练数据的质量和预测的活性类型。如果训练数据充足但不大（例如，筛选了数千个化合物，且有数十到数百个活性化合物），作者建议使用分类模型，这些模型对数据进行粗粒度处理，在信息有限时预期会比回归模型表现更好。作者建议使用少量（<20个）模型进行集成，以平均消除模型训练中随机性带来的预测分数噪声。作者还通常建议执行贝叶斯超参数优化这一可选步骤，作为确定模型超参数初始集合的原则性方法。对于初始测试，由于类似的设置已在先前工作中应用，其他Chemprop参数最好设置为默认值。

适合挖掘的库。本协议可以广泛应用于不同的化学空间，选择在计算机中挖掘哪些库应该根据化学多样性和实验测试预测命中的可行性来决定。对于类药物分子的发现，公共数据库（包括PubChem、ChEMBL、ChEBI、DrugBank、EPA CompTox和ZINC22）以及商业数据库提供了可能的起点（表1）。对于无机化合物的发现，包括无机晶体结构数据库和较新的文本挖掘数据集等数据库可能相关。此外，包含有机化合物的数据库（包括PubChem、ZINC22、CAS和ChemSpider）也包含许多无机化合物（表1）。对于类药物和无机化合物，化学片段库也提供了大量可供挖掘的化学结构（表1）。探索大型虚拟库（如ZINC22）提供了挖掘高度化学多样性空间的吸引人机会，但一个限制是这些库中的大多数化合物都不能商业获得。例如，MolPort和MedChemExpress的商业可获得的、主要是有机化合物的数据库包含约800万到2000万个化合物，这些需要从多个供应商那里组合。可能可以合成商业上无法获得的化合物，一些商业数据库（如Enamine REAL空间）包含预期可以合成的化合物。然而，准确预测哪些化合物可以被合成仍然是一个挑战，根据作者的经验，大多数化学上可能的类药物化合物和片段（如在生成的数据库中发现的那些）都具有较低的合成可及性。

对照筛选和过滤的需求。本协议包括针对人类细胞的细胞毒性对照筛选，并训练预测细胞毒性的Chemprop模型，因为作者要求发现的抗菌化合物具有选择性。在适用的情况下，作者建议执行适当的对照筛选，以了解化合物对主要目标活性的选择性。这些对照筛选应在实验验证活性化合物或模型预测的命中时进行，也可以用于训练数据的生成。这类对照筛选的例子可能包括测量不同细胞类型和物种的细胞毒性的筛选、测量非靶向结合的筛选和测量化合物颜色的筛选。当对照筛选数据集足够大以训练额外的Chemprop模型来预测非特异性或不期望的活性时（根据上述实验设计考虑），这样做有助于过滤模型预测的命中。

编译|黄海涛

审稿|王梓旭

参考资料

Wong, F., Omori, S., Li, A., Krishnan, A., Lach, R. S., Rufo, J., ... & Collins, J. J. (2024). An explainable deep learning platform for molecular discovery. Nature Protocols, 1-37.