2022年11月28日，Journal of Chemical Information and Modeling期刊编辑部发表了一篇评论性论文The (Re)-Evolution of Quantitative Structure–Activity Relationship (QSAR) Studies Propelled by the Surge of Machine Learning Methods。

论文中，作者回顾了JCIM期刊上发表的QSAR的机器学习方法，讨论了QSAR研究的进展，为研究者精选了一系列经典研究论文，希望能够吸引研究者为QSAR研究再添新进展，进一步推动QSAR与机器学习方法的关联研究。

1962年，在Hansch及其同事所做的关于定量结构-活性关系(quantitative structure−activity relationship, QSAR)的开创性工作中，预测Hammett函数和分配系数将在建立构效关系中变得非常重要。在过去的60年中，QSAR已经从小数据集的类似化合物的粗糙回归/分类分析发展到基于精巧的机器学习技术，机器学习可以提取嵌入在复杂结构的分子组成的大数据集中的化学、物理和生物功能信息特征。通过结构-活性映射关系的转换，QSAR成为药物发现的重要组成部分。这使得研究者可以高效、低成本地预测分子活性和性质，以及基于结构的虚拟筛选数百万候选药物组成的化学库得到有潜力的hits。机器学习也应用于各种其他领域，包括化合物的逆向合成路线预测，蛋白质和化合物设计，构象生成，力场优化和蛋白质结构预测。经典的QSAR方法依赖于数学模型来建立各种描述符与生物活性之间的关系。这些描述符包括分子指纹、图或其他数学表示等。生物活性包括吸收、分布、代谢、排泄、毒性(ADMET)，结合自由能，蛋白质-配体复合物的动力学速率等。建立这样的关系也常常需要基于具有相似拓扑结构和功能的分子组成的数据集。由于可以使用广泛的数学模型，QSAR很早就结合了机器学习算法，通过多任务模型建模非线性结构-功能关系来处理大且高维数据集。

JCIM是ACS期刊中发表人工智能和机器学习在化学中应用内容的先驱。1990年，研究者通过归纳和演绎的机器学习算法构建和完善了合成有机化学数据库，这似乎是JCIM发表的第一篇与机器学习相关的论文，当时期刊名称为Journal of Chemical Information and Computer Sciences。1992年，研究者在期刊上发表了两篇使用神经网络的论文，一篇研究神经网络的偏导数用于结构-活性关系分析，另一篇使用神经网络预测磷核磁共振位移(phosphorus NMR shifts)。1994年，有更多的论文被发表；其中一个比较了不同QSAR性质预测方法(包括一个用于构建回归树的属性-值机器学习模型（attribute-value machine learning model）)的性能，另一个使用神经网络从离子迁移谱数据中提取定量信息。随着研究向前发展，机器学习和QSAR之间的关联成为许多JCIM出版论文的组成部分。从1995年开始，近十年来，主要的机器学习应用包括人工神经网络（Artificial Neural Networks, ANN），单独或作为基准方法与其他算法进行比较，通常应用于生物活性和毒性预测。人工神经网络在这段时间很受欢迎。k近邻算法（k-NN）于2000年引入，支持向量机（SVM）于2003年引入。这些方法用于处理化学信息中的回归和分类任务。

用于药物发现中的一般QSAR应用的两个最成功的机器学习算法是随机森林(RF)和深度神经网络（deep neural networks, DNN）。Svetnik及其同事于2003年发表在Journal of Chemical Information and Computer Sciences上的研究是在QSAR中使用RF的第一个例子之一，其后来经常被用作与其他QSAR方法进行比较的金标准。然而，在2013年的Kaggle挑战赛(the Kaggle Merck Molecular Activity Challenge 2013, https://www.kaggle.com/c/MerckActivity)和2015年的Tox21挑战赛(the Tox21 Data Challenge 2015, https://ncats.nih.gov/news/releases/2015/tox21-challenge-2014-winners）上，DNN已成为药物发现中QSAR应用的首选方法。

本期期刊由2017年以后发表在JCIM上的13篇精选论文组成。它强调了激增的机器学习方法推动QSAR重新发展，并为那些想了解现代QSAR方法和应用的研究者提供了参考。它涵盖了不同的机器学习方法（例如，随机森林、深度学习等），并致力于解决药物发现中的重大问题，例如具有不同活性却非常相似的分子中的活性悬崖问题，小分子不同构象的表示，或者如何在不泄露训练集数据的情况下共享模型，这可以促进工业部门的更大合作。

Sheridan及其同事的两篇论文Prediction Accuracy of Production ADMET Models as a Function of Version: Activity Cliffs Rule 和Stability of Prediction in Production ADMET Models as a Function of Version: Why and When Predictions Change调查了跨越10年的多个版本的随机森林模型的性能。这些模型在预测ADMET性质时显示出意外的行为。在其中一个论文中，模型的预测性能对于不同的版本有很大的变化。这可以用活性悬崖来解释：测试集中的分子活性与训练集中的类似分子不同，导致预测不太准确。第二篇论文探讨了当应用不同模型版本时，某些分子的ADMET预测发生巨大变化的原因。有趣的是，对于大多数预测发生变化的分子，预测性能在后来的模型版本中有所改进。作者研究了指示哪些分子将显示大的预测变化的指标，导致观察到具有大变化的分子与模型中的预测不确定性相关。然而，事实并非如此，因此还有进一步调查的空间。本质上，训练集和测试集之间的相似性与机器学习模型的可预测性直接相关。训练集必须覆盖足够大的化学空间，以呈现可靠的机器学习模型。

两篇研究文章Roughness of Molecular Property Landscapes and Its Impact on Modellability和Exploring Deep Learning of Quantum Chemical Properties for Absorption, Distribution, Metabolism, and Excretion Predictions还讨论了预测活性悬崖的障碍，以及如何提高某些端点的ADMET属性的准确性。Coley及其同事致力于识别与分子数据集属性相关的活性悬崖现象。作者为分子数据集提出了一种新的结构-性质粗糙度(the structure–property landscape roughness)度量，即粗糙度指数。这种测量方法可以应用于任何性质的回归任务，也可以应用于二元分类，从小有机分子的结构-性质的定量测量扩展到更复杂的化学系统，如晶体材料。Lim等人为预测量子力学描述符（quantum mechanics descriptors）生成了新的深度学习模型，该模型与图卷积神经网络模型相结合，对选定的ADME性质性能有所改进。将量子力学描述符集成到QSAR的机器学习方法中是一条有待探索的道路，还需进一步的开发。

QSAR中包含三维描述符有助于分子空间结构的信息，提高了蛋白质-配体识别模型的准确性。然而，要在QSAR模型中编码具有生物活性的构象并不简单。Znakov等人通过多实例学习(multi-instance learning)方法解决了这一问题，这使得通过自动选择最相关的构象来表示数据集中的每个分子成为可能。有研究者对单实例和多实例机器学习算法进行了比较，用于预测从ChEMBL23数据库中提取的175个数据集的化合物的生物活性。在大多数情况下，多实例QSAR模型优于单实例QSAR，同时减轻了在整个模型构建过程中从所有可能构象中选择具有生物活性的构象的困难。

分子活性的预测是QSAR模型的核心，机器学习算法（特别是深度神经网络）的集成极大地促进了QSAR模型。Wallqvist及其同事检查了机器学习方法（深度神经网络、随机森林和可变最近邻(variable nearest neighbor)）的性能。用这三类方法预测数据库Leadscope Toxicity Database和Merck分子活性挑战(Merck Molecular Activity Challenge)中21个数据集的分子活性。尽管不同的算法具有与训练集中的分子结构相关的分子的准确预测，但对于训练集中具有越来越不同的分子时，性能越差。这项工作认为，预测分子性质的首要误差来源不是机器学习算法，而是测试和训练集中分子之间的相似度。

不同的贡献也涉及使用大型数据集。Novel Consensus Architecture To Improve Performance of Large-Scale Multitask Deep Learning QSAR Models提出的方法DLCA是一种新的深度学习架构，它将一致性建模(consensus modeling)纳入神经网络中。其被用于回归任务(251 998个具有IC50值的化合物)和分类任务(7857个化合物,有毒或者无毒的二分类任务)中。与其他一致性方法相比，DLCA在这两个数据集上表现更好。在另一篇论文A Novel Automated Framework for QSAR Modeling of Highly Imbalanced Leishmania High-Throughput Screening Data中，研究者创建了一个自动化工作流，以构建基于分类的模型，用于不同和不平衡的数据集。该工作使用的数据集包括196 173个化合物，其中1063个化合物显示抗利什曼原虫活性(antileishmanial activity)。作者测试了6种不同的方法来构建共识模型，基于决策树的模型具有最佳性能。

另一组论文报告了基于分类的QSAR模型的构建。QSAR-Co: An Open Source Software for Developing Robust Multitasking or Multitarget Classification-Based QSAR Models中开源软件QSAR-Co的开发旨在建立模型，以处理不同实验或理论条件下的响应数据。可以使用两种方法进行分类，即两类线性判别分析或随机森林。Regression Modelability Index: A New Index for Prediction of the Modelability of Data Sets in the Development of QSAR Regression Models中新算法RINH使用一种竞争性指数(rivality index)来建立模型，可以使研究者对预测值进行可靠性衡量。该方法与包括支持向量机和随机森林在内的12种不同算法进行了比较，与其他机器学习算法获得的分类模型一样准确。

Polishchuk的综述对QSAR模型的不同解释方法进行了批判性评估。讨论了不同方法的模型相关方法，如多元线性回归、偏最小二乘回归、决策树以及被视为黑箱的方法，如神经网络。还提出了模型无关的方法，研究模型输出如何随输入变化而变化，如敏感性分析、变量重要性和偏导数分析。有趣的是，作者声称任何当代的QSAR模型都可以被认为是可解释的，即使是那些被认为是黑匣子的模型。综述最后提供了一系列标准，以避免对QSAR模型的误解，随着QSAR模型围绕机器学习方法的发展，QSAR模型仍然具有高度相关性。

在过去的几十年中，QSAR成为主要制药公司和初创公司药物研发过程中不可或缺的工具。QSAR和机器学习方法的融合将药物发现的概念从基于规则驱动转变为数据驱动，促进了新化合物的发现，但也为该行业带来了新的挑战。 Martin和Zhu认为，通过共享实验分析数据和训练模型，协作可以获得比独自研究实现更好的预测性能。为了证明自己的观点，作者将用于QSAR的随机森林模型共享，并通过部分多任务模型共享探索了公司之间合作的好处。作者得出的结论是，在不共享化合物、靶标或活性数据的情况下，共享分析模型可以扩大模型的适用性，超过每个公司单独可用的模型。Pande及其同事认为，尽管药物发现数据集的深度学习表现出色，但制药和生物技术行业仍在努力从原型研究过渡到生产。这是针对两个因素的，即实现深度架构的挑战和相对于其他机器学习方法对多任务深度网络的故障模式的理解不足。为了促进在商业药物发现中采用深度神经网络，在药物发现的DeepChem库中实现了多任务深度网络，并对Kaggle、Factors、Kinase和UV等数据集进行了统计稳健性分析。

近年来，QSAR的高级数学工具得到了发展。衍生自微分几何、代数拓扑、代数图和组合图的技术已被应用多个化学领域，并称为基准方法。这些化学领域包括对接(docking)、虚拟打分(virtual scoring)和毒性分析(toxicity analysis)等。随着QSAR围绕机器学习的重新发展，它将仍然是药物发现过程的核心。机器学习方法依赖于实验数据，由于不同实验室之间的实验和条件没有标准化，实验数据通常是稀疏的、不平衡的和有噪声的。未来应该建立大而一致的实验数据集和新的机器学习算法。然而，很明显，化学领域机器学习研究的大幅增长才刚刚开始，并且已经扩大了潜在QSAR应用的范围，远远超出了Hansch及其同事最初的预期。

值得注意的是，包括深度学习在内的机器学习最近的发展已经远远超出了QSAR。例如，基于高级自然语言处理（natural language processing, NLP）的自编码器提供来自未标记数据的序列嵌入，用于准确的分子性质预测。此外，transformer利用自监督学习（self-supervised learning, SSL）策略学习数亿分子和生物分子序列信息，并实现无需结构的分子活性预测。在任务方面，机器学习和深度学习不仅涉及回归和分类，还涉及聚类和降维，这在组学数据分析中有着广泛的应用。大量的机器学习和深度学习技术已经被开发并应用于化学科学，包括生成对抗网络（GAN）、U-Net、长短时记忆神经网络（LSTM）、图神经网络（GNN）、强化学习（RL）、玻尔兹曼机(Boltzmann machine)等。尽管迁移学习仍然是一个流行的问题，但主动学习已被应用于化学信息。各种机器学习和深度学习策略被开发出来，以在不利条件下提取化学特征，不利条件包括但不限于：多源数据、不平衡数据、噪声数据和小数据等条件。化学信息学和建模领域已经超越了化学领域，研究者来自计算机科学、数学、化学、生物和/或医学工程行业等等。

图1 “quantitative structure activity relationship”、“machine learning”和“deep learning被JCIM上出版的论文提及次数的分年份统计图

正如本文和其他文章所概述的，JCIM在推进将机器学习应用于化学中有着悠久的传统。在最近发表的相关论文激增之前，JCIM一直在本领域发表论文（图1）。鉴于对QSAR及其应用的长期承诺，JCIM鼓励提交关于各种机器学习相关主题的手稿，包括有助于重新推动QSAR的新进展。

参考文献

Soares T A, Nunes-Alves A, Mazzolari A, et al. The (Re)-Evolution of Quantitative Structure–Activity Relationship (QSAR) Studies Propelled by the Surge of Machine Learning Methods[J]. Journal of Chemical Information and Modeling, 2022, 62(22): 5317-5320.

--------- End ---------

感兴趣的读者，可以添加小邦微信（zhiyaobang2020）加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或

姓名-学校-职务/研究方向。