Py学习  »  机器学习算法

JMC综述 | 机器学习生成模型用于药物分子的从头设计

DrugAI • 2 年前 • 303 次点击  
新药发现是一个高成本、高风险、周期长的项目,通常一个新药的成功上市需花费10-15年以及百亿美元的研发成本。随着人工智能技术的飞速发展,将这些技术拓展至药物设计中成为了药物发现的新思路与途径,为缩短药物研发周期降低研发成本带来了新的希望。中科院上海药物所郑明月课题组在美国化学会出版的药物化学核心期刊Journal of MedicinalChemistry上发表综述文章(J. Med. Chem. 2021, 64, 19, 14011–14027.)【1】,讨论了生成模型在药物设计中的应用。
作者首先简单介绍了目前主流生成模型所使用的基本框架以及数学原理,其中包括循环神经网络(Recurrent NeuralNetwork, RNN),自编码模型(Auto-Encoder, AE)、对抗生成神经网络(GenerativeAdversarial Network, GAN)、Transformer模型以及一些通过强化学习训练的智能体。随后作者讨论了目前生成模型在药物设计过程中的主要用途,包括产生新分子并扩充现有化合物库和定向分子设计等。
生成模型中,分子表征的方式主要为SMILES式(如ChemicalVAEGrammarVAE等)或分子图(如JT-VAEDeLinker等)。尽管分子的表述方式不同,但大部分生成模型均是概率模型,即通过学习训练集中数据的概率分布后可以生成符合该概率分布的新样本,从而实现分子生成的目标。分子生成模型的重要应用场景之一是实现分子数据库扩增。有研究表明,即使只利用一个数据集中0.1%的样本对模型进行训练,模型依然能重新复现整个数据集中68.9%的分子,这说明通过分子生成模型实现分子数据库扩增是高效的。目前,已有不少经过生成模型扩增的数据库,如GDBZINClickRealDrugSpaceX等,同时这些数据库也成功在虚拟筛选中应用,发现了活性分子。另外,通过让模型学习分子结构和某些理化性质的联合概率分布,即可实现定向分子生成(如CVAELigGPT等),从而使得在探索庞大化学空间的过程中更加高效。除此方法之外,在生成模型的隐空间中使用如贝叶斯优化算法等方法也可实现定向分子生成的目标。最后,作者也讨论了目前对于生成模型性能测试的标准数据集如MOSES和一些评价指标,主要包括分子有效性(validity)、特异性(uniqueness)、新颖性(novelty)以及片段骨架相似性等等。
虽然生成模型在药物设计中取得了一些成功,但仍有很多不可回避的问题。例如大部分定向分子生成模型在进行测试时,其定向生成的目标仅是一些简单的分子性质,如cLog P、氢键供体数或受体数等等,以针对于靶标蛋白活性为优化目标的测试报道很少,这主要源于已知的活性分子的数据有限,模型很难从极少的数据中学到分子结构与活性的联合概率分布,而事实上,设计生成具有生物活性的分子才是药物化学家所真正关心的。另外,目前常用的评价指标也不能非常客观评价模型表现。以新颖性为例,在计算这一指标时,仅仅是考虑模型生成的分子有多少不包涵在训练数据之中,那么即使简单的变换官能团位置也可被认为是“新颖”分子,这与药物化学家所认为的“新颖”分子完全不同。最重要的是,目前报道生成模型的文章中常常没有实验验证,而仅是展示一些测试指标,而这些测试指标并不能反映这些模型在实际应用中的效果如何。例如通过生成模型扩展的分子库中很多分子都是未知化合物,即使在虚拟筛选中命中也无法直接购买。

尽管如此,也有一些生成模型设计的分子经过了实验的验证。最有名气的当属Insilicon公司利用开发的分子生成模型GENTRL仅用46天即成功发现高活性高选择性DDR1抑制剂。上海药物所郑明月课题组也报道了利用分子生成模型进行基于骨架的药物设计。在这项工作中,作者首先收集了大量活性分子,并将其切割为骨架-片段对并用于训练生成模型。完成训练之后以待优化的骨架作为输入让模型进行修饰,最终成功发现高活性高选择性DDR1抑制剂(图1)。该工作也受到广州生物岛实验室陈红明老师的关注,并在JMC上发表评述文章(J. Med. Chem. 2022, 65, 1, 100–102)【2】,称赞这项工作是生成模型在分子设计优化中的示范性工作,推动了人工智能驱动药物研发的应用。

1. 基于骨架的药物设计流程。
小编认为,生成模型毫无疑问会在今后的药物设计中扮演越来越重要的角色,起到缩短药物研发周期降低研究成本的效果。但是也值得注意的是,目前已报道经过实验验证的生成模型设计的分子,其针对靶点集中于激酶类靶点,这与前人积累的大量关于激酶靶点的活性分子数据是分不开的,对于数据匮乏的全新靶点的药物设计,机器学习生成模型与传统的从头设计方法孰优孰劣仍未可知。如何针对药物研发项目的需求来选择合适的方法,仍然是研究人员需要认真考虑的问题。
 
【参考文献】
1. Xiaochu Tong, Xiaohong Liu, XiaoqinTan, Xutong Li, Jiaxin Jiang, Zhaoping Xiong, Tingyang Xu, Hualiang Jiang, Nan Qiao, and Mingyue Zheng. Generative Models for De Novo Drug Design. J. Med. Chem. 2021, 64, 19, 14011–14027.
2. Hongming Chen. Can Generative-Model-Based Drug Design Become a New Normal in Drug Discovery? J. Med. Chem. 2022, 65, 100−102

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/129740
 
303 次点击