社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

BIB重磅综述 | 深度学习下的逆合成设计

DrugAI • 3 年前 • 581 次点击  

作者 | 董靖鑫

审稿 | 程玉

今天给大家介绍的是近期发表在Briefings in Bioinformatics上有关逆合成的一篇综述。近些年,人工智能驱动的药物合成给社会带来极大的便利。逆合成设计在合成化学中占有重要的地位,因而受到了研究人员广泛的关注。本文详细介绍了深度学习背景下逆合成设计的发展历程,包括数据集、模型及常用工具,并且提出了目前深度逆合成设计面临的挑战。



1

背景

近年来,计算机辅助合成设计(Computer-Assisted Synthetic Planning, CASP)的技术发展迅速,尤其逆合成设计为化学家们在药物合成方面带来了极大的便利。逆合成设计旨在为某个产物分子找到一系列可商购获得的反应物。例如,branebrutinib (BMS-986195)的合成路线如图1所示。


图1 branebrutinib(BMS-986195)的逆合成路线。从目标分子(绿框)开始,以市售的反应物(黄框)结束。黄色和灰色的圆圈分别突出了当前和前一步的反应位点。“$”表示分子的市场价格,单位是克。


逆合成分析方法可以有效解决复杂分子的合成问题,促进有机合成科学的发展。此外,随着系统生物学实验技术的进步和实验数据的不断积累,大量的生物医学数据的涌现为数据驱动的生物合成设计提供了强大的支持。深度学习属于机器学习的一部分,可以直接从数据中理解和学习其内在规律和复杂表示。因此,应用深度学习的新尝试逐渐进入人们的视野,为化学合成研究开辟了新的范式。


本文总结了逆合成设计常用的数据集、方法、自动化工具,并讨论了当前逆合成研究的局限性,指出未来潜在的发展方向。


图2 逆合成设计的过程。(A)通过添加反应物和产物的原子映射来处理数据集中的反应;(B)从带有原子映射的反应中提取转化规则,以指导计算机进行逆合成;(C)根据评价路线的指标反复预测前体并进行排序,直到达到结束条件;(D)模型产生的路线有两种情况:成功和失败。


2

逆合成设计的准备

化学反应数据集

无论是传统的统计方法还是深度学习算法,数据集是模型训练的关键。逆合成设计用到的数据集来源于知名机构和组织,如Elsevier、Chemical Abstracts Service,不同数据集在数据范围、数据格式、数据质量等方面存在差异。此外,研究人员可以设计自己的数据集使用。常用的化学反应数据集参见表1。


表1 化学反应数据集


化学反应的数据表示

化学信息学应用的效率与化学结构和化学反应的表示密切相关。化学反应是化学合成核心的研究对象,化学反应建模的好坏将直接影响后续任务的完成。


提到化学反应,人们通常会想到用箭头从反应物指向产物这种图的表示方式。CGR是一种能够在一张图中清晰地反映原子和键的性质变化的表示方法。除此之外,研究人员还开发了许多机器可读的线性表示法来表示化学反应。例如,一个简单的酯化反应的不同表征如图3所示。


图3 一个简单的酯化反应的不同表示形式。在图形化的反应表示中,红色、黑色和灰色的球分别代表氧、碳和氢原子。球上的黄色数字表示映射的原子数。


原子映射

每个化学反应通常由一组原子映射表示,其中每个原子映射是具有一组不连续边的图对反应物和产物中的所有原子构造一一对应关系(如图3所示)。此外,原子映射通常用于分离反应中的反应物和试剂。唯一独立于原子映射的反应表示是没有区分反应物和试剂的反应。准确的原子映射可以促进下游任务,如通过计算反应中的保守碳原子数从而确定转化途径中的效率,也可以用于追踪原子来理解反应机理。先前的研究主要分为两类:传统方法和基于数据驱动的方法。表2中总结了不同类型的原子映射工具。


评价指标

评估模型的表现离不开评价指标的选择。近年来绝大部分逆合成深度学习模型仅使用单一标准Top-k,即指在前k条推荐建议中出现数据集中记录的标准前体的百分比。但近期研究人员们表示这种指标用来评估模型表现并不恰当。我们从七个方面(准确率、覆盖率、新颖性、多样性、整体性、效率、可信度)介绍了除Top-k外其它单步逆合成模型的新指标。此外,从三个方面(准确率、效率、复杂度)介绍了多步逆合成设计的衡量标准。


3

用于逆合成设计的模型

单步逆合成设计

近年来,有大量的工作致力于设计逆合成的单步策略,其中包含基于模板和不依赖模板方法。基于模板的方法是将目标分子与模板集进行比较从而挑选出适合的反应过程。模板是指化学反应过程中发生改变的子结构模式。而不依赖模板的方法(可分为基于图和基于序列的方法),则是通过挖掘数据中有关反应机制的隐藏关系,而不直接进行匹配。


图4 基于模板和不依赖模板的逆合成方法的基本流程。(A)基于模板的方法-根据模板库中的模板将产物转换为反应物。(B)基于序列的方法-模型将产物分子的SMILES字符串翻译成反应物的SMILES字符串。(C)基于图的方法-产物的键被分合成子,补全合成子形成反应物。


多步逆合成设计

化学合成是一个复杂的过程,其中任何不成功的反应都可能会破坏到整个合成路线。虽然单步合成方法已经有了很大的改进,但为了完善完整路线的设计,满足目标分子高复杂性的实际要求,有必要提高多步逆合成模型的性能。多步逆合成包括一个预测直接前体的单步逆合成模块以及一个递归应用单步模块的搜索规划模块。本章主要介绍了利用蒙特卡洛树搜索(MCTS)的方法及其他更新树搜索的方法。


4

用于逆合成设计的进阶工具

在为复杂产物设计合成路线时,随着路线长度的增加,克服搜索空间的指数级增长是必不可少的。即使对有经验的化学家来说,也是一个巨大的挑战。与人工设计相比,计算机具有强大的计算能力,而且工作时不受干扰。将费力的计算委托给计算机以尽可能地实现自动化,可以极大促进化学家们的工作。随着计算能力和人工智能技术的不断进步,目前的计算工具逐渐成为研究人员喜爱的辅助工具,可以帮助甚至发展成为替代人脑完成逆合成设计的工具。详情参见表3。


表3 逆合成设计平台


5

总结

深度学习的最新发展为计算化学合成提供了许多机会。在这篇文章中,我们全面介绍了基于深度学习的数据驱动的逆合成设计方法的进展。这些工作不仅具备基本的预测能力与文献匹配,而且使逆合成工作更加灵活,甚至可为化学家提供新颖的合成路线。其中一些自动化工具使化学家专注于更复杂的合成任务。这些方法在有机合成领域内应用,当与药物发现相结合时,可能会促进个性化医学的重大进展。


然而,仍有一些需要在未来解决的问题:(1) 一些模型提出的合成路线缺乏有关反应条件的信息; (2) 现阶段的逆合成设计在某些情况下会遇到计算上的困难; (3) 需要整理更好的数据集,以及设计更好的指标来评估和比较单步和多步逆合成方法。


参考资料

Jingxin Dong, Mingyi Zhao, Yuansheng Liu, Yansen Su, Xiangxiang Zeng, Deep learning in retrosynthesis planning: datasets, models and tools, Briefings in Bioinformatics, 2021;, bbab391, 

https://doi.org/10.1093/bib/bbab391

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/121167
 
581 次点击