Py学习  »  机器学习算法

廖矿标/杨跃东课题组Chem:自动化与深度学习促进的受阻间位sp² C–H键选择性活化

X-MOL资讯 • 1 年前 • 399 次点击  


作为有机化学的研究热点之一,已经有非常多的选择性芳基C–H键活化工作在近些年被报道。其中,导向的C–H键活化在邻位、对位以及未受阻间位的反应都可以做到非常优秀的选择性(图1A)。余金权课题组所发展的模板导向基策略可以非常好地实现未受阻间位的选择性C–H键活化,是非常具有启发性和创造性的方法。另外,Larrosa课题组在2014年利用Kolbe-Schmitt反应将CO2作为无痕导向基,可以实现苯酚底物的未受阻间位C–H键活化(图1B)。2015年,余金权课题组使用NBE作为无痕导向基,经历Catellani过程(Pd/NBE-relay process)同样实现了苯乙酰胺类底物的未受阻间位C–H键活化(点击阅读详细)。然而,已报到的进展都大量集中于未受阻间位C–H键活化,受阻间位C–H键的活化却几乎无人问津。

图1. 取代芳烃的区域选择性C–H活化策略


为了解决这样一个极具挑战性的问题,广州实验室廖矿标课题组利用高通量实验平台实现了一个“三步一锅”的受阻间位C–H键活化反应(图1C)。包括一个光引发的苄位C–H键羧基化,羧基导向的Pd催化C–H键活化,以及最后微波促进的脱羧反应。最后,通过与中山大学杨跃东课题组合作,将有机化学与深度学习算法相结合,联合开发了一个产率预测模型(communicative message passing neural network for reaction yield prediction , CMPRY)。


作者首先针对第一步光促进的苄位C–H键羧基化反应进行了条件优化(图2A),选择K2HPO4作为碱,使用CO2饱和的DMF作为溶剂,只光照40 min就可以得到90%产率。接着对后面两步的C–H键官能团化和脱羧过程进行条件优化(图2B),以羧基化的邻甲基二苯甲酮和苯基三氟硼酸钾为模板底物,筛选了46种MPAA(mono-N-protected amino acids)配体和2种碱的组合,并对反应中使用的碱、苯醌类助氧化剂和反应温度进行了考察。综合对比后,以L12、K2HPO4和BQ2为最优组合,获得了总产率为92%的芳基化产物(5a:4a = 6:86)。随后,将反应混合物置于微波反应器中,在150 ℃下反应0.5 h,最终以77%的综合收率(芳基化与脱羧的串联反应)得到目标产物5a

图2. 反应条件筛选


在完成了条件筛选之后,作者对反应的底物适用范围进行了考察,包含24种酮和43种芳基三氟硼酸钾(图3)。

图3. C–H键羧基化/羧基导向C–H芳基化底物拓展


利用高通量技术,作者完成了1032个交叉组合的反应,热点图列于图4A中。值得注意的是,其中超过70%的反应都得到了目标产物,这显示了该策略的普适性。作者根据取代基的电子性质重新排列了产率(图4B),希望能够总结出一些经验规律或者结论,但是,通过对比分析,作者发现很难总结出关于反应结构与产率关系的规则或者结论。例如,在该反应中,作者无法总结出相关规律来描述酮底物或者芳基三氟硼酸钾的电子性质是如何影响反应的。可以看到,在这样一个转化中,并没有明显的优势或者劣势电子性质,因为无论是吸电子或者给电子的取代基都会给反应带来不确定的因素。事实上,预测未知底物的产率,即使是经验丰富的化学家也会感到非常棘手。所以需要建立一个预测模型来降低这个方法学的使用门槛,使它更为实用。另外,这样也可以增进对这一转化过程的理解。

图4. C–H键羧基化/羧基导向C–H芳基化反应产率热点图举例分析


利用这1032个数据,作者建立了一个名为CMPRY(communicative message passing network for reaction yield prediction)的模型来预测反应产率(图5)。CMPRY模型是基于一种名为CMPNN (communicative message passing neural network) 的图神经网络(graph based neural network, GNN)架构上的模型。为了评价模型效果,作者将数据集分为了训练集(由20种酮和43种芳基三氟硼酸钾)和测试集(4种酮和43种芳基三氟硼酸钾)。因为对于深度学习来说,860个数据量比较小,所以需要对CMPNN在一个已知的化学数据库(USPTO-479k)中进行预训练,再然后针对训练集进行调参。通过5折交叉验证,CMPRY的预测效果可以达到R2 = 0.75以及 MAE = 7.2%。而且对于测试集的预测效果也依然保持良好,为R2 = 0.73和MAE = 6.6%。这个结果显示出模型具有很好的外延性以及稳定性。此外,还评估了数据量对于模型表现的影响。可以看到从最初的172个数据量,增长到860个数据量,R2不断升高,也趋于收敛。与之相比,没有经过预训练的CMPNN模型,针对测试集只得到R2 = 0.64和MAE = 7.3%的效果。另外普通的图卷积模型GCN(graph convolutional networks)也只能得到R2 = 0.64和MAE = 8.0%的效果。而传统的机器学习模型GBM和XGB的预测效果则更差。

图5. CMPRY模型分析


为了更好地理解这样一个基于深度学习的模型,作者采用了一种被称为CAM-GRAD (gradient-weighted class activation mapping) 的技术来标注结构中对于预测结果有重要影响的原子或结构片段(图6)。如图6A和6B中所示,CMPRY将新形成的C–C键高亮显示,表明它可以识别出反应位点。另外在反应6C中,邻甲磺酰基没有得到产物,CMPRY仅高亮标注了邻甲磺酰基而没有标注没有形成的C–C键。这也与大位阻的邻位取代基会阻碍反应相印证。此外,CMPRY还将产物中的羧基高亮显示,虽然在模型的输入中没有关于反应条件的信息,但模型识别出羧基对于反应的重要。羧基是由二氧化碳引入的,并在导向的C–H键活化中扮演重要作用。如果能够弄懂这其中的原因,将是一个非常有意思的发现。最后,模型也会给出一些难以理解的信息。比如在醛基和酯基取代的芳基三氟硼酸钾中(图6D和6E),底物中官能团上的氧原子都是重要结构,但是在产物中只有酯基上的氧被认为是重要的,而醛基上的氧原子则不然。

图6. 利用CAM-GRAD技术对CMPRY预测中重要结构片段的展示


为了进一步展示本方法的实用性,避免进行C–H羧基化/C–H芳基化两步反应之后的分离操作,作者继续优化反应步骤,利用微波促进的脱羧反应实现了受阻间位C–H键官能团化反应的“三步一锅”。从图7中的例子可以看出,最高的产率为76%,平均到每一步上的产率都接近90%。这些结果都展现出受阻间位C–H键活化策略的可行性与实用性。

图7. 受阻间位C–H键官能团化反应的“三步一锅”


小结


廖矿标课题组和杨跃东课题组利用自动化和机器学习实现了一类受阻间位C–H键官能团化的反应。这样一个串联反应涉及到光催化的C–H键羧基化,Pd催化的C–H键芳基化以及微波促进的脱羧反应等。可以一锅反应得到常规方法难以得到的芳环上受阻间位的C–H键活化产物。更进一步地,针对串联反应的前两步,研究了多个机器学习模型并最终发展出了一个基于图模型的深度学习模型CMPRY。最后,这样一个HTE与DL相结合探索受阻间位C–H活化的模式希望可以促进有机化学与人工智能的更好地结合,为传统基础学科的发展注入新的动力。


该研究近日发表于Chem 上,廖矿标课题组的博士后邱佳博士、杨跃东课题组研究生谢健聪为该文的共同第一作者。其他作者分别为廖矿标课题组的助理研究员苏诗敏、博士后高亚东博士以及硕士研究生孟涵。该研究工作得到了国家自然科学基金委和广州实验室等机构和项目的科研经费支持。


原文(扫描或长按二维码,识别后直达原文页面):

Selective functionalization of hindered meta-C-H bond of o-alkylaryl ketones promoted by automation and deep learning

Jia Qiu, Jiancong Xie, Shimin Su, Yadong Gao, Han Meng, Yuedong Yang*, Kuangbiao Liao*

Chem, 2022, DOI: 10.1016/j.chempr.2022.08.015


廖矿标课题组简介


廖矿标课题组长期致力于利用自动化、高通量、人工智能等现代化学技术,开发新型合成方法学,建立人工智能反应预测模型,聚焦呼吸系统疾病开展新药研发。具体的研究方向包括:

1. 合成方法学:围绕惰性化学键(碳氢键、碳碳键等)精准转化开发方法学。

2. 反应预测模型:利用自动化高通量技术,收集标准化的反应数据,建立人工智能反应预测模型,实现合成路径、反应条件或反应结果的精准预测,目前在研项目包括脱羧偶联、碳氢活化、多组分反应、不对称催化、光催化等类型的反应或反应体系。

3. 呼吸系统疾病新药研发:开发新型化合物库合成以及活性筛选工具,研发抗冠状病毒的小分子药物。


廖矿标课题组依托中山大学化学学院招收2名2023级博士生,有机化学专业。联合培养学生的学籍归属于中山大学,博士毕业后授予中山大学博士学位,在广州实验室廖矿标课题组开展博士学位论文研究工作。有意攻读博士学位的同学,请发邮件至liao_kuangbiao@gzlab.ac.cn,附上个人简介、工作总结、发表论文。


详情请前往课题组网站

https://www.x-mol.com/groups/Liao_Kuangbiao



Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/147390
 
399 次点击