该研究采用 Ugi 四组分组合化学反应,选取 38 种酸、20 种醛、21 种胺和 7 种不同的异腈,构建了具有 111,720 种 Ugi 产物的多样化文库。为获得初筛数据,采用一致流形近似与投影技术将文库的高维信息降为二维分布图,从中尽可能均匀地选取了 360 个具有代表性的组合。随后合成了所有 360 个组合,并通过高通量实验对其抗菌性能进行了表征,以 OD 吸光度作为抗菌性能标签,具有良好抗菌性能的组合(深红色)占比极少,若以 OD 值低于 0.1 为界划分,则筛选命中率仅为 5.3%
Figure 1. 基于 Ugi 反应的组合化学文库构建及特征融合机器学习辅助文库快速筛选。
Figure 2. 初筛文库的抗菌性能热图。
分子特征的选取是机器学习用于化合物属性预测过程中极为重要的步骤,其中分子指纹描述符(Fingerprint descriptor)和物理化学描述符(Physicochemical descriptor)是经典的两种分子特征描述,其分别反映了具体分子的化学结构和物理化学性质。该研究团队设想这两种描述符包含互补信息,融合两种特征可能会提高模型的性能,稳定学习过程,由此采用了基于特征融合的机器学习模型来辅助文库筛选 。采用该模型对整体文库中 11 万种产物的抗菌性能做出预测并排序,通过湿实验合成了模型预测的最优抗菌性能组合,最终研究团队筛选得到了三种具有优异抗 MRSA 性能的 Ugi 产物结构,筛选成功率大幅提升(60%),且这三种抗菌分子表现出了极低的诱导细菌耐药性产生能力。
该工作流程突出了机器学习模型与组合化学文库的集成,显著加快了抗菌化合物高质量数据的收集和数据挖掘效率。相关成果以“Combinatorial discovery of antibacterials via a feature-fusion based machine learning workflow”(《基于特征融合的机器学习加速组合化学文库抗菌筛选》)为题发表在英国皇家化学会期刊 Chemical Science 上。
论文信息
Combinatorial discovery of antibacterials via a feature-fusion based machine learning workflowCong Wang, † Yuhui Wu, † Yunfan Xue,† Lingyun Zou, Yue Huang, Peng Zhang*(张鹏,浙江大学), and Jian Ji*(计剑,浙江大学)Chem. Sci., 2024 https://doi.org/10.1039/D3SC06441G
Chemical Science 是涵盖化学科学各领域的跨学科综合性期刊,也是英国皇家化学会的旗舰期刊。所发表的论文不仅要在相应的领域内具有重大意义,而且还应能引起化学科学其它领域的读者的广泛兴趣。所发表的论文应包含重大进展、概念上的创新与进步或者是对领域发展的真知灼见。发文范围包括但不限于有机化学、无机化学、物理化学、材料科学、纳米科学、催化、化学生物学、分析化学、超分子化学、理论化学、计算化学、绿色化学、能源与环境化学等。作为一本钻石开放获取的期刊,读者可以免费获取所发表论文的全文,同时从该刊的论文版面费由英国皇家化学会承担,论文作者无需付费。