近期,来自维也纳大学的Sergey Sosnin博士在Drug Discovery Today上发表了一篇重要综述Chemical space visual navigation in the era of deep learning and Big DataSergey Sosnin,系统梳理了深度学习(DL)和大数据背景下,化学空间可视化算法与工具的最新进展及其创新应用。
在药物研发的“大数据”时代,化学数据库的规模已从百万级跃升至数十亿级。然而,最终的药物发现决策权依然掌握在人类手中。面对海量化合物的分析需求,人类固有的认知局限催生了对化学空间可视化技术的迫切需求。
浩瀚无垠的分子宇宙化学空间,即所有可能分子构成的集合,其规模庞大得难以想象。例如,仅遵循类药五规则的化学空间,其分子数量估计在10^12至10^60之间。尽管存在如GDB-17(1660亿个小分子)和Enamine REAL Space(约650亿个可合成分子)这样的超大型数据库,但真正具有生物活性的化合物往往以“簇”的形式散布其中,被大量无生物相关性的分子“空隙”所分隔。面对PubChem(约1.19亿)、Reaxys(约5700万)乃至ChEMBL(240万生物活性化合物)等实际使用的数据库,以及动辄包含数千分子的特定终点数据集,人工分析已完全不切实际。如何将高维的化学空间结构“忠实”地投影到人类可理解的二维或三维视图,成为核心挑战。
从经典到前沿降维(DR)是化学空间可视化的基石。Sosnin博士将算法主要分为参数化和非参数化两类。
图1. 基于降维(DR)的化学空间可视化总体方案。首先,从分子计算化学描述符(指纹),然后应用降维算法,生成低维(2D)投影。
主成分分析(PCA)作为上世纪初诞生的经典算法,PCA因其速度快、结果相对易解释,至今仍在药物化学领域广泛应用。其原理是对化学描述符矩阵进行线性变换,提取主要变异方向(主成分)。例如,Reymond课题组利用分子量子数描述符结合PCA,成功可视化了GDB-13、GDB-17和PubChem等超大型数据集,并证明其二维投影能有效反映化合物的物理化学和结构特性。为应对大规模相似度矩阵的计算挑战,Naveja和Medina-Franco提出了“卫星化合物”策略,即仅选取代表性的参考化合物(如全集的25%)进行PCA,即可获得与全空间高度近似的可视化结果。Awale和Reymond也采用了类似思路,仅用100个ChEMBL参考分子可视化定制数据集。
图2. (a)参数化方法与(b)非参数化方法的区别
自组织映射(SOM) (1982):受生物神经系统启发的无监督学习算法。它将高维数据映射到离散的二维网格节点上,相似的分子在网格中位置相近。SOM的优势在于计算效率高,尤其适用于预训练地图处理大数据。例如,Takács等人利用SOM分析了包含超过1亿分子的化合物库与DrugBank空间的相似性,成功识别出DrugBank特有而化合物库缺失的化学空间区域。SOM还被用于区分P-糖蛋白抑制剂与非抑制剂以及识别多靶点配体。
生成拓扑映射(GTM) (1996):一种概率生成模型,可视为SOM的概率化扩展。它将高维空间映射到连续的二维流形上,并能提供概率密度估计。其优势在于能生成光滑、连续的可视化结果,并可估计模型在低维空间的置信度(适用域,Applicability Domain)。分层GTM(Hierarchical GTM)技术进一步提升了其处理百万级数据集的能力,并支持在浏览器中直接交互。
t-分布随机邻域嵌入(t-SNE)(2008):因其擅长保留局部结构(相似分子聚集)而风靡数据科学界(原始论文引用超49,000次)。它通过优化高维与低维空间的条件概率分布相似性来实现降维。t-SNE在分析γ-分泌酶抑制剂空间、WEE1激酶抑制剂、异恶唑啉类杀虫剂、酪氨酸激酶抑制剂等方面均有应用。
图3. 基于非交互式t-SNE的化学空间可视化示例。
均匀流形近似和投影(UMAP) (2018):在保留局部结构的同时,能更好地捕捉全局结构,且计算效率通常优于t-SNE。UMAP已被用于BTK/JAK3双靶点抑制剂发现、生物大分子分子动力学模拟分析、RNA结合小分子研究、药代动力学预测模型分析以及脱靶效应模型评估等场景。
工具与平台的革新随着数据规模膨胀,新的软件工程方法应运而生,以实现高效的浏览器内可视化:
早期探索-webDrugCS (2016):由Awale和Reymond开发,用于DrugBank化学空间的3D可视化,支持基于分子量子数、结构特征、分子形状、药效团和二元子结构指纹等多种描述符集的PCA投影。
高效交互-FUn (Probst & Reymond):一个框架,通过优化的数据结构和Go语言编写的高性能后端,实现了在浏览器中交互式可视化千万级(如1700万SureChEMBL化合物)化学空间。
在线图集-ChemSpace Atlas:由斯特拉斯堡大学化学信息学实验室开发,提供包含超过40,000张分层GTM地图的在线平台,用于探索广阔和超大型化学空间。
低代码/无代码(LCNC)方案-KNIME:作为计算药物化学中最受欢迎的开源LCNC平台之一,KNIME允许用户通过流程图构建执行流程。近年来,多个KNIME扩展和工作流(如MoVIZ、MolCompass KNIME节点、HiTSEE KNIME)被开发用于化学空间可视化,平衡了灵活性与易用性。
编程库-灵活之选:对于需要完全灵活性或需集成到保密性要求高的药物发现流水线中的场景,编程库是首选。ChemPlot (Sorkun et al.) 是一个Python库,只需几行代码即可使用PCA、t-SNE或UMAP进行分子可视化,并集成了基于Web的交互应用。MolCompass (Sosnin) 库则封装了在超过100万ChEMBL结构上预训练的参量化t-SNE模型。
化学空间分析的新兴应用化学空间可视化已不仅仅用于展示数据,更在多个领域展现出强大价值:
QSAR/QSPR模型的可视化验证:MolCompass工具展示了如何利用化学空间地图分析模型的预测景观,识别预测错误区域(称为“模型悬崖”),即模型未能识别的活性悬崖。
图4. 定量构效关系(QSAR)/ 定量构性关系(QSPR)可视化验证的总体方案。绿色表示平均绝对误差(MAE)低的化合物,红色表示平均绝对误差高的化合物。
化学库分析:通过可视化可以比较不同化合物库(如商业库、天然产物库、专利库)的覆盖范围和独特性,指导库的设计与扩充。Meta-GTM等方法专门用于可视化分析化学库空间。
反应空间导航:降维技术(如参量化t-SNE)可用于可视化化学反应空间,探索反应路径,分析反应可行性,甚至辅助逆合成分析。
人机协同的生成化学:将可视化与生成模型(如基于强化学习RL或REINVENT)结合,允许药物化学家交互式地在化学空间地图上选择感兴趣区域(如围绕参考分子或特定矩形/圆形区域),引导生成具有期望性质的新化合物。例如,Chemistry42平台开发了基于SOM的骨架特异性化合物生成器。
数字艺术:一个有趣且新颖的应用是将化学空间地图本身作为数字艺术作品展示,例如DifAcQuim化学艺术画廊( www.difacquim.com/chemical-art-gallery )中的项目。
深度学习和大数据正深刻变革药物研发。化学空间可视化作为连接海量数据与人类智能的关键桥梁,其方法与工具正在经历一场适应“百万分子时代”的革新。从经典的PCA到前沿的参量化t-SNE、UMAP,从静态展示到交互式探索,从化合物分析拓展至反应路径设计、模型验证乃至艺术表达,化学空间可视化技术正变得日益强大和多元化。随着标准化工作的推进和与生成式AI的深度融合,可视化导航必将引领我们更高效地探索浩瀚的化学宇宙,加速创新药物的诞生。
尽管取得了显著进展,化学空间可视化领域仍面临挑战:
标准化评估:需要建立标准化的指标和基准,从人类认知和算法性能两个角度评估可视化效果。
超大规模数据处理:随着数据持续增长,算法和工具的效率和可扩展性需不断提升。
深度整合:可视化需要更深度地融入药物发现工作流。
展望未来,Sosnin博士认为,化学空间可视化将成为人机协同(HITL)药物发现方法的核心组件。通过深度整合生成模型,药物化学家将能够直观地在化学空间的特定区域交互式地采样具有所需性质的候选药物,极大地提升药物发现的效率和成功率。
参考资料:
Please cite this article as: S. Sosnin, Chemical space visual navigation in the era of deep learning and Big Data,Drug Discovery Today (2025),
https://doi.org/10.1016/j.drudis.2025.104392
感兴趣的读者,可以添加小邦微信加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位或姓名-学校-职务/研究方向。