近年来,生成式深度学习作为一种变革性的方法在药物设计领域迅速崛起,有望探索广阔的化学空间,并生成具有预期生物活性的全新分子。
2025年7月9日,埃因霍芬理工大学的四位研究者发表综述文章“Generative Deep Learning for de Novo Drug Design─A Chemical Space Odyssey”。以前瞻性的视角探讨了将生成模型在药物发现过程中的机遇与挑战,重点关注小分子的生成、评估与优先排序等关键任务。文章指出,该过程中亟需在化学多样性、可合成性与生物活性之间实现有效权衡,并系统回顾了当前主流生成方法的进展、优化策略及对健全评估体系的迫切需求。
生成式深度学习正迅速成为从头药物设计与分子科学中的变革性工具。通过学习已有分子数据,该方法可按需生成具备理想性质的新分子,显著加快了化合物发现进程,优于传统基于规则的方法。在不到十年间,它已广泛应用于前瞻性湿实验研究,并在实际中展现出巨大潜力。
随着计算方法与化学生物知识的深度融合,化学空间探索持续推进。然而,在模型选择与候选分子的优先排序上仍存在诸多挑战。方法众多却难以选优,现有基准难以覆盖新应用。常见问题包括模型过拟合、忽视关键性质、可合成性不足,以及合成可及性评分无法准确反映结构细节和原料可得性。此外,如何在药效团相似性与结构多样性之间权衡,也增加了优化的复杂度。
本文从前瞻视角出发,梳理了生成式小分子设计中亟待解决的问题与关键挑战,特别聚焦于基于配体的策略。在回顾现有生成方法的基础上,提出了对该领域未来发展方向的思考与建议。
以下几种分子表示在该任务中发挥了关键作用:
(1) 分子字符串。分子字符串将分子表示为字符序列,最常见的是SMILES表示。它通过遍历二维分子图,记录原子符号与键类型,并用括号和数字标记环和支链,形成线性结构(图1b)。众多扩展形式被发展,如DeepSMILES试图改进语法错误率(如环编号、括号),但因其语法复杂应用受限。SELFIES基于语义约束图,保证每个字符串都对应一个合法分子,适合生成复杂大分子。最近一些基于分子片段的字符串表示受到广泛关注,如SAFE、GroupSELFIES、fragSMILES。
(2) 2D和3D分子图。图结构是最直观的分子表示方式,将分子作为图G=(V,E),其中顶点集V代表原子,边集E代表化学键(图1c)。2D图表示包含原子/键类型等拓扑和化学信息,而3D图表示引入扭转角、坐标等信息。
(3) 分子表面。通过包裹分子结构的分子表面来表示分子(图1d)。通常有三种表示方式,1)3D网格,由多边形构成的三维坐标结构;2)3D点云,属于离散的空间点集,描述表面但不包含连接关系;3)3D体素,三维立方体网格,对空间进行离散化。表面能进一步通过添加化学信息和几何信息进行特征化。
分子编码是将结构转化为模型可处理数据的关键步骤。
对于分子字符串表示(图1e),常见的编码方法包括:1)one-hot encoding,将每个token转换为唯一的二进制向量;2)learnable embeddings,将token表示为由唯一数字组成的向量,并在训练过程中不断更新。
对于分子图表示(图1f),编码过程中首先构建邻接矩阵,定义原子间的连接关系,随后构建节点特征矩阵,描述原子的性质。可选择性地添加边特征,以描述化学键信息。
生成式深度学习广泛用于小分子设计,目标是生成具备特定性质的新分子。在最基本的形式下,生成式药物发现可被视为一种基于配体的任务,即模型从活性分子的结构中学习,并在不依赖靶蛋白结构或序列信息的前提下,生成具有期望特性的全新化合物。同时,也存在基于结构的策略,这类方法利用靶标蛋白的结构或序列信息来引导分子设计。无论采用基于配体还是基于结构的方法,生成模型的有效性都高度依赖于如何对分子信息进行编码与处理,以支持后续的分子生成任务。通常而言,不同的分子表示方式需要定制的神经网络架构,以实现对所包含分子信息的有效利用。
(1) 分子字符串模型
在基于配体的药物设计中,最早且广泛应用的方法之一是化学语言建模(CLM)。该方法将分子设计视作一个序列生成问题,利用自监督学习预测下一个分子字符,从而生成符合化学规则的分子。CLM常配合数据增强使用,即通过遍历不同起点或路径生成同一分子的多个SMILES(或SELFIES)表示。这种分子字符串枚举在数据稀缺场景下尤其有效。此外,近来也出现了如atom masking、token deletion等NLP启发的新策略,用于提升模型表现。
RNN(如LSTM、GRU)是早期主流架构,通过记忆前序信息生成有效分子。Transformer引入全局注意力机制,更擅长捕捉复杂分子性质,但生成的结构多样性较低。S4模型结合了Transformer的全局学习能力与RNN的自回归生成优势,有望同时提升分子多样性与性质捕捉能力。VAE则将分子编码为连续潜空间,利于优化和引导式设计。GAN尝试用于分子生成,但因训练不稳定(如模式崩溃)应用受限。扩散模型作为新兴架构,通过逐步去噪生成分子序列,相较CLM具备更好的可控性和类药性,成为当前热门研究方向。
(2) 分子图模型
GNN是分子图学习的主流架构,从随机向量开始,逐步更新原子和键的表示,以学习有意义的分子表征。最初被应用于与VAE和GAN结合的模型中。尽管使用GNN作为编码器相对简单,但图的解码更具挑战性。近年来,还提出了基于流(flow-based)和基于扩散(diffusion-based)的模型用于分子图生成。流模型通过学习可逆变换,将简单的概率分布(如高斯分布)映射为复杂的分子分布。与VAE和扩散模型不同,流模型可以为生成的分子提供精确的似然估计,并为其设计提供内部打分机制。扩散模型则从随机噪声中学习生成化学有效的分子拓扑结构。近期关于这两类图生成模型的研究重点包括提升化学有效性、可扩展性和设计多样性,以与基于字符串的方法达到相当的性能。
(3) 3D几何模型
3D表示是以原子类型及其空间坐标表示分子。在原子级的三维信息上训练模型,可以使其同时从蛋白质和小分子中学习,并在分子生成时参考蛋白结合位点的三维拓扑结构。等变图神经网络(EGNN)是一种用于点云数据的神经网络架构。初期的EGNN在生成满足键长和原子稳定性约束的合法3D结构方面存在困难,后续研究通过引入物理定律以及联合学习分子图与三维坐标显著提升了有效性,接近字符串模型的水平。近年来,考虑分子几何结构的消息传递Transformer模型变得流行,它们能够生成更有效的分子。目前3D分子设计模型面临的瓶颈之一是数据集和评测基准的可及性。
(4) 混合模型
在任何表示形式下生成分子都有其独特优势,这促使研究者尝试融合多种方法的优点。有一种方法是构建一个由GNN和CLM分别作为编码器和解码器组成的VAE,其中编码器用于明确表示分子结构,解码器则用于快速生成分子,这种组合能够带来更高的分子结构多样性。类似地,多模态模型也可应用于从头药物设计,这类方法扩展了模型可获取的信息来源,甚至可以整合额外的数据。然而,每增加一种模态,都会提高模型结构的复杂性,这可能带来计算效率、可解释性以及长期可扩展性方面的挑战。
分子生成方法主要分为三类:
1)
分布学习:训练模型学习并复制一个分子数据集中的性质分布(如理化性质、生物活性等)。通常通过迁移学习完成,先在大型多样化数据集上预训练模型,然后在特定任务的小数据集上微调。这类方法不依赖显式评分函数,适合低数据场景,可自动生成具有所需性质的分子,但缺乏对单个分子的评估,需后处理筛选。
2) 目标导向学习:通过优化外部目标函数来引导模型生成目标分子。通常通过强化学习实现,模型迭代生成分子。根据外部评价函数(如对接评分、预测性质或生物活性)获得奖励,奖励高分子结构,惩罚低分子结构,不断调整生成策略。这类方法利用外部评分函数进行优化,可引导探索新颖化学空间,但易受评分函数偏差影响。
3) 条件生成:模型被训练显式生成符合一种或多种属性要求的分子。通过学习目标属性和分子结构的共享空间实现条件生成。也可以通过训练时显式利用目标性质作为输入实现。这类方法兼具端到端学习优势,当前应用较少,主要受限于高质量带标签数据的缺乏。
尽管生成式药物发现取得了显著进展,判定一个分子设计的好坏仍然具有挑战性,因为这通常涉及在特定背景下平衡多个、甚至相互冲突的目标。目前尚无公认的通用标准来评估从头设计研究,评估通常会综合考虑多个因素,具体如下:
(1) 化学有效性与非冗余性
一个高质量分子生成模型的基本要求是能够生成化学合理的分子,即这些分子在价键数、芳香性、电荷分布等方面都符合基本的化学规则,这些特征通常被统称为化学有效性。虽然这种有效性通常仅考虑二维结构,但最近已经拓展到了三维分子生成(即3D有效性),它进一步评估生成分子的键长和键角的构象质量。此外,生成模型还应具有生成非冗余分子的能力,即减少重复设计(uniqueness)以及与训练集的重叠度(novelty)。这些指标应始终被报告,因为它们能揭示模型训练过程中的潜在问题。然而,这些指标容易受到简单操作(如随机插入一个碳原子)的影响,其结果还依赖于生成分子的数量,并且很容易通过启发式算法进行优化。因此,这些指标更适合作为诊断工具,而非最终评估标准。
(2) 多样性
评估生成分子的结构多样性对于确保模型不会输出结构过于相似或冗余的分子至关重要。但分子多样性的评估并不简单,因为相似性是观察者主观的,它取决于所选的分子特征和所使用的相似性/多样性度量方法。常见的做法是使用扩展连接指纹(ECFPs)计算分子的成对Tanimoto相似度(值越低表示多样性越高)。不过,这种方法可能掩盖多样性中的重要细节。分子骨架的多样性也是常用的多样性评估方式,它能提供比ECFP更抽象的结构差异视角,但也容易受到仅有细微差异骨架的干扰。为了解决这个问题,最近提出了环数(#Circles)指标,该方法利用球面排除聚类来衡量数据集的结构多样性和化学空间的覆盖范围。#Circles 在识别模型探索能力方面表现良好,但计算成本较高。
(3) 与参考分子的相似性
在从头药物设计任务中,生成的分子通常需要具备与已知化合物相似的关键理化性质。因此,通常会通过计算它们与参考化合物的相似性,来衡量这些设计分子在多大程度上符合预期的性质分布。这类相似性评估可以基于共享的结构片段信息,如ECFP或MACCS指纹。也常基于理化描述符,
如分子量、logP、TPSA、氢键供体和受体的数量。获取了参考分子和生成分子的这些描述符之后,可以通过特定的指标(如KL散度或KS距离)计算它们的分布相似性(值越低,说明分布越相似)。另一种常用的分布距离衡量指标是Fréchet ChemNet Distance(FCD)。这类基于分布的相似性评估通常需要足够大的分子数量(估计至少约10万个)才能保证计算结果可靠。
(4) 预测分子的适应性
从头药物设计的目标是发现具有多种理想特性的候选分子,用于苗头和先导化合物的发现,这些特性包括:高效能、选择性、药代动力学属性以及安全性。然而这些性质本身非常复杂,且通过实验测定通常成本高昂、耗时漫长,因此,在分子的评估和优先级排序过程中,通常采用不同层次的计算替代方法。常用的计算方法包括:
(a) 定量构效关系(QSAR)模型,用于预测生物学性质,如效能、选择性以及ADMET属性;
(b) 药代动力学模型,用于预测生物利用度、清除率和系统暴露;
(c) 合成可行性评估,复杂度不一;
(d) 基于生物物理的计算方法,如分子对接和分子动力学模拟。
这些方法在分子评估中各有优势与局限。QSAR模型能够快速、低成本地预测生物活性,但高度依赖于高质量训练数据,而这些数据往往难以获取。药代模型提供有关药物在体内分布的生理相关信息,但也要求输入参数足够准确,容易引入不确定性。合成可行性评估有助于优先考虑易于合成的化合物,但可能偏向传统化学结构,忽视新颖或非常规的合成路线。生物物理方法能提供分子相互作用的机制洞察,分子对接速度快但预测较简化,而分子动力学能够捕捉构象变化和结合稳定性,但计算开销极高。此外,两者都存在打分误差,特别是在结合亲和力排序方面。
在新药候选分子的设计中,研究人员长期面临一个核心难题:在结构多样性与已知分子相似性之间寻找平衡。一方面,与已知活性分子结构相似可以提高新分子具有生物活性的概率;另一方面,过高的相似性又会限制化学创新,阻碍进入新颖的化学空间
。
这一悖论可以通过以下策略缓解。第一种是保持3D互补,降低2D结构相似度。此外,还可以从天然产物中获取启发。当前已有研究通过迁移学习或基于片段的生成方法,将天然产物特征融入生成模型,从而拓展分子空间,同时保留良好生物活性。可以利用多种技术协同解决该问题,如对于熟悉的设计,使用数据驱动工具如对接、预测模型、合成规划等;而对于新颖的设计采用物理模拟(如分子动力学)进行逐级筛选。先做粗略模拟选出有前景分子,再对其进行深入精细模拟。
相比于传统的预测模型(例如预测生物活性或毒性),生成模型的评估面临更多挑战。预测模型可通过留出并已知属性的分子进行验证,然而从头设计分子在定义上是前所未有、未经测试的化合物,因此缺乏可直接评估的实验数据。这给评估模型架构、挑选适合前瞻性研究的模型、以及识别学习盲点带来困难。为克服这一问题,近年来出现了一些重要的基准评估平台,它们提供了标准化的数据集与评估指标,用于系统比较不同生成模型的性能。GuacaMol包含分布学习和目标导向型生成两类任务;MOSES主要侧重于分布学习任务;两者都支持对生成模型的系统性比较,加速了算法开发和模型优化。这些基准测试涵盖了优化分子属性、生成多样性分子、模仿训练分布等目标,已成为评估分子生成算法表现的重要工具。
尽管分子基准评估非常有价值,但也存在以下局限与风险:
1) 过拟合风险:模型可能会过度适配基准任务、指标或数据集,在现实药物设计中表现欠佳;
2) 扼杀创造力:研究者可能过度关注提升基准得分,而忽视了具有更大科学意义的开放问题;
3) 任务简化问题:真实的药物设计过程复杂,往往是多目标、迭代式的,且需要实验反馈,而这些特征难以在基准任务中被准确反映;
4) 评价指标偏差:基于相似性或理化性质的指标可能偏向易于计算评估的分子,但这些分子未必具有真正的实用价值。
为应对这些挑战,研究社区应当在利用标准化基准评估的优势和推动创新、应用导向研究之间取得平衡。其中包括在多个基准平台上测试模型,持续开发更贴近实际应用的评价指标和数据集,并在条件允许时,尽量融入实验反馈。
尽管生成式深度学习模型可以设计前所未见的分子,但在合成可行性方面仍面临困难。当前的研究主要围绕合成复杂度评分以及预测逆合成路线来评估合成可行性。合成复杂度评分速度快,适合大规模分子筛选和强化学习流程。但基于规则的方法更新不及时,信息压缩成一个分值会掩盖具体困难点,可能低估现代合成手段的可行性。而逆合成方法更灵活、可随新数据更新,但可能受限于反应数据的偏倚和覆盖度。其提供了更明确的反应路径,适合实验应用。此外,还有一些生成时整合可合成性约束的方法。如枚举式方法,依据反应规则系统性地生成可合成的分子空间,常用反应向量探索构建块组合可能性。此外,另一种方式称为可合成性约束生成。包括引入反应模板或反应性预测,用于直接生成可合成的分子及其路径;还可将可合成性纳入强化学习优化目标
。最后,确保设计出的分子在结构多样性的同时仍具可合成性是一个持续的挑战。未来,合成评估模型与分子生成模型的协同发展被认为是高效探索化学空间的关键策略。
实验验证是检验生成分子活性的最终标准,但它代价高昂且耗时,因此只能对少量候选分子进行合成与评估,面临以下两个主要瓶颈:如何选择合成与测试的分子以及验证数量是否足够。此外,实验验证还需要跨学科协作,包括合成化学、药物化学、计算建模、生物实验与数据分析等专业知识。这也导致真正经过实验验证的生成模型寥寥无几,且大多集中在诸如激酶和核受体等已被广泛研究的靶点上。若目标性质更接近临床需求(如PK、毒性),所需验证成本和复杂性进一步提高。为缓解实验验证困境,自动化技术被视为潜在突破口。例如,自动合成平台、自主实验室、深度学习驱动的分子设计和合成计划,可加快验证流程,提升设计-合成-测试-分析循环效率。引入自适应学习(如主动学习)还能进一步精准地引导化学空间探索,提升模型生成能力。
表4 生成深度学习用于Hit设计经过实验验证的研究
生成式深度学习正在推动按需分子设计的发展,然而该领域仍面临多项挑战。
1) 设计质量评估困难。现有的快速指标(如药物相似性评分、QSAR模型)易产生误导,而高精度模拟方法则计算成本高、难以扩展。因此,结合高效与准确的评估方法,或通过深度学习加速模拟过程成为关键研究方向。同时,推荐使用多维评估指标反映设计质量。
2) 新颖结构易被过滤。现有的打分函数只在有限分布范围内有效,限制了对结构新颖分子的发现。提升模型的泛化能力可扩展分子探索空间。将这种具备泛化能力的预测方法整合进强化学习框架,将有助于更快地探索结构新颖的化学空间。
3) 数据稀缺限制学习效果。多数活性数据集规模较小,制约深度学习的表现。迁移学习虽可缓解,但仍面临灾难性遗忘和模式坍塌等问题。近年来新策略如in-context learning for molecules和test-time scaling of generations引起关注。同时,非活性分子被认为是低数据设定下的宝贵资源。
大语言模型(LLMs)前景可期但仍待验证。尽管LLMs在信息整合和分子生成方面展现潜力,但在化学泛化、零样本学习、结构导向设计等方面仍缺乏系统性探索。当前领域呈现两个相互交织的趋势。深度学习社区不断推进生成模型架构,扩展化学空间探索能力,药物研发社区则致力于将化学、生物活性、可合成性等实际因素整合进评估流程,增强生成模型的现实适用性。两者的结合需要更紧密的跨学科合作,改进模型可解释性、现实评估框架,并加强与实验验证的衔接。未来成功的衡量标准,不仅是生成新分子,更是能经受药物开发考验的候选物。与此同时,公布负面结果对于优化研究流程同样重要。
参考链接:
https://doi.org/10.1021/acs.jcim.5c00641
感兴趣的读者,可以添加小邦微信加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位或姓名-学校-职务/研究方向。