Py学习  »  机器学习算法

Nat. Mach. Intell. | 分子表征的几何深度学习

集智俱乐部 • 2 年前 • 336 次点击  


导语


本文介绍由瑞士苏黎世联邦理工学院化学与应用生物科学系的Francesca Grisoni和Gisbert Schneider共同通讯发表在 Nature Machine Intelligence的研究成果:本文作者重点介绍了几何深度学习在药物发现、化学合成预测和量子化学等领域的应用,其包含几何深度学习的原理和相关的分子表征,例如分子图、网格、表面和字符串。作者讨论了分子科学中几何深度学习面临的挑战,并展望其未来应用。


研究领域:几何深度学习,分子图学习,药物发现,量子化学

花林枫 | 编译

丁睿 | 审稿







1. 简介




几何深度学习(Geometric deep learning, GDL)是人工智能的一个新兴概念,在分子科学领域(如药物发现、量子化学和结构生物学)得到了广泛应用。


GDL涵盖了将神经网络推广到欧几里得和非欧几里得域的新兴技术,诸如图、流形、网格和字符串表征。一般来说,GDL包括结合几何先验的方法,即关于输入信号的空间结构和对称属性的信息,比如分子结构的表示。几何先验信息用于提高模型性能,如预测精度。虽然GDL已被越来越多地应用于分子模型,但其潜力仍未充分挖掘。

本综述的目的是:

(1)对GDL在分子科学中的主要应用提供结构化和统一的综述;

(2)描述该领域的主要研究方向;

(3)对GDL的未来应用进行展望。





2. 相关工作




几何深度学习的原理


GDL最初用于使用了非欧几里得数据的方法,现在扩展到所有包含几何先验的深度学习方法。对称性是GDL中一个重要的概念,通常根据不变性和等变性重新定义,以表示任何数学函数相对于作用对称群的变换𝒯(例如旋转、平移、反射,如图1)的行为。其中数学函数是应用于给定分子输入𝒳的神经网络ℱ,可以对𝒯等变、不变或其它。


图1 欧几里得变换



分子图学习


图是表示分子结构的最直观的方法,任何分子都可用图表示,其中顶点表示原子,边表示化学键。此外,在许多深度学习应用中,分子图还用3D结构进行表示,除顶点和边外,还编码顶点在3D坐标系中的位置信息。


图神经网络(GNN)是一种将图作为输入的深度学习方法。应用于分子图,GNN通过逐步聚合原子自身及其邻域信息来提取特征,如图2所示。常用的GNN框架是信息传递神经网络(MPNN)。MPNN通过图卷积操作迭代更新第l层的顶点特征,使用两个可学习函数和𝜙,和一个局部置换不变的聚合算子(如求和、均值或最大值)实现更新。


图2 分子图的深度学习


GNN广泛应用于量子化学、药物发现、计算机辅助合成设计(CASP)和分子性质预测等方面。应用于量子化学任务时,GNNs通过在图的边特征中加入径向和角度信息来使用E(3)(即欧几里得对称群)-不变的3D信息,提高平衡和非平衡分子构象的量子化学力和能量的预测精度,如SchNet和PaiNN。GNN还与变分自动编码器和强化学习相结合进行从头生成分子。


基于图的方法的最新领域是 SE(3)-和E(3)-equivariant GNN (等变消息传递网络),这类网络利用欧几里得对称性处理3D分子图。SE(3)为特殊的欧几里得对称群,SE(3)-equivariant神经网络对反射是非等变的,因此可以区分包括对映体在内的手性分子的立体异构体,而E (3)-equivariant等变神经网络对反射等变,这使得E(3)-equivariant模型可以区分非对映异构体而不是对映异构体。E(3)网络在计算上更高效,且比SE(3)拥有同等或更好的性能,例如,用于量子化学性质和动态系统的建模。


网格学习


网格以规则的间隔来捕捉系统的属性。根据系统中包含的维数,网格可以是1D(序列)、2D (RGB图像)、3D(立方格)或更高维。网格是由欧氏几何定义的,可认为是具有特殊邻接关系的图,其中:

(1)顶点具有固定的排序,由网格的空间维度定义;

(2)每个顶点具有相同数量的邻接边(即相同的邻域结构),因此在结构上无法与其他顶点区分。

这两个特性使应用于网格的局部卷积具有固有的置换不变性,并为平移不变性(通过卷积的权重共享)和尺度分离(通过池化操作)提供强大的几何先验。

分子可以有多种不同的网格形式。2D网格通常更有利于可视化,3D网格通常用于捕获一个(或多个)分子构象内属性的空间分布,然后将这些信息用作3D卷积神经网络(3D-CNN)的输入。3D-CNN比等变GNN具有更高的资源效率,因等变GNN主要应用于原子数小于1000个的分子,故3D-CNN常用于跟蛋白质结构相关的任务,如蛋白质-配体结合亲和性预测或活性位点识别。


分子表面学习


分子表面可以定义为距离每个原子中心一定距离的包围分子的3D结构的表面。这种连续表面上的每个点都可以通过其化学性质(如疏水性、静电性)和几何性质(如局部形状、曲率)进一步表征。从几何角度来看,分子表面被视为3D网格,即以一组多边形(面)来描述存在于3D空间的网格坐标。它们的顶点可以用2D网格结构(网格上的四个顶点定义一个像素)或3D图形结构表示,可使用2D-CNN、geodesic CNN和GNN在分子表面上学习。


最近,geodesic (2D)-CNN已被用于基于网格的蛋白质表面的特征学习,并以此预测蛋白质-蛋白质的相互作用和识别相应的结合位点。但应用于网格的2D-CNN方法有一定的局限性,例如需要旋转数据增强和和强制执行均匀的网格分辨率 (即网格中所有点的间距均匀)。基于网格表示的GNN已将旋转等变性纳入其网络结构,并允许异构网格的分辨率。这样的GNN计算效率高,并有潜力建模大分子结构,然而,它们还没有在分子系统中得到应用。其他研究使用基于3D体素的(宏观)分子表面表示作为3D-CNN的输入,用于预测蛋白质-配体亲和力和蛋白质结合位点。


字符表征的学习


分子可以表征为分子串,即由字母、数字、符号组成的线性序列。目前常用的基于字符串的表征方法有Wiswesser line表示法、InChI和SMILES。每一种线性表示都可以看作是一种“化学语言”。这样的表示方法具有明确的语法,并非所有的字母、数字、字符的组合都能产生“化学上有效”的分子。此外,这些符号具有语义属性,根据字符串元素的组合方式,相应的化合物将具有不同的物理、化学和生物属性。


SMILES字符串中字母用来表示原子,而符号和数字用来编码键类型、连通性、分支和立体化学。对于给定分子,根据起始的非氢原子和其在分子图中的方向,可以得到不同的SMILES字符串,同时保留捕获的化学信息。虽然其他字符串表示形式也与深度学习结合并进行了应用,但SMILES字符串在化学中的广泛应用和建模生成方面的优势,使得化学语言建模选择SMILES字符串作为表示形式。化学语言模型是一种机器学习方法,能够以分子序列作为输入或输出(图3)。化学语言建模最常用的算法是RNNs和Transformers。


图3 化学语言建模


RNNs是一种神经网络模型,通常采用one-hot编码将序列数据转换为欧几里得结构。RNN对序列数据建模,其中网络在任意第t个时间点(即序列中的任意第t个位置)的隐藏状态既取决于当前的观测值,也取决于之前的隐藏状态(图3b)。RNNs可以处理任意长度的序列输入,并提供任意长度的输出。RNNs通常与迁移学习或强化学习相结合,用于从头生成具有所需理化特性的分子。此外,RNN还用于预测配体-蛋白质相互作用和药物的药代动力学特性,蛋白质二级结构和分子特征提取。


Transformers通过将序列编码为全连通图或顺序连通图(图3c),将序列数据转为为非欧几里得结构,其中每个标记仅连接到序列中的前一个标记。前一种方式通常用于特征提取(如Transformer编码器),而后者通常用于next-token的预测(如Transformer解码器)。Transformers已广泛用于预测多步合成、区域和立体选择反应、酶促反应结果、反应产率和类别。最近研究人员将Transformer用于分子属性预测和优化,从头分子设计,以及与E (3)和SE (3)等变层结合学习蛋白质的3D结构。





3. 总结与展望




化学中的几何深度学习(GDL)使研究人员能够利用不同非结构化分子表示的对称性,从而为分子结构生成和性质预测的可用计算模型带来更大的灵活性和多功能性。此类方法代表了基于分子描述符或其他人工工程特征的经典化学信息学方法的有效替代方案。作者分别从分子字符串、分子图、分子网格和分子表面四个方面阐述了GDL的应用。


未来展望:

1)为进一步研究GDL在化学中的应用和影响,需要在算法复杂性、性能和模型可解释性之间做出最佳权衡;

2)GDL在分子特征提取方面的潜力尚未被充分挖掘,缺少基准框架系统的评估人工智能学习的数据驱动特征的有效性。

3)在尚未深入研究的一些分子表征中应用GDL,如量子和电子表征。


参考资料

Atz, K., Grisoni, F. & Schneider, G. Geometric deep learning on molecular representations. Nat Mach Intell 3, 1023–1032 (2021). 
https://doi.org/10.1038/s42256-021-00418-8


复杂科学最新论文


集智斑图顶刊论文速递栏目上线以来,持续收录来自Nature、Science等顶刊的最新论文,追踪复杂系统、网络科学、计算社会科学等领域的前沿进展。现在正式推出订阅功能,每周通过微信服务号「集智斑图」推送论文信息。扫描下方二维码即可一键订阅:



推荐阅读



点击“阅读原文”,追踪复杂科学顶刊论文

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/124941
 
336 次点击