社区
教程
Wiki
注册
登录
创作新主题
社区所有版块导航
Python
python开源
Django
Python
DjangoApp
pycharm
DATA
docker
Elasticsearch
分享
问与答
闲聊
招聘
翻译
创业
分享发现
分享创造
求职
区块链
支付之战
aigc
aigc
chatgpt
WEB开发
linux
MongoDB
Redis
DATABASE
NGINX
其他Web框架
web工具
zookeeper
tornado
NoSql
Bootstrap
js
peewee
Git
bottle
IE
MQ
Jquery
机器学习
机器学习算法
Python88.com
反馈
公告
社区推广
产品
短视频
印度
印度
一周十大热门主题
Getty Images斥资数百万美元对抗AI文生图公司;腾讯发布并开源混元语音数字人模型丨AIGC...
ICLR 2025|一个 Transformer 统一多模态理解和生成!Show-o:LLM 自回归...
【终轮征稿】NGDN 2025特设优秀评选!人工智能、网络安全、机器学习和数据挖掘等相关主题均可投递...
超快超稳还免费的A股行情神器!量化必备的Python库全攻略(附代码)
陶哲轩重写20年本科经典教材!Lean编程数学证明,GitHub已放出
Python编程学动量自动化:强庄起爆捉妖天眼主图指标公式
Python爬虫超详细讲解(零基础入门,老年人都看的懂)
FreeBuf周报 | ChatGPT o3模型无视关机指令;虚假ChatGPT安装程序暗藏攻击
《Science》:深度学习模型PromoterAI解析启动子变异在罕见遗传病中的作用
2025南京人才日|2025谷雨学院开学典礼暨AIGC技术应用专场活动在宁举办
关注
Py学习
»
机器学习算法
JCTC | 基于几何深度学习方法的分子晶体结构预测
DrugAI
• 1 年前 • 249 次点击
分子晶体的物理性质和生物活性等特征对晶体结构的细节非常敏感,为了确保药物的安全性和有效性或设计出具有所需功能的有机材料,有必要在设计之前确定目标分子可能形成的稳定多晶型体。一般来说,很难实现仅从单分子信息预测晶体结构,因为原子和分子的合理堆积方式数量十分庞大。
晶体结构预测(
Crystal structure prediction, CSP
)通常有两个步骤:
(i)
搜索可能存在的晶体结构;
(ii)
对搜索到的晶体结构进行评分,其中评分的方法分为两大类:
(i)
基于能量的方法,如通用力场(如
GAFF
)、特定分子力场和从头计算工具(如密度泛函理论(
DFT
))等;
(ii)
基于结构的方法(也称为
“
拓扑
”
或
“
几何
”
方法)可直接从原子坐标生成得分,而无需对能量进行评估,本文即使用的第二种方法。
早在
1998
年就已经开发了几种基于结构的方法,然而这些先前的方法受到两种关键限制:
(i)
原子之间的组合数量过于庞大,且不同类型原子对间的距离分布有着显著的差异,
(ii)
使用低阶结构相关性,通常为原子的成对距离,会导致模型无法捕获重要的物理特征,而构建高阶结构相关性模型则会导致模型复杂度大大增加。
基于以上问题,纽约大学
Mark Tuckerman
小组开发了基于几何的深度图神经网络(
DGNN
)的晶体评分模型
MolXtalNet-S
和晶体密度预测模型
MolXtalNet-D
,在这些方法中,模型仅需分子晶体中某些片段的特征和分子表面积等信息,而不是直接从原子位置学习几何表示,这大大加快了
CSP
的速度,同时也拓宽了适用范围,相关成果发表在美国化学会出版的
Journal of Chemical Theory and Computation
期刊上
(
J. Chem. Theory Comput
.
2023
, 19 (14), 4743–4756. )
。
基于几何的分子晶体图构建
作者从图像处理领域的填充方法中汲取灵感,开发了分子晶体图卷积(
MCGC
)方法(
图
1
)。作者首先从剑桥结构数据库(
Cambridge Structural Database, CSD
)中获取晶体结构,按照
80:20
的比例划分训练集和测试集,同时限制不对称单元中只含有一个分子的晶体,即
Z′ = 1
。接下来对
N × N × N
(实际应用中一般为
3 × 3 × 3
)超晶胞内的每个原子进行识别和单独标记,具体如下:
0
表示分子中处于所选择不对称单元(我们称之为
“
标准构象
”
)内的原子;
1
表示距离标准构象质心
r
max
+ r
c
(
r
max
是质心与分子中任何原子之间的最大距离,
r
c
是人为设定的截断值)范围内的原子;
2
表示超出此范围的原子。晶体图由标记为
0
或
1
的节点构成,
2
将被舍弃,同时原子间构建原子标签
1
→
0
的有向边。此外,通过将节点特征覆盖到其余对称图像,还可实现对分子晶体对称性和周期性的编码。
图
1
.
图
a) - c)
为
CSD
结构
NICOAM03
的三视图。灰色分子是标准构象,蓝色分子代表所有参与图卷积的对称构象。图
d)
为有向图的
Kamada Kawai
可视化结果。绿色节点对应于标准构象体的原子,而红色节点对应于规范构象体的对称相关图像的原子。绿色和红色连线分别对应于分子内和分子间节点的连接。
对于边的嵌入,作者测试了
SchNet
、
DimeNet
和
SphereNet
几种架构中的嵌入函数,最终选择了最稳定的
DimeNet
,使用含有
32
个基函数的贝塞尔公式,省略了角度信息。经过指定层数的图卷积和全连接后,作者并行使用了最大值、总和、平均值和自注意力(
SA
)等全局聚合器,将结果串联起来并通过一个全连接层,至此产生的特征向量包含模型从分子晶体图中学习到的特征。
晶体评分与密度预测具有良好的准确性与通用性
对于分子晶体的评分,作者使用的是
MolXtalNet-S
模型。从
CSD
中获取的晶体结构均为真实样本,此外作者使用了高斯晶体生成器与变形晶体生成器生成假样本,并在相同数量的真实样本和假样本中进行模型的训练。
在
图
2
中,作者展示了
MolXtalNet-S
模型的测试结果,训练和测试中的晶体的畸变程度设置为
。
图
3 a
)
中显示的分布表明,模型准确筛选出了高斯晶体生成器生成的几乎所有假样本,而变形晶体的平均评分值高于高斯晶体。
图
2
.
a)
,
b) CSD
测试数据集(真实样本)和假测试集(高斯晶体与变形晶体)的模型评分和
vdW
分数分布情况,垂直虚线为分布均值。
c)
显示了真实样本和假样本模型评分和
vdW
分数的二维分布情况。
对于分子晶体密度预测,作者选用了晶体堆积系数
作为密度预测指标,并使用
MolXtalNet-D
模型生成了预测结果(
图
3
)
。结果表明,模型对堆积系数和密度的预测值与真实值之间的平均绝对误差仅为
1.74%
,相关系数分别达到
0.853
和
0.992
,回归斜率分别达到
0.727
和
0.982
,同样准确地预测了分子晶体的密度。
图
3
.
堆积系数(无单位,左一列)和密度(
g/cm
3
,右一列)的预测值、真实值回归散点图和误差分布图。黑色对角线对应相关系数为
1
的完美拟合情况。
最后,为了检验模型的通用性,作者对模型性能与分子晶体中各种特征之间的相关性进行了检测。统计结果显示,两个模型与各项分子晶体特征之间都只有较弱的相关性,这说明模型对不同分子的通用性非常好。此外作者还发现
MolXtalNet-D
模型的损失与堆积系数有较强的负相关关系,表明该模型在致密晶体上具有更优越的性能。
小结
本文报道了一种基于几何深度学习方法的分子晶体结构预测模型
MolXtalNet
,其中包括晶体评分模型
MolXtalNet-S
和晶体密度预测模型
MolXtalNet-D
,其核心是采用全分子尺度的特征而不是每个原子的位置信息作为输入。
MolXtalNet
模型集快速、高质量和广泛的适用性于一身,克服了目前分子晶体结构预测方法耗时且昂贵以及通用性较差的缺点,为分子晶体结构预测提供了有力的新工具。
参考文献
【
1
】
Kilgour, M.; Rogal, J.; Tuckerman, M*. Geometric Deep Learning for Molecular Crystal Structure Prediction.
J. Chem. Theory Comput.
2023
, 19 (14), 4743–4756.
Python社区是高质量的Python/Django开发社区
本文地址:
http://www.python88.com/topic/160635
249 次点击
登录后回复