社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

北大团队开发新一代开源分子模拟软件SPONGE,实现深度学习与分子模拟高效融合,极大提高模拟效率和准确度

DeepTech深科技 • 1 年前 • 205 次点击  


“实际上,我们人类所处的世界是一个由分子组成的世界。要了解这个客观物质世界,就要先弄清楚分子的性质,比如分子组成、结构和运动特征等。”近日,在未来论坛主办的 2022《理解未来》科学讲座 02 期——“AI + 分子模拟与药物研发”活动期间,北京大学化学与分子工程学院教授、北京大学理学部副主任高毅勤如是说。


图 | 高毅勤(来源:资料图)


在研究与分子结构及运动相关的各种物理、化学性质时,一般需要用到分子模拟。其中,蒙特卡洛方法和分子动力学是两种主要的模拟方法,它们可用来模拟分子本身发生的结构和化学变化、以及探索分子的热力学与动力学性质等。目前,分子模拟已在多个学科领域得到广泛应用。


比如,在生物医药领域,研究者可以借助分子模拟来研究药物分子和蛋白质的相互作用,这有利于设计更好的小分子,通过提高它的靶向性和结合能力,来进一步优化药物分子。在材料领域,通过分子模拟,则可让人认识到电池的分子结构与分子运动情况,加速完成电池材料或高分子材料的改造和设计。

近年来,随着人工智能的深入发展,人们发现将人工智能算法与科学计算协同起来,即可形成闭环的研究模式,从而加快推进相关领域的革新。


SPONGE:高效融合分子模拟与深度学习,提升模拟效率和准确度

为了实现深度学习与分子模拟的高效融合,高毅勤课题组开发了新一代具有自主知识产权的开源分子模拟软件 SPONGE(Simulation Package tOward Next GEneration molecular modeling)。在此基础上,还与华为昇思 MindSpore 团队合作,将 SPONGE 植入华为自研的开源 AI 框架 MindSopre 中,让该框架得以同时具备 AI 能力和传统分子模拟能力。


图|SPONGE 软件架构图(来源:北京大学官网)

在 SPONGE 的研发中,该团队总结和参考了大量前人经验,因此包含了传统分子模拟软件的大多数常用功能,可以方便地完成初始结构和输入文件的准备和处理、进行分子结构优化、支持各种系综下的分子动力学模拟、以及计算分子体系的热力学和动力学性质等工作任务。

不过,SPONGE 采用新型计算模型,目前有两个相对独立的版本,一个接近于传统模型,另一个则与深度学习结合得较为紧密。同时,它基于模块化思想写就,将分子模拟中诸如运动方程演化、优化结构、控制温度/压强和增强取样等功能都做成了模块,这能帮助开发者根据需求组装出多种具有不同功能的模块。

高毅勤解释道:“它是一个组合相对自由的软件。比如,如果你感兴趣的是优化问题,可以直接调用优化模块;如果感兴趣的是复杂构象变化问题,可以调用增强取样模块。根据不同的计算要求,进行相对自由的组合,从而加速提高计算效率。”


图|SPONGE 模拟体系示例(来源:北京大学官网)

SPONGE 软件的优点主要体现在以下三方面。

第一,力场多样化。它既可以使用经典力场,又可以使用开发者自己开发的深度学习力场,还可以混合使用两种方法。

第二,SPONGE 采用高度融合的深度学习方法,既可以直接使用其中的张量算法来实现高通量计算、使用自动微分完成力的计算,也可以充分利用深度学习框架中的自动并行等先进的特性和技术。

第三,具有独特的处理静电相互作用的算法,能够准确地计算静电力。


图|SPONGE 区别于其它分子模拟软件的特性(来源:北京大学官网)

此外,在提高分析模拟的效率和准确度方面,融合进 SPONGE 的 AI 能力和深度学习能力功不可没。

首先,将深度学习里的强化学习和生成对抗学习这些方法和原理,应用到构象搜寻或化学反应途径搜寻当中,可以大大加速取样效率。

其次,运用深度学习方法,能够优化分子模型或力场,使其更加符合实验观察;也可以把那些差别较大、关联度较弱的性质组合到一起,推动计算的优化。

最后,借助深度学习,可利用量子化学计算的结果拟合出深度学习的力场,从而实现以较低计算代价和更高精度完成分子模拟的目标。

随着算力的逐渐强大,研究者需要使用大量实验数据来验证模型。在此过程中,用来训练和校准模型的数据库,可能会面临数据量不充足的问题。并且,由于分子模拟的应用场景较为广泛,针对不同的场景往往需要不同的数据,所以收集数据就变得十分困难。那么,该如何克服这一难题?

高毅勤提供了几个方法。他认为,科学计算本身就是为大规模的深度学习模型提供数据的。因此,若是生物医药应用领域、或电池材料应用领域缺乏标准化的可靠实验数据,可以借助量子化学计算或分子模拟等科学计算,来得到质量较高、同时也较为可靠的数据。这在有效补充实验数据的同时,也能促进深度模型自身的优化与应用。

不过,由于药物分子的构象空间非常大,目前已知的数据比较少,且很多数据没有出自同一个标准,因此会产生不同的表征形式。那么,当设计药物分子时,就会面临较多问题。在此情况下,如果借助相对高精度、且能快速完成高通量计算的分子模拟技术,能得到更多小分子和蛋白质结合的数据。那么,就可以给筛选药物分子、完成分子的生成式模型计算以及设计新的药物分子提供很大的帮助。


团队成员学科背景多样,研究计划丰富且颇具挑战性

据此,高毅勤目前就职于北京大学化学与分子工程学院。他和团队主要专注基础理论方面的研究,并在 DNA 和蛋白质结构形成的分子机理、分子模拟方法发展等方向取得了诸多前沿成果。

对于跨学科的研究,研究人员所具备的学科背景也是推动课题发展的一大助力。课题组的成员多数来自理论化学方向,也有不少来自生命科学、物理学、计算机和软件等方向。

未来,该团队将继续深化对 SPONGE 软件的开发和应用推广。从大方向看,不但会进一步发展完善适合的深度学习模型,实现分子模拟与深度学习更为深入的融合,还将更好地实现张量计算,希望在节约计算资源的同时,大大加速计算效率。

从具体的研究方向上看,他们将着重关注生物大分子结构预测,包括蛋白质复合物结构、蛋白质与 DNA 相互作用的结构以及蛋白质与小分子相互作用的结构等,并尝试设计具有特殊功能的蛋白质,有效搜寻蛋白质构象等。

高毅勤认为:“我们想努力做到每个阶段都比前一阶段有更高的精度、更快的速度、更低的算力要求和更广的使用范围。更重要的是,希望大家可以帮助我们一同完善做出来的工具,并期待更多人使用它来推进自己的工作。”

目前,除了完成 SPONGE 这个代表作以外,该团队还在其他领域开展了不少研究。比如,团队会利用 SPONGE 做一些化学反应方面的科学研究,也与其他课题组合作,不断释放 SPONGE 的潜力并推动其发展。

另外,他们还开展了一项与染色质结构相关的研究,尝试从染色质的三维结构出发,整合包括 DNA 甲基化与组蛋白修饰在内的表观遗传信息,试图构建一个从 DNA 到 RNA 再到蛋白质的多层调控网络,以便更好地理解包括发育、分化、疾病发生在内的各种生命过程。


支持:矽兮



Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/137266
 
205 次点击