西湖大学李文彬教授AS：深度学习助力十万亿空间内自组装多肽的有效识别和设计

创新点：西湖大学李文彬实验室和合作者采用基于Transformer的深度学习模型，突破了自组装多肽在十肽完备序列空间内全面搜索和设计的难题。研究人员成功揭示了自组装多肽的设计规律，并首次提出了通过联结或混合不同多肽系统生成自组装肽的有效途径，为生物和医学相关的基础研究和应用提供了新的启示。

关键词：分子动力学, Transformer, 自组装多肽，十万亿序列

图1：多肽采样及建模®分子动力学模拟®机器学习®实验验证，助力十万亿空间内自组装多肽的有效识别和设计

自组装多肽是一种具有广泛生物和医学应用潜力的重要材料。然而，由于多肽的序列空间庞大，目前的设计方法，如实验方法及计算机模拟等因耗时、具有偏向性、成本高昂等缺陷而逐渐失去有效性，致使自组装多肽的发现与设计一直局限于六肽完备空间以内。近年来，人工智能技术的发展为自组装多肽的研究提供了全新的可能性。

图2. 耦合粗粒化分子动力学(CGMD)-深度学习方法的工作流程，用于有效发现自组装多肽。(a)具有β链和α螺旋构象的全原子(AA)模型，以及具有α螺旋构象的粗粒度(CG)模型，例如五肽PYYAL；(b) 通过125ns的CGMD生成聚集倾向值(AP)作为训练数据。AP定义为 CGMD开始时和结束时的可接触表面积之比(=SASA_initial/SASA_final)；(c)基于Transformer的回归网络架构，由Transformer编码器和多层感知解码器两部分组成，分别用于提取序列信息和预测AP。

最近，西湖大学李文彬教授团队和合作者的最新研究表明，基于Transformer架构的深度学习模型能够高效预测十万亿空间内多肽（五肽至十肽）的聚集倾向值（即AP值，模拟开始时系统的表面积与结束时表面积的比值），其决定系数R²高达92%以上。研究人员首先在十肽完备序列空间内进行拉丁超立方采样，生成训练数据集中约54000个多肽序列。之后，通过粗粒化分子动力学模拟，生成样本多肽的AP。基于生成的约54000个多肽序列与AP的对应关系，进行Transformer深度学习模型的训练。此模型可准确预测五肽至十肽全尺度空间内十万亿多序列的AP值。Transformer深度学习模型通过自我注意力机制提取序列结构，并利用多层感知器进行AP值的准确预测。在本研究中，通过与传统的机器学习算法（如支持向量机，随机森林，贝叶斯岭等）对比发现，基于Transformer的深度学习模型在预测准确性和泛化能力上表现出更优异的性能。

图3. 深度学习和非深度学习模型的性能比较。(a) 基于Transformer, 使用 1000、5000 和 8000 个数据训练的深度学习模型以及使用 54000 个数据训练的组合模型的性能；(b) 非深度学习模型：支持向量机(SVM)、随机森林(RF)、最近邻(NN)、贝叶斯岭(BR)以及线性回归(LR)和深度学习 Transformer 模型的性能比较；(c) CGMD模拟的AP(AP_sim)值和预测的AP(AP_prd)值的比较，以及AP_sim和已报导的AP(AP_rep)的比较；(d) AP_prd和AP_sim之间的相关性和误差比率。AP_prd 由使用 8000 个五肽、十肽和混合五肽数据训练的 Transformer 模型预测，以及由使用 54000 个数据进行训练的Transformer组合模型预测。

通过预测的AP值，并耦合多肽亲疏水性能及改进的打分函数，研究团队推导出了不同氨基酸在促进自组装方面的规律，例如当芳香氨基酸和疏水侧链氨基酸分别在肽链中部及两端的位置时能够更有效地促进自组装。本研究提出，芳香氨基酸的苯环处在中间位置时拥有更多的相互作用自由度，而疏水侧链氨基酸处在两端时会产生更强的疏水效应，使得它们在自组装过程中能够形成稳定的相互作用并促进肽链的聚集和自组装行为。

图4. 五肽的聚集规律。(a) 五肽完备序列空间（即320万五肽）中亲疏水性logP'和AP_prd'之间的关系。AP_prd'分为低A、中B、中高C和高D四个范围，即A=AP_prd'Î[0.00，0.25)， B= AP_prd'Î[0.25，0.50)，C=AP_prd'Î[0.50，0.75)和D=AP_prd'Î[0.75，1.00]。蓝色到黄色的颜色表示多肽的数量密度；(b, c) AP_prd'和logP'在AP_prd'的四个范围内的小提琴分布；(d) 在四个AP_prd'范围内五个位置上相加的氨基酸的百分比，数字1-5代表分类组号。

此外，研究团队通过计算模拟和实验验证发现，通过联结或混合不同的多肽序列，可以形成具有更高自组装倾向性的多肽系统。例如，五肽系统NRMMR和DMGID并不能形成聚集体，但联结后的十肽系统NRMMRDMGID以及混合后的五肽系统NRMMR+DMGID却可以形成囊泡组装体及无定形聚集体。此项结果证明了库伦相互作用及肽链长度等因素能够显著改变多肽系统的自组装行为，为设计自组装系统提供了新的思路和可能性。

图5. 五肽、十肽和混合五肽的计算和实验形貌。(a) 五肽NRMMR、DMGID（模拟了1.25 μs）、十肽NRMMRDMGID（模拟了6.25 μs）以及NRMMR+DMGID混合五肽系统（模拟了1.25 μs）的计算形貌；(b) 透射电镜图像，附有五肽NRMMR、DMGID、十肽NRMMRDMGID以及NRMMR+DMGID在水溶剂中的混合五肽系统的照片。每种肽的浓度为25毫摩尔/升。

此项研究采用Transformer模型，将多肽的自组装倾向性预测拓展至含有十万亿多序列的十肽完备空间，可以避免传统方法中大量耗时和昂贵的粗粒化分子动力学模拟，提高了预测的效率和可行性，对于加速自组装多肽的发现和设计具有重要意义，推动开发多肽作为结构和功能元素的生物和医学应用。未来，这一深度学习方法有望推动自组装多肽领域的进一步发展，为生物和医学领域的应用提供更多可能性（例如柔性多肽导体，多肽抗生素等）。

此项研究得到了西湖大学未来产业研究中心，国家自然科学基金，以及国家科技部的基金支持。西湖大学助理研究员汪嘉琪，博士研究生刘子寒，科研助理赵爽，博士后徐腾焱为本文的共同第一作者，李文彬教授、李子青教授和王怀民教授为该论文的共同通讯作者。

WILEY

论文信息：

Deep Learning Empowers the Discovery of Self-Assembling Peptides with Over 10 Trillion Sequences

Jiaqi Wang, Zihan Liu, Shuang Zhao, Tengyan Xu, Huaimin Wang*, Stan Z. Li*, Wenbin Li*

Advanced Science

DOI: 10.1002/advs.202301544

点击左下角 “ 阅读原文 ” ，查看该论文原文。

Advanced

Science

期刊简介

Advanced Science 是Wiley旗下创刊于2014年的优质开源期刊，发表材料科学、物理化学、生物医药、工程等各领域的创新成果与前沿进展。期刊为致力于最大程度地向公众传播科研成果，所有文章均可免费获取。被Medline收录，PubMed可查。最新影响因子为17.521，中科院2021年SCI期刊分区材料科学大类Q1区、工程技术大类Q1区。

AdvancedScienceNews

Wiley旗下科研资讯官方微信平台

长按二维码关注我们

分享前沿资讯｜聚焦科研动态

发表科研新闻或申请信息分享，请联系：ASNChina@Wiley.com