大家可能都知道,地球上每个生命体的一切生命活动,都依赖于由无数蛋白质构成的“分子机器”的协同运作。这些蛋白质承担着多种关键功能,例如物质运输、信号转导、发光以及高效催化反应。长期以来,人们一直致力于通过工程化手段对蛋白质进行改造,以提升其性能。然而,基于结构的序列设计模型虽能提高蛋白质的稳定性,但往往会牺牲其催化活性;部分AI模型虽能在一定程度上捕捉蛋白质进化规律,但其设计蛋白的性能通常不及天然同源蛋白;而传统的定点突变与迭代优化方法则类似于调试精密仪器,每次改变都需进行实验验证,往往需要经历数轮循环,耗时长且成本高。因此,蛋白改造的一个核心问题便是:能否通过单次设计即可获得兼具高稳定性与高催化活性的蛋白质变体,并能够直接应用于实际生产场景?
2025年10月10日,北京大学来鲁华教授团队在美国国家科学院院刊(PNAS)上发表了最新研究成果,提出了一种全新的蛋白质功能设计深度学习模型——GeoEvoBuilder。它相当于一位“懂结构、也懂进化”的AI设计师,能帮我们在短时间内设计出更高性能的蛋白质变体。
GeoEvoBuilder基于团队之前所发展的基于蛋白质三维结构的序列设计模型GeoSeqBuilder和蛋白质大语言模型ESM2,应用“逐步掩码”的优化策略,让模型能够兼顾蛋白的稳定性和特定功能(图1)。该方法在谷胱甘肽过氧化物酶4(GPX4)和二氢叶酸还原酶(DHFR)的一轮设计中就获得了催化效率提高10–20倍及热稳定性提升约10℃的设计蛋白。在绿色荧光蛋白设计中得到了亮度是野生型的2.3倍的突变体。该方法一次设计可改变超过30%的氨基酸残基位点,却依然能获得高活性序列。这为蛋白质工程应用特别是工业酶改造、生物制造等领域打开了更高效的设计通道,也为蛋白质的序列、结构与功能和进化关系的研究提供了宝贵素材。目前,GeoEvoBuilder已开源,业界和学界的研究者都可以直接使用。
GeoEvoBuilder:
https://github.com/PKUliujl/GeoEvoBuilder
图1 GeoEvoBuilder算法框架和序列设计流程.(a)模型框架;(b)计算过滤指标;(c)对所设计的序列开展多种功能实验表征
研究团队首先对GeoEvoBuilder的“序列恢复率”进行了系统评估(图2),发现其在测试数据集上的序列整体恢复率达到了57%,比此前的GeoSeqBuilder提升了5个百分点。与此同时,模型还能很好地恢复出参与酶催化的关键氨基酸位点(如Cys、His)。当起始序列的随机遮盖比例超过50%时,ESM2的性能明显下降,生成序列与原生序列的相似度显著降低,这可能是因为ESM2并不是专为无条件序列生成设计的。而GeoEvoBuilder由于有结构模块GeoSeqBuilder作为“导航系统”,能够始终生成与目标结构高度匹配的序列,其ESM2模块则又保障了所设计蛋白的功能。
图2 序列恢复率结果。(a)混淆矩阵;(b)残基分布及比较;(c)loop区域预测精度;(d)埋藏区域预测精度;不同起始条件下GeoEvoBuilder的序列恢复率(e)和ESM2的序列恢复率(f).
接下来,研究团队以TEV蛋白酶(TEV Protease)为案例,深入分析了ESM2模块在蛋白质功能设计中的作用(图3)。结果表明,GeoEvoBuilder成功召回了该酶催化三联体中的全部关键残基,特别是至关重要的151位半胱氨酸(151C)。而基于结构的蛋白质序列设计模型GeoSeqBuilder和ProteinMPNN均未能设计出151位半胱氨酸(151C)。为了更深入理解GeoEvoBuilder的设计逻辑,团队通过追踪模型序列设计的迭代过程,发现:
在初步迭代阶段,模型首先构建了正确的整体蛋白质结构框架
随着设计过程的推进,功能位点151C才逐步被“生成”出来。
这说明,GeoEvoBuilder的设计思路呈现出明显的“结构优先—功能优化”模式,即:
先确保序列能够稳定折叠成正确的三维结构;
再在此基础上优化出精确的功能位点。
这一过程表明在蛋白质分子进化过程中功能的出现可能会建立在稳定的结构之上。该分析不仅揭示了GeoEvoBuilder的设计机制,也为理解蛋白质序列—结构—功能的演化关系提供了新视角。
图3 GeoEvoBuilder学到了恢复功能位点的能力。(a)TEV蛋白酶的催化位点;(b)GeoEvoBuilder能在最终序列中成功恢复催化残基151C,而GeoSeqBuilder和ProteinMPNN未能做到;(c)与(d)分别展示在50%天然序列被掩蔽和随机初始化条件下,GeoEvoBuilder恢复151C的过程。(e)中分别给出了(c)和(d)对应中间序列预测结构的TM-score变化。
接下来,研究团队对于3个目标蛋白进行了序列设计和实验验证。为降低设计的功能风险,团队采取了保守性设计策略:保留发色团或底物结合口袋7Å范围内的关键残基,仅在远端位点进行重新设计,从而实现精准的功能调控。所有候选序列经结构预测质量评估筛选,选出评分最高的约20条序列进行实验验证。
针对绿色荧光蛋白GFP,团队设计了22条序列。经测试,其中有20条可以可溶性表达,17条具有显著荧光活性(图4)。其中,突变体1GFL-15性能最亮眼:最大激发波长红移70nm,有效避开了对细胞损伤较大的UV-A波段(320-400nm)以及背景干扰较强的区域。在470nm激发光下,1GFL-15的荧光强度达到野生型的2.3倍;同时,其热稳定性(Tm值)较野生型提高了近2℃。通过团队所解析的高分辨率晶体结构可以看出,尽管发色团周围残基保持固定,但设计蛋白中发色团微环境构象发生了明显调整。这可能是由远端突变引起的别构效应所致。值得注意的是,这些成功设计的功能序列与野生型GFP的序列一致性最低仅为67.37%(突变残基数达到75个),表明GeoEvoBuilder在保持功能前提下的强大序列创新能力和容忍度。
图4 基于靶标GFP设计序列的实验结果。(a)活E.coli的荧光图像;(b)通过荧光变化测定设计蛋白与野生型GFP的热稳定性;(c)在470nm激发下,比较设计蛋白与野生型GFP的荧光强度;(d)、(e)从左到右依次为:设计蛋白与野生型GFP晶体结构的叠合、发色团的微环境细节图以及突变分布情况;(f)设计序列的系统进化树分析;(g)与野生型差异较大的多个设计序列的序列多样性矩阵。
针对谷胱甘肽过氧化物酶4(GPX4),研究团队设计了19条序列,通过目的蛋白过表达的菌液上清进行初步酶活筛选,发现其中7个突变体具有显著活性。接着团队对这7个蛋白做了进一步的分离纯化与性能表征(图5)。结果表明,这7个突变体均表现出优异的催化性能,其催化效率(kcat/Km)达到野生型GPX4的4-9倍。其中,突变体2OBI-10表现尤为突出,其催化效率较野生型提高了8倍,同时热稳定性提升了3℃。为阐明其分子机制,团队成功解析了三个高活性突变体的高分辨率晶体结构,并结合分子动力学模拟进行了深入分析,揭示了远端残基的突变可通过长程相互作用网络调控酶活的分子机制。
图5 基于靶标GPX4设计序列的实验结果。(a)用于序列设计的结构模板;(b)催化活性与Tm的关系;(c) 设计的活性蛋白与野生型的动力学参数;(d)、(e)、(f)为三种设计蛋白与野生型晶体结构的叠合图;(g) 野生型与三种设计蛋白核心区域的比较。
在针对二氢叶酸还原酶DHFR的设计中,研究团队设计了22条序列,并通过酶活预实验筛选鉴定出6个具有显著催化活性的突变体。随后研究者对这些高活性突变体进行了系统的催化活性表征(图6),发现其催化活性较野生型提高了1-21倍。其中,突变体3D80-15催化效率不仅达到野生型的21倍,同时热稳定性还提高了10℃。
图6 基于靶标DHFR设计序列的实验结果。(a)用于DHFR设计的结构模板;(b)设计蛋白的Tm(熔解温度)与催化活性分布;(c)设计蛋白与野生型DHFR的动力学参数。
针对这三种蛋白的系统验证表明,GeoEvoBuilder能够在不同类型功能蛋白的设计中,实现活性与稳定性同步提升,并具备高度的序列创新能力和结构容忍度。这意味着,该方法有潜力成为工业酶设计、荧光优化、结构功能机制研究等领域的通用工具。
本研究展示了零样本学习方法GeoEvoBuilder能够在单轮实验中显著提升蛋白的活性与热稳定性。GeoEvoBuilder拓展了传统定向进化难以覆盖的序列空间。其生成的新型序列既可作为进一步进化的起点,也可作为多位点组合突变的来源,为在蛋白质工程中获得更优性能奠定了基础。
研究团队还考虑到同源序列数量较少的蛋白在统一训练的蛋白质大语言模型中关键信息可能被“稀释”的问题,尝试引入靶标特异性的多序列比对(MSA)信息,开发了GeoEvoBuilder-MSA,以弥补稀有家族的功能信息缺口。计算结果显示:GeoEvoBuilder-MSA的序列恢复一致性达64%,比原版GeoEvoBuilder高7个百分点。但利用该模型对GPX4进行序列设计后发现:虽然设计的7条序列中有4条表现出明显催化活性,但催化性能的提升远低于原版GeoEvoBuilder,且热稳定性均没有超过野生型GPX4。这表明:过度依赖MSA信息会缩小序列探索的空间,让模型变得过于保守。
在靶标实验验证中,GeoEvoBuilder并没有事先剔除与测试靶标高度同源的序列进行再训练。为了确认模型性能不是来源于“记忆训练集”,团队做了序列比对分析,发现:设计序列的突变位点残基类型与训练集中高同源序列差异显著,排除了简单记忆的可能性;这些高同源序列的功能优化主要集中在底物结合口袋或发色团附近,而GeoEvoBuilder的改进来自远端残基调控。进一步地,团队剔除了训练集中与测试靶标相似度>40%的序列,重新训练得到GeoEvoBuilder40。计算评估结果表明,GeoEvoBuilder40在三个靶标上的计算恢复率与GeoEvoBuilder几乎一致。随后研究团队利用GeoEvoBuilder40为靶标GPX4设计了6条序列,并进行实验验证。这6条经过实验验证的序列全部具有显著活性,这些新序列的催化效率和/或热稳定性相比原版设计还有所提升(图7)。这些研究结果表明,ESM2能够提供丰富的功能信息,而采用高度同源序列和多序列比对信息(基于多序列比对的GeoEvoBuilder-MSA方法)可能会无意中限制模型的探索能力。
总体而言,无论在设计过程中是否包含高同源序列,GeoEvoBuilder和GeoEvoBuilder40都能生成功能更优的蛋白质变体。这种灵活性显著提升了GeoEvoBuilder在不同应用场景中的适用性。尤为重要的是,当训练集中存在同源序列时,用户无需对设计目标进行重新训练即可直接使用,极大地方便了操作流程。
图7 基于GPX4的序列设计实验结果比较分析
该研究开发的统一深度学习模型GeoEvoBuilder,在生成目标蛋白质的高活性与高稳定性序列方面展现出卓越性能。作为零样本学习模型,它仅需一次设计和实验即可完成,大幅降低实验投入,显著提升研究效率。除了在蛋白质工程领域的直接应用外,GeoEvoBuilder还为深入理解蛋白质序列、结构与功能之间的复杂关系以及进化机制提供了强有力的研究工具。
北大-清华生命科学联合中心2025届已毕业博士生刘佳乐(现中国药科大学教师),北京大学化学与分子工程学院博士后由瀚天、北大-清华生命科学联合中心博士生郭政为该论文的共同第一作者。上海同步辐射光源徐琴博士为本研究做出了重要贡献。北京大学化学与分子工程学院来鲁华教授和张长胜副研究员为本论文的共同通讯作者。来鲁华教授为北大-清华生命科学联合中心和定量生物学中心成员以及北京大学成都前沿生物技术研究院实验室负责人。本研究得到了国家重点研发计划和国家自然科学基金项目以及北京大学高性能计算平台的支持。
参考资料:
Jiale, Liu, et al. "GeoEvoBuilder: A deep learning framework for efficient functional and thermostable protein design" Proceedings of the National Academy of Sciences 122.41 (2025): e2504117122.
https://doi.org/10.1073/pnas.2504117122
感兴趣的读者,可以添加小邦微信加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位
或姓名-学校-职务/研究方向。