Py学习  »  机器学习算法

如何利用机器学习筛选高热稳定性的酶突变体

生信人 • 2 年前 • 372 次点击  
这篇文章发表在Scientific reports上,题目是:Enhancement of protein thermostability by three consecutive mutations using loop-walking methods and machine learning

Loop-walking是Kazunori Yoshida等研究者开发出来用于提高蛋白热稳定性的方法。伯克氏菌脂酶(LPS)包含12个loop区,经过随机突变生成12个突变库。经过筛选发现L7是影响热稳定性的热点区域,P233G/L234E/V235M是在L7文库的214个变异体中发现。P233X/L234X/V235X,三位点组合突变有8000种,全部检测是比较困难。因此利用机器学习,在214个突变体的热稳定性数据基础上,建立了预测热稳定性的计算判别模型。从三位点的7786个组合中,选择了20个候选突变体进行检测。得到P233D/L234P/V235S突变体在60℃热处理后仍保持66%的活性,高于野生型酶(5%)和P233G/L234E/V235M突变体(35%)。

1.用loop-walking方法研究三位点突变体
图1 (a)脂酶(LPS)前后视图,(b) 热稳定性增强的突变体

图2 突变体象限分类:未热处理的相对活性(横轴)和60℃热处理30min后的相对残基活性(纵轴)与野生型酶(蓝色方框)比较

脂肪酶的晶体结构(PDB:1OIL)如图1所示,选择了12个loop区,在连续的三位点引入随机突变,形成12个突变体库。突变体的相对活性和残基活性与野生型酶进行比较,采用象限进行可视化分析。热稳定性较好的突变体出现在第一和第二象限,热稳定性差的突变体出现在第三和第四象限。第一象限和第二象限之间或第三象限和第四象限之间的差异是未经热处理的酶活性的差异。因此,具有更好的活性和热稳定性的突变体将出现在第一象限。

图3是对12个变体库结果的分析。图3g 表明许多在L7区域形成的突变体主要出现在第一或第二象限。突变体P233G/L234E/V235M(GEM)和P233H/L234V/V235H(HVH)的活性是野生型酶残基活性的11倍和12倍。所有剩下的突变体文库都在第三和第四象限中拥有最多的数据。有趣的是,尽管L2和L5区域的B因子很高,但在L2和L5文库中没有获得阳性变异(图3b,e)。
我们对GEM和HVH突变体进行更详细的比较,得到GEM突变体是性能最好的。

图3 各环区随机突变12个文库的热力学稳定图:(a) L1, (b) L2, (c) L3, (d) L4, (e) L5, (f) L6, (g) L7, (h) L8, (i) L9, (j) L10, (k) L11, (I) L12。横轴:未热处理的相对活性,纵轴:60℃热处理30min后的相对残基活性,蓝色为野生型酶活。

2.三位点突变的协同效应
对残基(P233,L234,V235)构建新的单位点饱和突变文库,测定酶活和热处理后的残基活性(图4所示)。几个单突变体(P233D/G/S/W、L234C/F/W/Y、V235C/F/G/I/K/N/R/S/T/W/Y)热稳定性(残基活性)提高,同时P233D/G/S、L234F/Y和V235F/G/K/N/R/T/W/Y突变体提高了酶活。但这些单一突变体的活性和耐高温性均不如最佳的三位点组合突变体,说明三位点的连续突变具有协同作用(图3g,图4所示)。然而,GEM、HVH突变体的高热稳定性难以用图4 解释。显然,三位点突变对热稳定性的影响远远大于单个突变效应的总和。同样,L10文库中最佳突变体GLF也证明三位点突变的协同效应大于单位点突变效应。

图4 (a) P233X, (b) L234X, (c) V235X单突变体的热稳定性图,横轴是未热处理的相对活性,纵轴是60℃热处理30min后的相对残基活性。蓝色方框表示野生型,粉红色三角形表示热稳定性提高的突变体,绿色圆形表示热稳定性降低的突变体。

3.利用机器学习预测期望突变体
通过从L7中筛选出214个变体,因此L7被确认为热点环,我们期望通过对8000个变体进行综合检验,发现一个活性和耐高温性更好的变体。为了加快我们的探索,我们决定使用机器学习(多元分析)学习214个变异数据。每个位置的氨基酸残基分别转换为13个理化参数作为解释,并以热稳定性作为客观变量进行进行分析。在构建模型的步骤中,将总数据分为“改进”和“未改进”两类,构建了减少非有效组合的判别模型。由于模型精度的提高,在8000个组合中剩余的候选组合中,有7786个氨基酸组合被评估。为了选择更可靠的组合,我们构建了能区分“高热稳定性”和“中等热稳定性”的第二判别模型(模型精度为85.5%)。

4.实验验证预测模型
为了确认预测候选组合的热稳定性,我们实验了40个突变体:20个预测为“高热稳定性”(高20突变体),20个预测为“中等热稳定性”(中20突变体)(图5所示)。实验结果表明,高20突变体的耐热性均高于野生型酶,其中部分突变体的耐热性高于1000%,命中率为70%(20个中有14个)(图5a所示)。两个顶级突变体P233D/L234G/V235G(DGS)和P233D/L234P/V235S(DPS)(相对残基活性:1500%)明显优于GEM突变体(相对残基活性:1100%)。代表性数据如表1所示。图5b所示,尽管中20突变体比野生型酶表现出更高的热稳定性,但改良水平适中(<1000%)。结果证明我们的模型是可靠的,成功地提取出热稳定性高的突变体。

图5 (a) 高20突变体和 (b) 中20突变体的热稳定性图。

表1 酶活和残基活性的原始数据
Lipase
Enzymatic activity without heat treatment(U/mL)
Residual activity after heat treatment at 60℃ for 30 min(U/mL)
Wild-type
1000
52(5%)
P233G/L234E/V235M
1580
560(35%)
P233D/L234G/V235G
1350
800(59%)
P233D/L234P/V235S
1220
800(66%)

表2 在模型显示高/中热稳定性突变体的物化参数的权重,正值表示参数贡献为“高热稳定性”,负值为参数贡献为“中等热稳定性”
Physicochemical parameter
Weight in the model
233
234
235
Isoelectric point
-0.27
-0.002
0
Normalized van der Waals volume
-0.102
0
0
Alpha-helix indices for beta-proteins
0
0
0
Beta-strand indices for beta-proteins
-0.066
0
-0.100
Side-chain contribution to protein stability
-0.348
0
0
Te stability scale from knowledge-based atom–atom potential
0
0
-0.219
Hydropathy index
0
0
-0.027
Normalized frequency of turn
0.023
0
0
Free energy in beta-strand region
-0.196
0.047
0.043
Free energy in alpha-helical region
0
0
0
Polarity
0.129
-0.041
0
Side chain interaction parameter
0
0.084
0
Amino acid distribution
0
0.013
0

5.寻找L7区域的规则
寻找蛋白质热稳定性的规律具有重要的意义。仔细检查预测的氨基酸组合(图5a)和预测高/中改良的权重参数(表2),我们可以发现氨基酸组合的规律。第233号位置权重最大,影响最大。第234号位置影响较小,显示出较小的权重值。234号和235号的Pro和Gly残基可能对热稳定性有积极的影响,总的来说,排名前两的突变体P233D/L234G/V235G和P233D/L234P/V235S,符合上述规定。

令人奇怪的是P233D/L234P/V235S突变体的热稳定性最强,因为L234P单突变体的热稳定性没有增强(图4b, 残基活性34%)。这一事实支持三位点组合突变的协同效应,这是loop-walking方法相对于传统随机突变的最重要的优势之一。

为了从分子角度解释氨基酸取代所引起的耐热性增强的原因,我们构建了突变体的三维结构(图6所示)。野生型酶和P233G/L234E/V235M突变体,在233和235残基主酰胺基团之间有一个氢键(图6a,b),P233D/L234P/V235S突变体在Asp233的蛋白质主链C=O基团与Ser235的侧链OH基团之间,以及232和235残基的主链酰胺基团之间存在氢键,同时保留了Ile232、Asp236和Ala238之间的氢键网络(图6c)。这些相互作用可能使loop区固定,有助于整个蛋白质的高热稳定性。

图6 L7区域 (a) 野生型酶(PDB:1OIL)、(b) P233G/L234E/V235M、(c) P233D/L234P/V235S

结论:
开发了loop-walking方法来提高蛋白质的热稳定性,在每个loop的三个连续氨基酸残基中引入随机突变,寻找具有高热稳定性的突变体。利用该方法提高了脂肪酶的热稳定性。更重要的是我们证明了三个位点连续突变对突变体热稳定性的协同效应。利用机器学习建立预测模型,从模型预测的每个氨基酸加权参数中研究物理化学规律,找到热稳定性改善的规律。结合机器学习的loop-walking方法是一种很有力的方法,有助于未来各种生物催化剂的优化和筛选。

这篇文献是用R写的代码,没有给出源代码,但是和大家一起分享这篇文献的原因是它的研究思路:先对12个loop区做三位点连续突变,筛选出L7热点loop区;再对L7三个位置进行单位点饱和突变,筛选出单位点突变对应的高活性和耐高温的突变体;利用机器学习进行三位点连续突变,筛选期望的突变体;三位点连续突变和单位点突变的最优突变体进行比较,说明三位点连续突变具有协同效应,从分子角度阐释了协同效应的机理,是一篇很好文献。希望对大家也能有帮助!

有生信相关问题联系:18501230653
欢迎关注生信人
转录组甲基化 | 重测序 | 单细胞 | m6A|多组学 
 cytoscape | limma | WGCNA |水熊虫传奇|linux
电泳 | PCR | 测序简史 | 核型 | NIPT | 基础实验 
基因2019-nCoV | 富集分析 | 联合分析 |微环境 
瘟疫追凶思路汇总 学者 科研 | 撤稿读博|工作
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/115554
 
372 次点击