——背景——
通过选择合适的氨基酸序列来满足我们事先指定的蛋白质骨架结构称为蛋白质设计--即蛋白质折叠的反问题。计算蛋白设计可以探索到更大的构象空间并有助于发现新的蛋白质折叠拓扑结构。这对于蛋白质工程化问题已经产生了非常重大的影响,成功的例子已用于疾病治疗,生物传感和酶活等等。
现存的结构相似性和序列一致性的数量表明对于给定的骨架,理论上有很多可满足折叠的序列。这些序列通过突变进化很大程度上保持结构相似,以使得功能能够保持。通过计算的方法能够发现更多样性的序列来匹配已给到的骨架。目前最先进的基于能量函数并实验验证过的计算方法包括RosettaDesign,但是会发现这种很容易陷入局部势井,会生成高度相似的序列,这不利于序列多样性的产生。来自Stanford大学的Huang教授课题组在biorxiv发表了protein sequence design with alearned potential。该深度学习方法的残基类型准确率达到57.2%,远超过了其他的方法,并且他们还做了一系列的结晶实验,其结果与他们设计出来的蛋白3D结构高度一致。
——方法——
作者用了一个3DCNN的条件模型来对目标残基周围原子环境信息进行编码预测,并基于该残基进一步预测侧链rotamer的X1-4角(具体做法是先将角度按7.5°一个bin进行分割,先预测离散的区间分类,随后从预测所属的区间分布均匀采样来获取具体的X角)。

图1 算法流程图
具体的公式见以下,其中X是骨架,Y是序列,env包含骨架和上一步预测出来的残基类型和侧链构象。


然后有一个伪似然的评价指标,PLL

在利用模拟退火采样的时候,作者还用到了Rosetta中其他几个常用的指标:
packstat,即堆叠密度,衡量内部疏水核心区域的堆叠紧密程度。
Exposedhydrophobics,表面暴露的疏水基团越多可能会使设计的蛋白发生聚集。
埋藏在内部的不饱和的极性主链基团和侧链基团。
作者挑选了几个经典的fold,αβαβα,all α,βαβαβ,all β以及TIM barrel.然后作者将设计的几个序列做了结构预测进一步验证,发现结果也很一致。

图二 设计的结构与结构预测结果
目前,该程序已开源,是基于pytorch和pyrosetta写的,大家可自行下载使用。
参考文献:
Anand-Achim, Namrata, et al. "Protein sequence design with a learned potential." Biorxiv (2021):2020-01.
点击左下角的"阅读原文"即可查看原文章。
作者:刘佳乐
审稿:顾仲晖
编辑:由瀚天
GoDesign
ID:Molecular_Design_Lab
( 扫描下方二维码可以订阅哦!)

本文为GoDesign原创编译,如需转载,请在公众号后台留言。