基于深度学习的"软势能函数"用于蛋白质序列设计

——背景——

通过选择合适的氨基酸序列来满足我们事先指定的蛋白质骨架结构称为蛋白质设计--即蛋白质折叠的反问题。计算蛋白设计可以探索到更大的构象空间并有助于发现新的蛋白质折叠拓扑结构。这对于蛋白质工程化问题已经产生了非常重大的影响，成功的例子已用于疾病治疗，生物传感和酶活等等。

现存的结构相似性和序列一致性的数量表明对于给定的骨架，理论上有很多可满足折叠的序列。这些序列通过突变进化很大程度上保持结构相似，以使得功能能够保持。通过计算的方法能够发现更多样性的序列来匹配已给到的骨架。目前最先进的基于能量函数并实验验证过的计算方法包括RosettaDesign，但是会发现这种很容易陷入局部势井，会生成高度相似的序列，这不利于序列多样性的产生。来自Stanford大学的Huang教授课题组在biorxiv发表了protein sequence design with alearned potential。该深度学习方法的残基类型准确率达到57.2%，远超过了其他的方法，并且他们还做了一系列的结晶实验，其结果与他们设计出来的蛋白3D结构高度一致。

——方法——

作者用了一个3DCNN的条件模型来对目标残基周围原子环境信息进行编码预测，并基于该残基进一步预测侧链rotamer的X1-4角（具体做法是先将角度按7.5°一个bin进行分割，先预测离散的区间分类，随后从预测所属的区间分布均匀采样来获取具体的X角）。