北京化工大学张桂敏教授团队和澳大利亚蒙纳士大学宋江宁教授团队的文章HPClas: A data‐driven approach for identifying halophilic proteins based on catBoost已在mLife网站正式上线。该研究基于进化的方法从嗜盐菌分泌蛋白收集到了大量的嗜盐蛋白,并通过手动提取序列特征,通过catBoost在嗜盐蛋白数据集上进行了训练,开发了一个能够准确识别嗜盐蛋白的预测模型,并在独立测试集上实现了84.5%准确性,最后还对模型进行了可解释性分析,其结果与现在的一些嗜盐蛋白特征研究相吻合,进一步增强了模型的可信度。模型构建的数据集和源代码已上传至网站https://github.com/Showmake2/HPClas。
嗜盐蛋白具有独特的结构特性,在极端条件下表现出高稳定性,这使得它们在生物能源、制药、环境清洁等领域具有重要应用价值。目前,嗜盐蛋白的发现和表征主要依赖于耗时且劳动密集型的湿实验。为了提高效率,需要开发计算方法来筛选嗜盐蛋白,但现有方法存在数据稀缺和性能泛化问题,且缺乏用户友好的软件或网站。 该研究开发了一种名为HPClas(Halophilic Protein Classifier)的机器学习分类器(图1),使用catBoost集成学习技术来识别嗜盐蛋白,以氨基酸序列作为输入,输出嗜盐蛋白的概率。该研究利用嗜盐菌分泌的蛋白在长期进化过程中演变为嗜盐蛋白这一特性,预测了嗜盐微生物分泌的蛋白质,并进行数据清洗获得训练集。从UniProtKB中获取了独立测试集,确保测试集与训练集之间存在显著的分布差异。然后使用了9种特征描述符对蛋白质序列进行编码,并使用MinMaxScaler方法对特征值进行归一化处理。通过特征选择方法(如卡方检验、L1基特征选择、基于树的特征选择和方差阈值特征选择)进一步优化了catBoost模型的性能。HPClas在独立测试集上实现了0.844的AUROC,预测准确性优于现有的通用预测工具,如BLAST和HMMER。最后在16种实验验证的嗜盐酶上进行了验证,正确预测了13种嗜盐蛋白,3种非嗜盐蛋白,证明了其在实际应用中的有效性。
引用本论文:Hu S, Wang X, Wang Z, Jiang M, Wang S, Wang W, et al. HPClas: a data‐driven approach for identifying halophilic proteins based on catBoost. mLife. 2024.