社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

【期刊】一种基于机器学习算法挖掘嗜盐蛋白的方法HPClas

蔻享学术 • 9 月前 • 249 次点击  





北京化工大学张桂敏教授团队和澳大利亚蒙纳士大学宋江宁教授团队的文章HPClas: A data‐driven approach for identifying halophilic proteins based on catBoost已在mLife网站正式上线。该研究基于进化的方法从嗜盐菌分泌蛋白收集到了大量的嗜盐蛋白,并通过手动提取序列特征,通过catBoost在嗜盐蛋白数据集上进行了训练,开发了一个能够准确识别嗜盐蛋白的预测模型,并在独立测试集上实现了84.5%准确性,最后还对模型进行了可解释性分析,其结果与现在的一些嗜盐蛋白特征研究相吻合,进一步增强了模型的可信度。模型构建的数据集和源代码已上传至网站https://github.com/Showmake2/HPClas。



嗜盐蛋白具有独特的结构特性,在极端条件下表现出高稳定性,这使得它们在生物能源、制药、环境清洁等领域具有重要应用价值。目前,嗜盐蛋白的发现和表征主要依赖于耗时且劳动密集型的湿实验。为了提高效率,需要开发计算方法来筛选嗜盐蛋白,但现有方法存在数据稀缺和性能泛化问题,且缺乏用户友好的软件或网站。

该研究开发了一种名为HPClas(Halophilic Protein Classifier)的机器学习分类器(图1),使用catBoost集成学习技术来识别嗜盐蛋白,以氨基酸序列作为输入,输出嗜盐蛋白的概率。该研究利用嗜盐菌分泌的蛋白在长期进化过程中演变为嗜盐蛋白这一特性,预测了嗜盐微生物分泌的蛋白质,并进行数据清洗获得训练集。从UniProtKB中获取了独立测试集,确保测试集与训练集之间存在显著的分布差异。然后使用了9种特征描述符对蛋白质序列进行编码,并使用MinMaxScaler方法对特征值进行归一化处理。通过特征选择方法(如卡方检验、L1基特征选择、基于树的特征选择和方差阈值特征选择)进一步优化了catBoost模型的性能。HPClas在独立测试集上实现了0.844的AUROC,预测准确性优于现有的通用预测工具,如BLAST和HMMER。最后在16种实验验证的嗜盐酶上进行了验证,正确预测了13种嗜盐蛋白,3种非嗜盐蛋白,证明了其在实际应用中的有效性。

图1 嗜盐蛋白分类器的总体框架


他们希望未来能够获得更多的实验数据,特别是细胞内蛋白数据,在算法上,也期望使用更全面的算法,如图神经网络或预训练的大型语言模型,来提高嗜盐蛋白的设计任务,进一步提高该模型的实际应用价值。总之,该研究通过开发HPClas这一机器学习工具,显著提高了嗜盐蛋白的识别效率和准确性,并为未来研究和应用提供了新的方向和工具。


引用本论文:Hu S, Wang X, Wang Z, Jiang M, Wang S, Wang W, et al. HPClas: a data‐driven approach for identifying halophilic proteins based on catBoost. mLife. 2024.

原文链接:

https://doi.org/10.1002/mlf2.12125



第一作者

胡善桐   

作者单位:北京化工大学生命科学与技术学院

作者简介:

北京化工大学在读硕士研究生,主要研究生物信息学。


通讯作者

张桂敏   教授

者单位:北京化工大学

作者简介:

北京化工大学教授,博士,主要从事生物催化和生物传感研究,近 5 年以通讯作者在中国科学院二区及以上期刊发表SCI论文30篇。现任中国微生物学会酶工程专业委员会委员等,获霍英东青年教师奖,湖北省杰出青年基金,湖北省中青年突出贡献专家等。


通讯作者

宋江宁  教授 

作者单位:澳大利亚蒙纳士大学

作者简介:

澳大利亚蒙纳士大学教授,博士,主要从事人工智能驱动的生物信息和生物医学研究。2018 年以来,他的团队开发了超过 20 余个基于机器学习和深度学习的生物信息学分析工具包和软件,包括 iFeature、iLearn、iLearnPlus 和 iFeatureOmega,多篇重要成果发表在 Nature Methods、Nature Communications 、 Nucleic Acids Res 、 Cell Reports 、 PLoS Biology 、 Brief Bioinformatics和Bioinformatics等期刊。


声明:此文是出于传递更多信息之目的。 部分图片、资料来源于网络,版权归原作者所有,如有侵权请联系后台删除。

往期推荐:





【期刊】贵金属/分子筛类材料吸附/催化位点的分析及构建


【期刊】陆军军医大学邓君/罗高兴、浙大毛峥伟等综述:基于纳米材料的巨噬细胞代谢再利用及其应用


【期刊】阳离子增强凝胶聚合物电解质助力可逆低温锌离子电池


【期刊】基于微腔多边形模式的孤子微梳产生 | 华东师大与上海光机所联合团队


【期刊】微纳光纤触觉传感器和软体致动器研究进展 | 浙江大学张磊、童利民教授团队


点击“阅读原文

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/174208
 
249 次点击