空间蛋白质组学是研究蛋白质定位和动力学的跨学科领域。大多数的细胞生物学过程中涉及蛋白质亚细胞定位的变化,蛋白质的定位错误与细胞功能障碍紧密相关,因此研究蛋白质在亚细胞水平上的空间分布以及捕获蛋白质亚细胞动力学变化,对于全面理解细胞生物学至关重要。研究人员通过基于质谱(MS) 和基于成像的实验方法来获取大规模的空间蛋白质组学数据。为了能够可靠地分析日益复杂的空间蛋白质组学数据,机器学习 (machine learning) 已广泛用于基于 MS 和基于成像的空间蛋白质组学数据分析。作者详尽描述了机器学习在空间蛋白质组学中的应用现状,为寻求应用机器学习方法分析空间蛋白质组学数据的研究人员提供了方向,相关工作以“Application of
Machine Learning in Spatial Proteomics”为题发表在美国化学会出版的Journal of
Chemical Information and Modeling期刊上 (J. Chem. Inf. Model.,2022, 62 (23):
5875-5895)【1】。
作者首先详细介绍了空间蛋白质组学中的数据采集方式及其原理。并根据不同的数据采集方式,介绍了不同的数据储存库。随后,作者简单的介绍了基于MS和基于成像这两类数据库所能提供的信息以及应用场景,并强调了空间蛋白质组学中大型数据库的原始数据的可访问性以及可重复性对于机器学习研究的重要性。作为空间蛋白质组学数据分析工作流程的第一步,严格选择标记物对于确保最终获得的蛋白质定位的高精度至关重要。于是,作者又根据数据采集方式的不同,为读者总结了不同细胞器标记的数据库。在得到与空间蛋白质组学相关联的数据资源后,如何选取合适的机器学习方法整合到空间蛋白质组学中,以确保从数据中精确推断蛋白质的定位也是极为重要的。由于数据类型的差异,基于MS和基于成像的空间蛋白质组学的数据分析管道也存在着较大的差异,因此机器学习方法在这些管道中的应用也各不相同。如图1所示,作者详细的分析了这两个分析管道的流程,并解释了各种机器学习算法的概念以及在此过程中的作用。图1.不同机器学习方法在基于MS的空间蛋白质组学数据分析管道中的作用
在阐述了不同机器学习算法在数据分析流程中的作用后,作者展示了机器学习方法在空间蛋白质组学中的成功应用,并介绍几种在空间蛋白质组学中应用较为广泛的集成机器学习方法。在该部分中,作者针对基于MS和基于图像两种数据采集方式,分别对机器学习方法的应用展开了介绍。例如,为了全面捕获不同物种或细胞类型的细胞生物学特征,作者介绍了不同的机器学习方法在基于MS的空间蛋白质组学预测蛋白质定位的应用;为了根据图像特征识别细胞图像中的主要亚细胞模式,作者介绍了各种用于预测功能的监督学习。图2.基于机器学习方法的空间蛋白质组学的应用
最后作者总结了机器学习在空间蛋白质组学应用中的挑战和未来方向。综述中主要总结了三大挑战:数据资源系统性的缺乏阻碍着机器学习在空间蛋白质组学中的应用;多种模态的数据之间的批次效应以及独特的特征空间导致数据之间缺乏统一性和系统性,使得开发多模态数据集成较为困难;大多数机器学习方法缺乏有意义的生物学假设,使得机器学习模型缺乏可解释性。同时,作者也给出了面对这些挑战的解决方法。空间蛋白质组学的显著进展为细胞生物学的深入探索提供了强大的工具。目前,存在着大量可供使用的空间蛋白质组学数据库,为机器学习方法在该领域的应用奠定了坚实的基础。总之,作者全面考察了机器学习在空间蛋白质组学中的应用,为寻求应用机器学习方法分析空间蛋白质组学数据的研究人员提供了指导。机器学习辅助的空间蛋白质组学数据分析为揭示细胞生物学铺平了道路,并为医学和药物发现领域的研究人员带来了新的灵感。参考文献
【1】Mou M J, Pan Z Q, Lu M K, Sun H C, Wang Y X, Luo Y C, Zhu
Feng. Application of Machine Learning in Spatial Proteomics. J. Chem. Inf.
Model., 2022, 62 (23): 5875–5895.
感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或
姓名-学校-职务/研究方向。
