Brief. Bioinfo. | Auto-Kla: 基于自动机器学习的赖氨酸乳酸化位点识别网络服务

作者 | 赖飞燎
编辑 | 龙文韬

论文题目：

Auto-Kla: a novel web server to discriminate lysine lactylation sites using automated machine learning

今天给大家介绍天津大学高峰教授课题组在生物信息领域顶级期刊Briefings in Bioinformatics（IF=13.994）上发表的文章“Auto-Kla: a novel web server to discriminate lysine lactylation sites using automated machine learning”。作者在文中详细介绍了一种使用自动机器学习技术预测赖氨酸乳酸化修饰的网络服务--Auto-Kla。该服务结合深度语言模型Transformer与自动机器学习技术，开发出了具备极强鲁棒性和泛化能力的蛋白质翻译后修饰位点预测模型，并准确地预测了胃癌细胞中赖氨酸的乳酸化位点。作者进一步证明了该方法在其他类型的蛋白质翻译后修饰位点预测任务中的通用性，准确地预测了感染SARS-CoV-2病毒的人类A549细胞中苏氨酸与丝氨酸的磷酸化位点以及HeLa细胞中赖氨酸的巴豆酰化位点。Auto-Kla服务可在如下网址访问：http://tubic.org/Kla。

一、研究背景

在mRNA翻译成蛋白质后，特定氨基酸残基的共价修饰被称为蛋白质翻译后修饰（PTM），它是增加蛋白质功能和结构多样性的关键机制。最近的研究揭示了一种新型PTM--赖氨酸乳酸化(Kla)，越来越多的证据表明，Kla在许多生命活动中起着至关重要的作用，例如能量代谢、组织修复、细胞重编程、神经兴奋、阿尔茨海默病和免疫抑制等。目前，质谱技术是识别PTM位点的基本方法。然而，仅通过实验技术进行识别既昂贵又费时，发展快速、准确可实现自动化识别的算法显得尤为重要。虽然已有基于深度学习开发的算法用于Kla位点的预测，但仍存在以下缺点：首先，这些算法是在仅有一百多个Kla阳性样本的小数据集上训练完成的，容易导致产生过拟合的模型。其次，它们都基于复杂的深度学习模型，依赖大量的手动超参数搜索来实现最佳性能，方法的迁移能力受到挑战。以上缺点限制了Kla位点预测算法的准确率并且难以推广到其他类型PTM位点的预测。

二、模型与方法

图1

在这项研究中，高峰教授课题组提出了一种将自动机器学习技术运用到PTM位点预测的通用方案，使用强大的自动机器学习框架AutoGluon在胃癌AGS细胞中的2375个Kla位点的数据集上训练深度语言模型，从而实现Kla位点的精确预测。为了研究方法的普遍性和可移植性，作者在另外两个广泛研究的PTM数据集上对该方法进行了验证，包括丝氨酸/苏氨酸(S/T)的磷酸化位点和赖氨酸的巴豆酰化位点。AutoGluon使用多种前沿的深度学习技术提高模型的准确率和泛化能力，如：自动调整学习率变化避免过拟合，通过预热将学习率从0增加到0.1，之后采用余弦退火策略衰减；使用Adamw优化器更新神经网络参数；记录验证数据集上性能最高的三个检查点，最后将三个检查点的权重平均作为最终模型，以加强其泛化能力等。

模型的架构如图1所示，主要包括自适应嵌入模块、Transformer编码器模块和多层感知机分类器模块。（1）自适应嵌入模块直接从原始序列数据中提取特征，从而避免了人工选择特征带来的偏差；（2）Transformer编码器模块采用注意力机制，有效地提取蛋白质序列的上下文信息；（3）多层感知机分类器模块将[CLS]标签的最终隐藏状态转化为两个特征，完成分类任务。

三、结果与分析

图2

3.1 Kla位点预测模型的性能评价

如图2所示，与目前最新发表的模型相比，Auto-Kla在测试数据集上的评价指标SEN、PRE、ACC、MCC和AUROC平均值分别高出16.36%、4.5%、1.41%、11.2%和4.61%，均处于领先地位，并且SEN、MCC和AUROC具有显著的统计学差异(P<0.001)。此外，Auto-Kla各项评价指标的标准差均较小，这说明Auto-Kla不仅具有更强的Kla位点预测性能，而且具有更强的鲁棒性。

3.2 赖氨酸巴豆酰化位点预测模型的性能评价

与目前最优秀的模型相比，本文提出的模型在PRE(86.35±1.00%)、ACC(85.27±0.55%)、MCC(70.62±1.00%)和AUROC(92.84±0.22%)四个评价指标均处于领先地位，表明其具有更好的预测能力。

3.3 丝氨酸/苏氨酸磷酸化位点预测的性能评价

与目前最优秀的模型相比，本文提出的模型在SEN(88.15±2.26%)、ACC(83.36±0.73%)、MCC(67.13±1.28%)和AUROC(91.79±0.20%)四个评价指标均处于领先地位。

以上结果表明，作者提出的方法可以在不需要大量手动调整超参数的情况下获得更好的性能，从而为PTM识别模型建立可靠的基线。

图3

3.4 t分布随机邻域嵌入(t-SNE)可视化

使用t-SNE对提取的特征向量进行可视化。图3A、C和E显示了使用未经训练的模型从独立测试集提取特征向量的降维分析结果，红色正样本和负蓝色样本均匀混合。图3B、D、F展示了使用训练过的模型对特征向量降维分析的结果，从中可以看到正样本和负样本明显地对应两个聚类。

四、总结

精确识别PTM位点对于深入了解表观遗传蛋白修饰的作用和机制至关重要。鉴于出色的性能和通用性，本工作可以成为其他类型PTM预测模型的有效基线，促进相关领域的进一步发展。

服务网站

http://tubic.org/Kla

参考文献

Lai F L, Gao F. Auto-Kla: a novel web server to discriminate lysine lactylation sites using automated machine learning[J]. Briefings in Bioinformatics, 2023, doi: 10.1093/bib/bbad070.