导语
因为最近在做利用卷积神经网络CNN和其他深度学习模型来预测m6A-SNP影响的项目,想分享一下目前不同m6A-SNP预测模型的研究进展。RNA N6-甲基腺苷(m6A)修饰是表观转录组最常见的修饰形式之一,在基因表达调控、细胞命运决定、疾病发生中扮演重要角色。
随着高通量测序与机器学习的发展,大家越来越关注单核苷酸变异(SNP)是否会破坏或新建m6A位点,进而影响mRNA命运,从而为RNA生物学机制和癌症和神经系统性疾病的治疗提供参考。在这一系列中,我将先系统回顾几个具有代表性的m6A-SNP预测模型,并深入解析模型原理/代码实现和最新的深度学习研究成果,展示人工智能如何助力RNA修饰功能研究。
背景:为什么要预测m6A-SNP?
m6A修饰的动态变化受RNA序列和结构双重影响,而SNP的发生可能导致m6A修饰位点的获得(gain)或丧失(loss),从而对RNA稳定性、剪接、翻译等过程产生深远影响。已有研究发现,许多与癌症、自闭症、免疫疾病相关的SNP会通过调控m6A修饰介导致病机制。
传统的实验验证方法如miCLIP、MeRIP-seq成本高、覆盖有限,因此基于序列的计算预测方法成为关键补充。
迄今为止,已经开发了许多计算方法来识别 RNA 序列中的 m6A 修饰位点,包括基于机器学习的方法和基于深度学习的方法。这是已发布的 m6A 修饰预测模型的时间表。(https://www.sciencedirect.com/science/article/pii/S1046202325001082)
m6A 预测现有工具的时间表经典模型回顾:从静态特征到浅层学习
基于机器学习的 m6A 预测方法通常采用传统的机器学习算法(例如,支持向量机 (SVM)、随机森林 (RF)),这些算法在手动设计的特征(例如 RNA 序列特征、结构特征、进化特征)上进行训练。模型通常使用监督学习算法进行训练,以区分修改后的序列和未修改的序列,并通过交叉验证或独立测试集评估其性能。
1. iRNA-Methyl
🔗[(https://www.sciencedirect.com/science/article/abs/pii/S0003269715003978)]
iRNA-Methyl 是 Chen 等人在 2015 年提出的一种计算模型,旨在识别 RNA 序列中的 N6-甲基腺苷(m6A)修饰位点,特别是在酿酒酵母(Saccharomyces cerevisiae)基因组中。该模型结合了序列信息和物理化学特性,通过伪二核苷酸组成(Pseudo Dinucleotide Composition, PseDNC)的方法,对 RNA 序列进行特征提取,并利用支持向量机(SVM)进行分类预测。
iRNA-Methyl Web 服务器首页模型亮点:
伪二核苷酸组成(PseDNC)特征提取:
该方法不仅考虑了核苷酸的顺序信息,还引入了三种 RNA 的物理化学性质——自由能(Free Energy)、熵(Entropy)和焓(Enthalpy),以更全面地表征 RNA 序列的特征。
支持向量机分类器(SVM):
在特征提取后,模型采用 SVM 作为分类器,对是否存在 m6A 修饰位点进行预测。
高性能评估:
在酿酒酵母基因组的基准数据集上,iRNA-Methyl 模型通过严格的交叉验证测试,表现出较高的预测能力,在酿酒酵母数据集上,iRNA-Methyl 的总体准确度 (ACC) 为 0.6559,灵敏度 (Sn) 、特异性 (Sp) 和 Matthews 相关系数 (MCC) 值分别为 0.7055、0.6063 和 0.2900。
10 倍交叉验证中获得的精度需要注意的是,iRNA-Methyl 是早期的 m6A 修饰位点预测模型之一,后续研究在其基础上提出了改进版本,他们后来提出了 iRNA(m6A)-PseDNC 来预测酿酒酵母基因组中的 m6A 位点,方法是使用基于欧几里得距离的方法选择高质量的基准数据集,并使用 SVM 作为分类器。该模型在所有评估指标中均表现出优异的性能,ACC 为 0.9124,Sn 为 0,8684,Sp 为 0.9564,MCC 为 0.83,超过了 iRNA-Methyl,在同一数据集上分别提高了 0.2565、0.1629、0.3501 和 0.5400。
2. WHISTLE
🔗[(https://www.scopus.com/record/display.uri?eid=2-s2.0-85064989965&origin=inward&txGid=fb10f67456de31729f4894efdba260c6)]
此外,Chen 等人通过将 35 个基因组衍生特征与传统测序特征整合,构建了用于 m6A 位点预测的 WHISTLE,从而显著提高了准确性。WHISTLE 模型在全长 RNA 转录本上的平均曲线下面积 (AUC) 值为 0.948,在成熟 mRNA 序列上达到 0.880,在不同的 RNA 加工阶段表现出强大的预测能力。
这些是最早一批将机器学习引入m6A预测的工作之一,揭示了序列中蕴含的潜在m6A信息。但由于特征依赖人工设计,泛化能力有限,难以捕捉复杂非线性模式。
集成机器学习分类器的应用
3.SRAMP
🔗[(https://academic.oup.com/nar/article/44/10/e91/2516056)]
之后,集成机器学习分类器已应用于 m6A 识别。集成学习方法联合训练多个不同的基础模型(例如 XGBoost、随机森林),并通过投票或加权平均整合它们的预测,以增强泛化能力并减轻过拟合。因此,集成模型在不同的基准测试场景中始终优于单个基础模型。Zhou 等人设计了 SRAMP,该模型基于序列衍生特征,结合三个随机森林分类器,通过使用序列信息和二级结构特征编码 RNA 序列来预测哺乳动物转录组中的 m6A 位点。SRAMP 预测因子在全转录模式下表现出增强的区分能力,AUC 值为 0.871,与 AUC 为 0.794 的成熟 mRNA 特异性模式相比,性能提高了 0.097。
SRAMP 的计算框架图片解析:SRAMP 中构建了两种预测模式,即完全转录模式和成熟 mRNA 模式。两种预测模式都采用相同的计算框架。首先,对于查询序列中呈现的 DRACH 模体,使用三种基于序列的编码提取和表示其侧翼序列窗口。然后,编码后的特征将被提交给相应的随机森林分类器。每个随机森林分类器汇总了 10 个子分类器的输出分数,这些子分类器在训练数据集中的所有正样本和负样本的不同子集上进行了训练。最后,通过加权求和公式对随机森林分类器的预测分数进行组合。四个严格性阈值对应于 5 倍交叉验证测试中的 99%、95%、90% 和 85% 特异性,用于判断分类和相关置信度。如果启用了分析二级结构函数,则预测的二级结构上下文 m6还将提供 A 站点。
模型亮点
多特征融合的随机森林分类器:
SRAMP结合了三种不同的序列特征,通过随机森林分类器进行预测:
位置核苷酸序列模式:考虑核苷酸在序列中的具体位置。
K近邻信息(KNN):利用序列中相似片段的统计信息。
位置无关的核苷酸对谱特征:分析核苷酸对的出现频率,而不考虑其在序列中的具体位置。
双模式预测能力:
SRAMP支持两种输入模式:
全转录本模式:使用基因组序列作为输入。
成熟mRNA模式:使用cDNA序列作为输入。 这使得SRAMP在不同的研究场景中具有广泛的适用性。
高性能表现:
在交叉验证和独立基准测试中,SRAMP展示了优异的预测性能,能够准确识别m6A修饰位点。
SRAMP在提升预测精度上做了重要改进,适用于多个细胞系,且模型解释性较强。但仍然存在人工特征依赖,未能完全摆脱序列语境外的局限性。
m6A-SNP领域的里程碑:m6ASNP数据库与预测模型
4. m6ASNP
🔗[(https://academic.oup.com/gigascience/article/7/5/giy035/4958982)]
m6ASNP 是由Ren等人于 2018 年发表的一个在线工具,旨在识别可能影响 RNA N6-甲基腺苷(m6A)修饰的遗传变异(如 SNPs)。该工具结合了机器学习方法和多组学数据,提供了对变异对 m6A 修饰影响的预测和注释功能。
m6ASNP 的构建过程
图片解释:A) 用于识别 m 的计算管道6A 关联变体。(1) 单核苷酸分辨率数据是从最近发表的 miCLIP-seq 实验中收集的。(2) 提取一级序列和二级结构特征,用于后续的模型训练过程。(3) 遗传变异,例如体细胞变异或种系 SNP,被输入到计算管道中。(4) 势能 m 周围的侧翼序列6根据输入的变体为野生型和突变型样品构建残基。(5) 根据上述数据预测 loss 和 gain 变体。B) 在人体模型上,进行了 4 倍、 6 倍、 8 倍和 10 倍交叉验证。C) 在人体测试集上对 m6ASNP 和其他最先进的工具进行了性能比较。D) 小鼠模型中 4 倍、 6 倍、 8 倍和 10 倍交叉验证的评估结果。E) m6ASNP 和其他最先进的工具在鼠标测试集上的性能比较。
模型亮点
基于随机森林的预测模型:
m6ASNP 使用随机森林算法,结合序列特征和结构信息,预测特定变异是否会影响 m6A 修饰状态。
整合多种高通量数据:
模型训练和验证数据包括来自 miCLIP、PA-m6A-seq 和 MeRIP-seq 的单碱基分辨率 m6A 位点信息,确保预测的准确性和可靠性。
全面的变异注释功能:
m6ASNP 不仅预测变异对 m6A 修饰的影响,还提供与 RNA 结合蛋白(RBPs)结合位点、miRNA 结合位点、剪接位点等的关联信息,帮助研究者全面理解变异的潜在功能影响。
应用与影响、
大规模变异筛选:
研究团队应用 m6ASNP 对人类和小鼠的 dbSNP 数据库中的变异进行了分析,整合m6A peaks与dbSNP数据库,建立“gain”与“loss”注释。识别出超过 31 万个人类变异可能影响 m6A 修饰,展示了该工具在大规模变异功能注释中的潜力。
辅助疾病研究:
通过整合 GWAS、ClinVar 等数据库,m6ASNP 有助于识别与疾病相关的功能性变异,支持疾病机制研究和生物标志物的发现。
m6ASNP是连接SNP功能研究与m6A预测的桥梁,使研究者能快速定位潜在调控变异。但本身依赖于早期m6A预测器,预测能力仍受限。
深度学习革命:多层人工神经网络(CNN、Transformer、BiLSTM)的出现
虽然传统的机器学习方法和机器学习任务中的集成学习算法推动了 RNA m6A 修饰位点预测的发展,但其固有的局限性,例如依赖手动提取的特征和无法自主学习特征,给研究人员带来了挑战。此外,随着大数据时代的到来,海量生物序列数据的积累推动了深度学习在甲基化位点鉴定中的应用和发展。深度学习的出色之处不仅在于它比传统机器学习分类器更强的预测性能,还因为它能够熟练地识别基因组序列中的基序。
基于深度学习的方法采用多层人工神经网络(例如 CNN、Transformer、BiLSTM)直接从原始 RNA 序列中自动学习分层、高维特征表示(使用独热嵌入或词嵌入),无需手动特征工程,并通过复杂序列模式的端到端建模实现 m6A 修饰的准确预测.此外,已经开发了将不同深度学习模型与不同架构或训练策略相结合的深度集成学习策略,用于 m6A 预测。通过加权平均或元学习等方法整合预测,这些方法增强了稳健性和特征多样性,克服了单一模型的局限性(例如,过拟合或偏向模式学习)
5. Deepm6A-MT
🔗[(https://www.sciencedirect.com/science/article/pii/S1046202324000677)]
Deepm6A-MT 是一款基于深度学习的模型,旨在预测 RNA 序列中的 N6-甲基腺苷(m6A)修饰位点。该模型结合了双向门控循环单元(Bi-GRU)和卷积神经网络(CNN),通过两个输入通道处理 RNA 序列信息,以提高预测的准确性和鲁棒性。
Deepm6A-MT 的示意图。Conv1D 表示一维 CNN,Maxpooling1D 表示最大池化作,Dense 表示全连接层。模型亮点
卷积神经网络:
建立卷积神经网络(CNN)模型,不依赖人工特征。
双通道输入结构:
Deepm6A-MT 设计了两个输入通道,分别提取 RNA 序列的不同特征,增强了模型对序列信息的捕捉能力。
结合 Bi-GRU 和 CNN 的混合架构 模型利用 Bi-GRU 捕捉序列中的上下文依赖关系,同时通过 CNN 提取局部特征,实现了全局与局部信息的融合。
提升预测性能:
通过上述架构,Deepm6A-MT 在多个评估指标上表现优异,显示出较高的预测准确性和泛化能力。
该研究实现了从传统机器学习向深度学习的进展,CNN具备强大的特征学习能力,能自动识别复杂的序列依赖性模式。Deepm6A-MT 的设计使其在 m6A 修饰位点的预测中具有较强的性能,适用于多种 RNA 序列的分析任务。其深度学习架构为后续的 RNA 修饰研究提供了新的思路和方法。
总结:AI助力表观转录研究
从最早的SVM模型到如今的CNN,m6A-SNP预测的发展既是算法进步的缩影,也反映出RNA修饰研究日益精细的趋势。面对海量的变异信息,构建可靠的预测工具、理解变异的功能意义,正成为RNA生物学与疾病研究的重要方向。进一步结合Transformer架构、多模态学习(如结合RNA结构、蛋白结合数据)以及跨物种泛化能力的模型将成为热点。同时预测结果的可解释性、可视化也是目前推动临床转化的关键一步。