真核生物基因结构预测是基因组注释的核心步骤,但由于外显子–内含子结构复杂、调控信号模糊,传统 ab initio 方法仍存在准确度不足的问题。研究人员开发了 Helixer,这是一种结合深度学习与隐马尔可夫模型(HMM)的混合框架,可在没有转录组数据的情况下直接进行高质量的基因模型预测。Helixer 首先利用深度神经网络从核苷酸序列中学习局部与全局序列特征,再通过 HMM 进行结构化预测,使输出基因模型符合真实生物学结构。该方法在多个模式生物上显著提升外显子边界、编码序列、转录本结构等的预测质量。研究人员还构建了 Helixer 的可扩展软件包和可视化工具,为快速、自动化的基因组注释提供了新的解决方案。
随着基因组测序技术的快速普及,越来越多的真核基因组被生成,但基因结构注释仍然是瓶颈步骤。真核基因的结构比原核基因复杂得多,包含:
5' 和 3' UTR;
多个外显子与内含子;
可变剪接;
弱化、模糊或分散的信号序列。
传统的 ab initio 基因预测方法,如基于马尔可夫模型的工具,在许多情况下依赖手工定义特征,难以充分捕获高复杂的序列模式。此外,某些物种缺乏高质量转录组数据,使得基于证据的注释方法难以发挥作用。
深度学习在序列生物学中的成功应用启发研究人员尝试利用神经网络学习基因结构的隐含规律。然而,单纯使用神经网络进行基因预测在实际输出时常面临“结构不一致”等问题,例如外显子边界对不上、缺少起始密码子、剪接信号冲突等。这使得需要一种将深度学习的表达能力与结构化预测的严格性结合的框架。
基于这一需求,研究人员提出 Helixer:一种混合模型,先由深度学习进行序列标签预测,再由隐马尔可夫模型对初步预测进行结构化解码,使最终输出满足完整、连续、生物学合理的基因结构。
Helixer 首先将输入序列以固定窗口切分,通过深度学习模型(卷积层结合长短期记忆结构)预测每个碱基的局部标签,例如外显子、内含子、剪接位点及相关信号。之后,预测概率被输入到一个多状态的隐马尔可夫模型中,由 HMM 根据先验规则和状态转换约束,生成完整、合法的基因模型。该方法避免了深度学习直接生成结构可能产生的断裂、不一致等问题,同时在模型训练中引入跨物种基因标注数据,实现泛化能力提升。
研究人员在多个真核生物基因组上系统评估 Helixer 的性能,包括植物、动物、真菌等不同谱系。结果表明,Helixer 在外显子检测、剪接受体与供体识别、完整基因模型构建等多个维度均优于现有 ab initio 方法。
Helixer 生成的基因模型在多个关键指标上表现突出,包括:
研究人员发现,深度学习的序列理解能力明显提升了对弱化信号(如弱剪接位点)的识别,而 HMM 确保了整体模型结构的逻辑一致性。
在多个模式生物数据集中,Helixer 在识别:
5' 剪接位点;
3' 剪接位点;
CDS 边界;
UTR 区域。
方面表现优于传统马尔可夫模型类方法。这说明深度神经网络能够更好地捕捉多物种、跨长度尺度的序列模式。
研究人员特别强调,Helixer 对弱信号区域的识别能力,使整体基因结构预测更接近真实转录本。
研究人员测试了 Helixer 在“训练物种”和“非训练物种”上的表现,结果显示:
Helixer 具备良好的跨物种迁移能力;
在植物和动物的非模式生物上仍能保持高质量预测;
无需转录组数据即可构建可靠的编码基因模型。
这对于大规模基因组计划(如新物种快速注释)极具价值。
深度学习 + HMM 的混合策略有效减少结构化错误
单纯深度学习模型往往会出现如下错误:
外显子丢失;
内含子断裂;
剪接位点对不上;
-
缺少起始或终止密码子。
HMM 的整合解决了这一问题,使最终输出满足:
连续性;
无逻辑冲突;
外显子链条完整;
结构生物学合理。
从基因结构可视化图可以明显看出,Helixer 生成的预测序列相比传统方法更规整、更接近真实注释。
研究人员构建了配套的软件系统,包括:
训练好的多物种模型;
可扩展的命令行工具;
基因模型可视化界面;
可用于新基因组快速注释的 pipeline。
这使 Helixer 成为可直接用于基因组学工作流程的工具,而不仅是研究原型。
研究人员提出,Helixer 的成功来自于两种方法的互补优势:
深度学习:捕捉复杂序列模式;
HMM:提供稳定、可解释的结构化输出。
相比传统 ab initio 或纯深度学习方法,Helixer 在以下方面具有明显优势:
能够识别更复杂的真核基因结构;
避免深度学习模型易出现的结构不一致问题;
泛化能力更强,适用于不同物种;
便于集成到大规模注释项目中。
研究人员也指出未来方向,包括:
引入可变剪接预测;
使用更大规模数据(如长读长转录组)进行联合训练;
朝着端到端预测更进一步;
优化对超长内含子与复杂结构的处理。
总体而言,Helixer 成为 ab initio 基因注释的一个重要里程碑,为真核基因组研究提供了更高质量、更自动化的工具。
Holst, F., Bolger, A.M., Kindel, F. et al. Helixer: ab initio prediction of primary eukaryotic gene models combining deep learning and a hidden Markov model. Nat Methods (2025).
https://doi.org/10.1038/s41592-025-02939-1
内容为【DrugOne】公众号原创|转载请注明来源