结构变异(SVs)是基因组中多样化的遗传变异形式,并且与多种人类疾病的发生密切相关。然而,从短读长测序数据中准确鉴定结构变异,尤其是那些发生在重复序列区域的变异,仍然是一个巨大的挑战。2025年3月11日西北农林科技大学姜雨等团队在Nature Communications(IF=14.7)发表了一篇题为“SVLearn: a dual-reference machine learning approach enables accurate cross-species genotyping of structural variants”的研究论文。他们开发了一种名为SVLearn的机器学习模型,通过创新的双重参考基因组策略,显著提高了结构变异(SVs)在跨物种中的基因分型准确度。该研究不仅为人类疾病的基因组学研究提供了新的工具,也为动植物遗传育种和进化生物学研究开辟了新的可能性。与传统的单参考基因组方法不同,SVLearn通过构建一个替代基因组(ALT),将已知的双等位基因SV位点的参考等位基因替换为替代等位基因序列。这种设计使得短读序列能够更有效地比对到SV区域,从而显著提高了基因分型的准确性。研究团队通过大量实验验证了SVLearn的性能,结果显示,该模型在人类、牛和羊的SV基因分型中均表现出色,尤其是在重复序列区域和低测序覆盖度下,其优势更为明显。在人类基因组数据中,SVLearn利用38,613个已知的SV位点进行训练和测试,与当前最先进的四种工具相比,其在重复序列区域的插入和缺失变异的基因分型精度分别提高了15.61%和13.75%。此外,SVLearn在牛和羊的基因组数据中也展现了强大的泛化能力,加权基因型一致性得分高达90%,这表明该模型不仅适用于人类基因组,还能在其他物种中实现高精度的SV基因分型。“SVLearn的开发为跨物种结构变异的研究提供了一个强大的新工具。它不仅能够显著提高基因分型的准确性,还能在低覆盖度下保持高性能,这对于大规模基因组学研究和资源受限的场景具有重要意义。”研究团队还指出,SVLearn的高效性和准确性使其能够加速基因组规模的SVs与疾病关联的研究,为人类健康和动植物遗传改良提供新的思路和方法。该研究得到了中国国家重点研发计划(2023YFD1300402,资助给Y.C.;2022YFF1000100,资助给Y.J.)、国家自然科学基金(U21A20120,资助给Y.J.)以及陕西省畜禽育种双链融合重点项目(2022GD-TSLD-46-0401,资助给Y.J.)的资助。SVLearn可在GitHub(https://github.com/yangqimeng99/svlearn)和Zenodo(https://doi.org/10.5281/zenodo.14897730)上获取。用于本研究分析的代码也可以在GitHub(https://github.com/yangqimeng99/svlearn-paper-code)和Zenodo(https://doi.org/10.5281/zenodo.14891769)上找到。