【NC】西北农林科技大学姜雨等提出SVLearn机器学习模型，显著提高跨物种结构变异（SVs）的基因分型准确度

结构变异（SVs）是基因组中多样化的遗传变异形式，并且与多种人类疾病的发生密切相关。然而，从短读长测序数据中准确鉴定结构变异，尤其是那些发生在重复序列区域的变异，仍然是一个巨大的挑战。

2025年3月11日西北农林科技大学姜雨等团队在Nature Communications（IF=14.7）发表了一篇题为“SVLearn: a dual-reference machine learning approach enables accurate cross-species genotyping of structural variants”的研究论文。

他们开发了一种名为SVLearn的机器学习模型，通过创新的双重参考基因组策略，显著提高了结构变异（SVs）在跨物种中的基因分型准确度。该研究不仅为人类疾病的基因组学研究提供了新的工具，也为动植物遗传育种和进化生物学研究开辟了新的可能性。

与传统的单参考基因组方法不同，SVLearn通过构建一个替代基因组（ALT），将已知的双等位基因SV位点的参考等位基因替换为替代等位基因序列。这种设计使得短读序列能够更有效地比对到SV区域，从而显著提高了基因分型的准确性。

研究团队通过大量实验验证了SVLearn的性能，结果显示，该模型在人类、牛和羊的SV基因分型中均表现出色，尤其是在重复序列区域和低测序覆盖度下，其优势更为明显。

在人类基因组数据中，SVLearn利用38,613个已知的SV位点进行训练和测试，与当前最先进的四种工具相比，其在重复序列区域的插入和缺失变异的基因分型精度分别提高了15.61%和13.75%。

此外，SVLearn在牛和羊的基因组数据中也展现了强大的泛化能力，加权基因型一致性得分高达90%，这表明该模型不仅适用于人类基因组，还能在其他物种中实现高精度的SV基因分型。

“SVLearn的开发为跨物种结构变异的研究提供了一个强大的新工具。它不仅能够显著提高基因分型的准确性，还能在低覆盖度下保持高性能，这对于大规模基因组学研究和资源受限的场景具有重要意义。”

研究团队还指出，SVLearn的高效性和准确性使其能够加速基因组规模的SVs与疾病关联的研究，为人类健康和动植物遗传改良提供新的思路和方法。

该研究得到了中国国家重点研发计划（2023YFD1300402，资助给Y.C.；2022YFF1000100，资助给Y.J.）、国家自然科学基金（U21A20120，资助给Y.J.）以及陕西省畜禽育种双链融合重点项目（2022GD-TSLD-46-0401，资助给Y.J.）的资助。

SVLearn可在GitHub（https://github.com/yangqimeng99/svlearn）和Zenodo（https://doi.org/10.5281/zenodo.14897730）上获取。

用于本研究分析的代码也可以在GitHub（https://github.com/yangqimeng99/svlearn-paper-code）和Zenodo（https://doi.org/10.5281/zenodo.14891769）上找到。

生信塔有话说

生信塔公众号持续为大家带来最新生信思路，更多创新性分析思路请点击往期推荐，快来查看吧！想复现这种思路或者定制更多创新性思路欢迎直接call生信塔，我们团队竭诚为您的科研助力！

文献思路复现

定制生信分析

生信服务器

十投九中+纯生信友好=神刊！复旦肿瘤医院李大卫团队2区6分模板文，单细胞数据挖掘+乳酸化修饰，科研人错过血亏！

11种机器学习“飞”上1区Top，诺奖热点不容错过！苏州大学李艳红团队，预后模型这波操作太燃了！