单细胞RNA测序不仅揭示细胞异质性,更潜藏着个体遗传变异的重要信息。然而,由于覆盖稀疏、等位基因失衡等技术难题,传统变异检测方法在scRNA-seq中表现乏力,使得单细胞RNA-seq数据中蕴藏的遗传变异信息长期未被充分利用。近期,来自美国贝勒医学院的刘占东教授团队,一项名为scDeepVariant的研究提出了一种融合深度学习与群体遗传学的创新框架,该研究巧妙地将DeepVariant的图像化堆叠编码与群体遗传先验(gnomAD/1KGP)相结合,构建了一个七通道CNN模型,专门用于从稀疏、噪声高的单细胞数据中检测germline variants。实验证明,scDeepVariant不仅在常见变异检测中与LD-based方法媲美,更在罕见变异(AF<0.01)检测方面实现突破,为不同物种的单细胞多组学研究提供了可扩展的变异分析新方案。
2025 - scDeepVariant: A population-informed deep learning framework for germline variant calling in scRNA-seq - BioRxiv
一、研究框架
本研究基于单细胞RNA测序(scRNA-seq)数据在检测germline variant时所面临的挑战(如低覆盖度、等位基因失衡、RNA特异性假象等),提出一种基于深度学习与群体信息整合的变异检测框架。该框架以DeepVariant为基础架构,针对scRNA-seq数据进行适配优化,并引入群体等位基因频率(Allele Frequency, AF)作为额外输入通道,构建七通道堆叠图像(包括碱基身份、质量、比对质量、链信息、变异支持、参考错配、AF通道)输入至Inception-v3卷积神经网络进行训练与推断。通过染色体分区策略划分训练、验证与测试集,确保模型评估无信息泄露,并系统比较了不同AF来源(gnomAD、1000 Genomes Project)对性能的影响。
二、主要内容
本文提出scDeepVariant(scDV),一种面向scRNA-seq数据的germline variant caller,重点解决了以下问题:
适应scRNA-seq特点:利用-use_spliced_alignments参数处理剪接比对,支持intron-spanning reads。
整合群体AF信息:通过构建局部单倍型匹配算法,将gnomAD或1KGP中的AF信息编码为图像通道,增强模型对低频率变异的判别能力。
系统评估性能:在ROSMAP队列(22个配对单核RNA-seq与WGS样本)上训练模型,并在独立外部数据集(7个配对scRNA-seq/WES样本)上进行基准测试。
与现有方法比较:包括Monopogen(基于LD的方法)、GATK HaplotypeCaller、Streika2等,评估指标涵盖精度、召回率、F1分数及在不同覆盖度与等位基因频率下的表现。
三、重要发现
群体AF信息显著提升性能:
AF增强模型在所有测试区域(全染色体、基因体、外显子组、编码区)的F1分数提升超过0.10。
在杂合变异检测中提升尤为显著(F1提升 >0.15),有效缓解了scRNA-seq中常见的等位基因丢失(allele dropout)问题。
假阳性率在低频变异(AF < 0.01)中降低3–6倍,在纯合变异中降低高达51倍。
在独立数据集中表现优异:
覆盖度依赖性改善:
在罕见变异检测中具明显优势:
四、所使用的方法
1. 数据来源与预处理
训练数据:22个ROSMAP样本(配对snRNA-seq与WGS),比对至GRCh38,覆盖度≥3×的区域用于训练。
测试数据:独立7个样本(来自食管鳞癌与肺鳞癌研究),包括scRNA-seq与WES配对数据。
基因组坐标统一:使用CrossMap进行GRCh37至GRCh38的lift-over,保证所有工具评估一致性。
2. 模型构建
基于DeepVariant训练流程,启用-use_spliced_alignments与-use_allele_frequency模式。
六通道模型:基础架构,包括碱基身份、质量、比对质量、链、变异支持、参考错配。
七通道模型:额外加入AF通道,AF来源包括:1KGP、gnomAD v3(全集合)、gnomAD v3(仅PASS变异)。
训练策略:染色体1–19用于训练,21–22用于验证,20用于测试。
3. AF整合算法
4. 性能评估
评估指标:精度、召回率、F1分数、准确率,基于基因型完全匹配(位置与合子型一致)。
覆盖度分层分析:从3×至50×逐步提高最小覆盖度阈值,观察性能变化。
罕见变异分析:按gnomAD AF阈值(0.1至10⁻⁶)分层评估。
5. 工具对比
-------------------------------------------
Figure 1:scDV 训练与评估流程概述
图1A:数据整合与模型微调流程
图1B:模型在测试集上的性能表现
图1C:假阳性与群体等位基因频率的分布关系
使用核密度估计展示假阳性调用在群体AF上的分布。
核心发现:
六通道模型在低频变异(AF < 0.01)中假阳性显著增多。
AF整合模型在AF < 0.1的变异中假阳性降低3倍以上,在AF < 0.01的罕见变异中降低6倍以上。
说明AF信息能有效抑制由低覆盖与等位基因失衡引起的系统性假阳性。
Figure 2:八种变异检测方法在独立数据集上的性能比较
数据集与评估设置
性能指标对比
精度(图2A):scDV-AF模型(~0.93)接近Monopogen(0.948),显著高于六通道模型与传统caller。
召回率(图2B):scDV-AF(~0.80)略低于Monopogen(0.817),但显著优于其他方法。
F1分数(图2C):scDV-AF(0.836–0.840)与Monopogen(0.878)差距仅0.04,明显优于传统方法(0.506–0.646)。
准确率(图2D):趋势与F1一致,scDV-AF模型表现稳健。
关键结论
Figure 3:不同覆盖度阈值下各方法的性能变化
评估设置
逐步提高最小覆盖度阈值(3×, 5×, 7×, 10×, 20×, 30×, 50×),分析各方法在更高读段支持下的表现。
灰色虚线展示每个阈值下可评估的变异总数。
性能趋势分析
F1分数(图3A):
精度(图3B):
召回率(图3C):
准确率(图3D):
关键发现
scDV-AF能有效利用高覆盖度信息,尤其提升对杂合变异的召回能力。
Monopogen在高覆盖下无显著提升,说明其基于LD的填补策略在读段证据充足时增益有限。
传统caller虽召回率随覆盖提升,但精度持续偏低,制约其整体表现。