
![]()
单细胞长读长串联测序 (scNanoHi-C) 技术为理解单个细胞基因组中高阶染色质结构提供了独特的见解,这对于理解三维基因组组织至关重要。然而,缺乏针对 scNanoHi-C 数据的专用分析工具阻碍了研究进展,因为现有方法主要侧重于 scHi-C 技术,无法完全解决 scNanoHi-C 所面临的特定挑战,例如稀疏性、细胞特异性变异性和复杂的染色质相互作用网络。2025年7月10日,吉林大学人工智能学院李向涛团队在Nucleic Acids Research在线发表题为“DeepNanoHi-C: deep learning enables accurate single-cell nanopore long-read data analysis and 3D genome interpretation”的研究论文。本研究介绍了 DeepNanoHi-C,这是一个专为 scNanoHi-C 数据设计的新型深度学习框架,它利用多步自动编码器和稀疏门控混合专家 (SGMoE),通过输入稀疏接触图来准确预测染色质相互作用,从而捕获细胞特异性的结构特征。DeepNanoHi-C 通过多步自动编码器有效地捕获复杂的全局染色质接触模式,并根据不同的染色质接触模式从专家池中动态选择最合适的专家。此外,DeepNanoHi-C 通过双通道预测网络整合多尺度预测,提炼复杂的相互作用信息,并促进染色质结构的全面下游分析。实验验证表明,DeepNanoHi-C 在区分细胞类型方面优于现有方法,并在数据插补任务中表现出稳健的性能。此外,该框架能够识别单细胞 3D 基因组特征,例如细胞特异性拓扑关联域 (TAD) 边界,进一步证实了其准确模拟染色质相互作用的能力。除了单细胞分析之外,DeepNanoHi-C 还揭示了跨物种保守的基因组结构,为染色质组织的进化保守性提供了见解。Hi-C 技术基于染色体构象捕获 (3C) 方法,通过映射各种 DNA 片段之间的相互作用,彻底改变了我们对 3D 基因组组织的理解。该技术揭示了基因组的多层结构,包括染色质环、拓扑关联结构域 (TAD) 和更大的染色体区室(A/B 区室)。然而,Hi-C 主要捕获群体水平的数据,这掩盖了由细胞类型、发育阶段或环境刺激等因素驱动的细胞异质性。为了解决这一限制,开发了单细胞 Hi-C (scHi-C),可以探索细胞特异性染色质组织和动态结构变化。在此基础上,scNanoHi-C 应运而生,利用牛津纳米孔技术 (ONT) 平台进行长读测序,以增强全基因组接触映射并在单细胞水平上检测复杂的染色质相互作用。这一进步提供了更丰富的基因组学见解,并促进了单个染色质结构的研究。然而,这些技术产生的数据的复杂性带来了巨大的分析挑战,凸显了对新计算方法的需求。随着scHi-C技术的快速发展,越来越多的研究人员致力于开发有效分析稀疏单细胞Hi-C数据集的方法。现有方法,例如scHiCluster(在聚类之前使用线性卷积和随机游走进行插补);Higashi(使用超图表示学习进行细胞嵌入和scHi-C接触图插补);scDEC-Hi-C(一个用于嵌入和聚类scHi-C数据的无监督端到端框架);以及HiC-SGL(利用子图提取和图表示学习进行插补和聚类),都为该领域的发展做出了贡献。为了更清楚地理解现有方法之间的主要差异,我们提供了比较汇总表,概述了代表性scHi-C分析方法的主要策略、优势和局限性。然而,尽管取得了这些进展,但值得注意的是,专门针对scNanoHi-C数据的分析工具仍然存在显著差距。虽然 scNanoHi-C 在捕获复杂染色质相互作用方面具有独特优势,但其数据分布和技术特性使其现有方法的适用性较差,因为它们尚未针对 scNanoHi-C 的具体特性进行优化。关键挑战依然存在,尤其是在解决 scNanoHi-C 数据的稀疏性以及如何在单细胞水平上捕获复杂的染色质结构特征方面。此外,目前基于 Hi-C 或 scHi-C 的工具无法很好地处理 scNanoHi-C 数据中的细胞异质性。这一局限性凸显了开发针对聚类和归因任务的新方法的需求。因此,开发专门针对 scNanoHi-C 数据的计算方法至关重要,这不仅是为了弥补计算方面的差距,而且最终是为了充分利用其在理解三维基因组结构和细胞异质性方面的潜力。在此本文介绍了 DeepNanoHi-C,这是一个专为分析 scNanoHi-C 数据而设计的新型深度学习框架,旨在弥补当前分析工具集中的一个关键缺陷。虽然 scNanoHi-C 能够在单细胞水平上研究染色质相互作用,但其固有的稀疏性和独特的数据特性对现有的分析方法构成了重大挑战。DeepNanoHi-C 通过提供一个综合框架来克服这些挑战,该框架采用多步自动编码器和稀疏门控混合专家 (SGMoE),有效地捕捉复杂的染色质结构。DeepNanoHi-C 的一个关键特性是它能够生成独特的全局和局部染色质接触模式,其中代表大规模染色质相互作用的全局模式通过多步自动编码器捕获。为了进一步细化这些模式,DeepNanoHi-C 采用了两种先进的嵌入策略:确定性线性嵌入和全局-局部自适应嵌入,它们可以模拟染色质复杂的空间组织。这些技术共同作用,使 DeepNanoHi-C 能够捕捉染色质结构在多个尺度上的层次结构特性。全局和局部接触模式的无缝集成提高了染色质相互作用分析的准确性,从而更深入地洞察染色质的组织及其调控机制。除了嵌入策略之外,DeepNanoHi-C 还集成了特征驱动的混合专家模型进行预测,动态调整各个专家模块的权重,以适应 scNanoHi-C 数据的稀疏性和异质性。这种灵活性对于建模在单个细胞中观察到的多样化染色质相互作用模式至关重要。
通过结合基于多尺度模式的预测,DeepNanoHi-C 采用双通道预测网络来捕获复杂的相互作用信息,从而促进对染色质结构进行更全面的下游分析。本文运用一系列 scNanoHi-C 数据集对 DeepNanoHi-C 进行了评估,并将其性能与多种现有工具进行了比较。结果表明,DeepNanoHi-C 在聚类准确率、插补质量以及捕获细粒度染色质相互作用的能力方面均优于其他方法。它在区分不同细胞类型之间细微的染色质结构变异方面表现出色,并有效地恢复了传统方法难以捕捉的复杂染色质相互作用。此外,DeepNanoHi-C 在处理稀疏数据方面表现出色,与现有方法相比显著减少了插补误差。我们的分析还揭示了跨物种保守的基因组结构,为基因组功能的进化保守性提供了新的见解。这些结果证实了 DeepNanoHi-C 是分析 scNanoHi-C 数据的强大工具,使其成为在单细胞水平上研究三维基因组结构的宝贵资源。图1 DeepNanoHi-C 的综合评估:跨 scNanoHi-C 数据集的聚类性能、效率和可扩展性(图源自Nucleic Acids Research)https://academic.oup.com/nar/article/53/13/gkaf640/8196083内容为【iNature】公众号原创,
转载请写明来源于【iNature】
微信加群
iNature汇集了4万名生命科学的研究人员及医生。我们组建了80个综合群(16个PI群及64个博士群),同时更具专业专门组建了相关专业群(植物,免疫,细胞,微生物,基因编辑,神经,化学,物理,心血管,肿瘤等群)。温馨提示:进群请备注一下(格式如学校+专业+姓名,如果是PI/教授,请注明是PI/教授,否则就直接默认为在读博士,谢谢)。可以先加小编微信号(love_iNature),或者是长按二维码,添加小编,之后再进相关的群,非诚勿扰。
投稿、合作、转载授权事宜
请联系微信ID:13701829856 或邮箱:iNature2020@163.com
觉得本文好看,请点这里!