Py学习  »  机器学习算法

Nat Commun|吴华君/徐明团队开发跨尺度三维基因组预测深度学习框架Hi-Compass

生信宝典 • 1 月前 • 119 次点击  


染色质三维结构通过构建远端调控元件之间的空间互作精细调控基因转录决定细胞身份、组织发育和疾病发生等生物学过程扮演重要角色1–3。基于染色体构象捕获3CHi-C技术实现了全基因组尺度染色质互作图谱的绘制,并陆续揭示了A/B compartment、拓扑关联结构域TAD以及染色质环chromatin loop人类基因组折叠的基本规律及其在发育、疾病和衰老过程中的作用4,5。然而,高质量Hi-C图谱的产出对样本量、测序深度和实验成本均有较高要求,尤其在单细胞与空间尺度上,Hi-C数据的获取仍存在显著瓶颈。

为缓解这一问题,近年来相继出现了多种基于深度学习的Hi-C图谱预测方法,如AkitaC.OrigamiEpiphanyChromaFold等。然而,当面向单细胞与空间组学数据时,现有方法仍存在多方面的 局限:(1训练需要同一样本同时具备ATAC-seqCTCF ChIP-seq等多组学输入;(2)难以泛化到未见过的细胞类型;(3)未充分考虑单细胞与空间数据中固有的稀疏性和测序深度的高度异质性。

针对上述挑战,2026414北京大学临床医学高等研究院(细胞稳态与衰老性重大疾病北京研究中心)/北京大学肿瘤医院吴华君、北京大学第三医院徐明和北京大学肿瘤医院王玉娟共同通讯 Nature Communications 上发表了题为 Hi-Compass: a depth-aware deep learning framework for predicting cell-type-specific 3D genome organization from single-cell to spatial resolution 的研究论文,提出了一个跨测序深度的三维基因组预测深度学习框架Hi-Compass,能够从ATAC-seq数据出发,跨bulk、单细胞、空间等多尺度预测细胞类型特异性的Hi-C接触图谱。


文中提出的Hi-Compass是一个基于CNN-Transformer架构的深度学习框架,以ATAC-seq信号为唯一的细胞类型特异性输入,结合DNA序列、泛细胞类型CTCF结合谱以及ATAC-seq的测序深度,预测细胞类型特异性的Hi-C接触图谱。为兼容bulk、单细胞和空间组学中差异极大的测序深度,作者在训练阶段引入多种测序深度的ATAC-seq输入,并通过深度嵌入depth embedding将当前输入的测序深度告知模型,使其在不同数据尺度下均可生成合理预测。


在此基础上,作者将Hi-CompassAkitaC.OrigamiEpiphanyChromaFold等代表性方法进行了系统性benchmark比较,在Hi-C图谱整体相关性、高置信染色质环的恢复、以及TAD边界与insulation score一致性等多个维度上评估了各方法的预测性能,结果显示Hi-Compass在跨细胞类型泛化场景中的预测精度优于现有方法。在多细胞类型联合训练策略下,Hi-Compass对训练集之外的细胞类型同样具备zero-shot预测能力。

进一步地,作者将Hi-Compass应用于外周血单核细胞PBMCscATAC-seq和胚胎心脏发育的multiome数据集,解析了不同免疫细胞亚群与发育阶段细胞类型特异性的染色质互作图谱。基于所预测的细胞类型特异性染色质环信息,Hi-Compass进一步支持将GWAS非编码变异系统性地连接到其候选靶基因,为复杂疾病的功能解读提供了三维基因组学视角。

在空间尺度,作者将Hi-Compass接入spatial ATAC-seq数据,在人类海马组织中实现了空间分辨的染色质互作预测,刻画了组织空间位置与细胞类型特异性三维基因组结构的对应关系。此外,作者通过对小鼠基因组的fine-tuning进一步展示了Hi-Compass跨物种应用能力

综上,该研究工作为细胞类型特异性三维基因组预测提供了一个覆盖bulk—单细胞空间多尺度并支持跨物种应用的统一深度学习框架。Hi-Compass的提出将有力推动三维基因组学在发育、免疫、神经及疾病研究中的广泛应用,并为非编码遗传变异的功能解读提供的工具。

本论文的共同通讯作者为北京大学临床医学高等研究院(细胞稳态与衰老性重大疾病北京研究中心)/北京大学肿瘤医院吴华君研究员、北京大学第三医院徐明 教授和北京大学肿瘤医院王玉娟博士;北京大学肿瘤医院孙源辰、北京大学第三医院蒋文杰和北京大学肿瘤医院蔡康文为本文的共同第一作者。
原文链接:https://www.nature.com/articles/s41467-026-71877-z


制版人: 十一



参考文献


1. Bonev B, Cavalli G. Organization and function of the 3D genome. Nature Reviews Genetics 2016, 17:661–678.
2. Dekker J, Mirny L. The 3D genome as moderator of chromosomal communication. Cell 2016, 164:1110–1121.
3. Hafner A, Boettiger A. The spatial organization of transcriptional control. Nature Reviews Genetics 2023, 24:53–68.
4. Lieberman-Aiden E, et al. Comprehensive mapping of long-range interactions reveals folding principles of the human genome. Science 2009, 326:289–293.
5. Rao SSP, et al.  A 3D map of the human genome at kilobase resolution reveals principles of chromatin looping. Cell 2014, 159:1665–1680.


最全1000+植物核基因组数据库IMP (点击图片直达)

高颜值免费 SCI 在线绘图(点击图片直达)


往期精品(点击图片直达文字对应教程)

Linux      Python  

R绘图   NGS基础   GEO高级

 生信自学   生信书籍   系列教程   心得体会
转录组经典    宏基因组   蛋白质组   单细胞系列   测序发展史
    免费在线画图   色彩搭配   图形排版   图形解读   
       ChIP-seq     TCGA     GSEA     WGCNA       

     海哥组学    傻瓜系列    文章写作 

 Cytoscape    Excel  PPT

机器学习



公众号投稿联系:陈同 (chentong_biology@163.com)



Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/195823