Py学习  »  机器学习算法

深度学习精准分离单细胞多重生物信号;六种主流数据标准化工具评估;新方法还原和解读高维细胞状态动态、破解非编码罕见变异与疾病关联等

单细胞天地 • 3 周前 • 31 次点击  

1 CellUntangler:深度学习新突破,精准分离单细胞多重生物信号

文章:CellUntangler: Separating distinct biological signals in single-cell data with deep generative models

链接:https://doi.org/10.1016/j.xgen.2025.101073

代码:https://github.com/Ding-Group/CellUntangler

2025年12月1日,Cell Genomics期刊发表了一项生物信息学研究,来自加拿大不列颠哥伦比亚大学和Genentech的科学家团队开发了一款名为CellUntangler的全新深度学习工具,为单细胞RNA测序数据分析带来了革命性突破。这一技术能够在单个细胞中同时分离和解析多种复杂的生物学过程信号,极大提升了细胞异质性和功能研究的精度与深度。

单细胞RNA测序技术近年来风靡全球,推动了细胞类型鉴定、基因调控网络发现以及时空动态过程的深入解析。然而,细胞周期、分化、细胞类型和环境响应等多种生物过程常常在同一细胞内交织发生,导致传统分析方法容易受主导信号干扰,难以揭示真正的生物学本质。CellUntangler正是为解决这一痛点而生。

CellUntangler的核心创新在于:它采用变分自编码器(VAE)架构,将每个细胞嵌入由多个“子空间”组成的潜在空间,每个子空间专门捕捉一种特定生物信号。研究团队根据不同信号的特点,灵活选择欧几里得空间、超球面空间或双曲空间等不同几何结构,确保信号分离的准确性。例如,细胞周期信号由于具有循环性,采用双曲空间嵌入后,能在Poincaré圆盘上形成清晰的环状结构,极大提升了信号的可解释性和可视化效果。

在多项真实数据集测试中,CellUntangler展现了强大的信号分离能力。研究者在HeLa细胞和小鼠胚胎干细胞数据中,成功分离了细胞周期信号和基因型或细胞类型信号,避免了传统方法中细胞被错误归类为同一周期阶段的现象。在复杂的免疫细胞数据中,CellUntangler不仅将循环细胞和非循环细胞准确区分,还能进一步识别循环细胞的真实细胞类型,揭示罕见细胞亚群如循环星形胶质细胞的存在。

更令人振奋的是,CellUntangler不仅限于细胞周期信号的分离,还能灵活扩展到空间分区(如肝脏分区)、组织解离效应、干扰素反应等多种生物学过程。研究团队在小鼠肝脏细胞数据中,通过分离空间和时间信号,清楚展示了肝细胞的空间分布和昼夜节律变化,还发现了此前未被注意到的干扰素反应细胞亚群。在高等级浆液性卵巢癌的近百万细胞数据集上,CellUntangler高效处理大规模数据,揭示了肿瘤微环境中多种细胞类型对干扰素刺激的广泛响应,为肿瘤免疫治疗研究提供了新视角。

CellUntangler的设计还充分考虑了实际应用需求。模型训练端到端完成,无需多步预处理和信号增强/过滤,自动校正批次效应,极大简化了单细胞数据分析流程。只需输入基因表达矩阵和目标信号的标记基因列表,即可轻松分离并增强或过滤指定信号,方便后续的生物学发现和机制研究。

作者指出,CellUntangler目前需要用户提供目标信号的标记基因列表,但随着数据库和文献积累,这一限制正在逐步减弱。未来,该工具还可扩展到单细胞ATAC-seq、空间转录组和多组学数据,进一步释放单细胞数据的研究潜力。

2 单细胞RNA测序数据标准化方法大比拼

文章:Single-cell RNA-seq data normalization: A benchmarking study

链接:https://doi.org/10.1371/journal.pone.0335102

2025年12月18日,《PLoS ONE》在线发表了一项关于单细胞RNA测序数据标准化方法的系统性评估研究,来自中国多家科研机构的团队对六种主流标准化工具进行了深入比对,为生命科学领域的研究者选择合适的数据处理方案提供了权威参考。

单细胞RNA测序技术近年来在揭示细胞异质性、发现罕见细胞群及疾病机制等方面发挥了巨大作用。然而,由于每个细胞的RNA含量极低,实验过程中的扩增和测序环节容易引入大量技术噪声和偏差,例如扩增效率的变化、细胞周期效应、测序深度差异以及数据稀疏性等。这些技术因素不仅使基因表达水平出现系统性偏差,还可能掩盖真实的生物学信号,严重影响下游分析如细胞分群和差异表达基因筛选的准确性。

为了解决这些问题,数据标准化成为单细胞测序分析的关键预处理步骤。但市面上的标准化方法众多,各有算法原理、适用场景和性能差异,如何选择最合适的工具一直困扰着广大科研工作者。此次研究团队精选了七个真实单细胞数据集和四个模拟数据集,分别涵盖不同物种、组织类型、疾病状态和测序技术,系统评估了六种常用标准化方法:Log、LIGER、Dino、SCnorm、scTransform和scran。

在细胞聚类性能方面,Dino方法在10× Genomics平台产生的大规模数据集上表现尤为突出,无论是分群准确度还是细胞类型的分界清晰度都优于传统Log标准化。研究显示,采用Dino处理后,神经内分泌细胞和间质细胞的错分数量显著减少,细胞类型间的表达界限更加鲜明,真正反映了生物学上的异质性。与此同时,scTransform方法则在采用SMART-Seq2全长文库制备协议的数据集上表现优异,能够有效消除测序深度和细胞特异性偏差,提升分群准确性。

在差异表达分析方面,Dino依然保持领先地位,无论是识别上调还是下调基因,都能获得更高的F1分数,显示出强大的生物学信号捕捉能力。scTransform在低丢失率的数据集上表现稳定,但在高丢失率或细胞数量较少的数据集上效果有所下降。SCnorm方法适合小规模数据集,在模拟数据中差异表达分析表现良好,但由于其采用分位数回归算法,计算复杂度高,内存消耗大,在大数据集上容易出现性能瓶颈甚至无法完成分析。

在计算资源消耗方面,SCnorm的内存需求最高,峰值超过200GB,而Dino次之,其他方法如Log、LIGER、scTransform和scran在常规台式机上即可流畅运行。除了SCnorm外,大多数方法都支持并行计算,能够高效处理大样本数据,适应未来单细胞数据规模持续扩大的趋势。

研究团队指出,目前主流标准化方法多为“无参考”算法,未来可尝试结合内部参考基因(如线粒体mRNA)或跨组学数据进行标准化,以进一步提升分析精度和适用性。同时,随着单细胞测序数据量的持续增长,标准化方法的计算扩展性和内存效率将变得更加重要,需要持续优化算法结构。

3 ddHodge:高维动态精准揭示细胞命运的‘势能地图’

文章:Geometry-preserving vector field reconstruction of high-dimensional cell-state dynamics using ddHodge

链接:https://doi.org/10.1038/s41467-025-67782-6

代码:https://github.com/kazumits/ddHodge.jl

2025年12月29日,《Nature Communications》发表了一项引人瞩目的单细胞分析方法学研究。日本理化学研究所等团队开发了名为ddHodge的全新计算框架,为科学家们精确还原和解读高维细胞状态动态,尤其是在胚胎发育等复杂生物过程中,提供了前所未有的数学和生物学工具。

细胞的分化潜能和命运决定,是生命科学领域的核心问题。传统分析方法,如RNA velocity,虽能追踪细胞状态变化,但在高维、稀疏数据下难以重建细胞“加速度”等更复杂的动态特征,也无法全面解析细胞状态的稳定性和多样性。ddHodge的诞生,正是为突破这一瓶颈而来。

ddHodge的核心创新在于:它基于数学中的Hodge分解理论,将高维基因表达空间中的向量场分解为三大基本成分——梯度(反映细胞状态的“势能”变化)、旋度(捕捉周期性或环状动态,如细胞周期)、散度(量化细胞状态的稳定性与分化潜能)。ddHodge不仅能从稀疏、偏差明显的单细胞RNA测序数据中精确重建这些成分,还能通过局部PCA和流形拼接技术,将高维动态映射到低维空间,最大程度保留原始数据的几何结构。这使得ddHodge既适用于大规模数据,也能在高噪声环境下保持重建精度和鲁棒性。

研究团队以小鼠胚胎发育为例,利用ddHodge分析了超过4.6万细胞的基因表达和RNA velocity数据。他们首次用“势能景观”直观展示了发育过程中细胞状态的变化轨迹:早期胚胎细胞表现出高度的分化潜能和不稳定性(散度为正),随着发育推进,细胞状态逐渐趋于稳定(散度为负),分化为心脏、表皮等特定谱系。ddHodge还揭示了不同细胞群在发育关键节点上的命运分叉和稳定性变化。例如,表皮谱系的前体角蛋白细胞在E8.5阶段即显示出比上皮细胞更早的命运确定,而E9.5时其状态极为稳定。更有趣的是,ddHodge能够直接量化细胞分化的“难易程度”,并识别出如Pax6、Nrcam、Robo2等关键基因在神经轴延长和命运稳定中的作用,以及Cdx2在维持未分化细胞群体中的机制。

ddHodge不仅在胚胎发育数据上表现出色,在肌肉再生等其他单细胞数据集上也能精准定位命运分叉点,捕捉细胞状态的“加速”或“减速”变化,发现传统差异表达分析容易忽略的关键调控基因。与现有主流方法如Dynamo相比,ddHodge在向量场重建精度、计算效率和高维数据适应性方面均有显著优势。其创新的流形几何处理方式,避免了降维过程中的信息扭曲,使得分析结果更贴近真实的生物过程。

更值得关注的是,ddHodge框架不仅适用于RNA velocity数据,还可扩展至染色质速度、蛋白质速度、细胞位置变化等多种高维动态数据类型,甚至可用于理论模型的模拟数据分析。该方法的高扩展性和兼容性,使其有望成为未来研究复杂生物动态系统的“标准工具箱”。

研究团队指出,ddHodge在高维空间中对旋度(周期性成分)的重建目前尚为近似,但已能有效识别发育过程中受周期调控的关键区域,如造血过程中的强扰动区域。未来,随着算法优化和生物学解释框架的完善,ddHodge有望进一步揭示细胞命运决定的深层机制,为发育生物学、疾病研究和再生医学等领域带来更多突破。

4 cellSTAAR:结合单细胞测序,破解非编码罕见变异与疾病关联新难题

文章:cellSTAAR: incorporating single-cell-sequencing-based functional data to boost power in rare variant association testing of noncoding regions

链接:https://www.nature.com/articles/s41592-025-02919-5

R包:https://github.com/edvanburen/cellSTAAR/

在复杂人类疾病的遗传研究领域,非编码区域的罕见变异一直是科学家们难以攻克的堡垒。传统方法在这些区域的关联分析中,常因信号微弱、细胞类型差异大而“雾里看花”。近日,哈佛大学公共卫生学院等多家机构联合开发了一种创新统计工具——cellSTAAR,它巧妙地结合了单细胞测序数据,为非编码罕见变异的功能解读和关联分析带来了突破。

cellSTAAR的核心创新在于:它将全基因组测序与单细胞染色质可及性(scATAC-seq)数据整合,构建出细胞类型特异性的功能注释和调控元件库。研究团队指出,许多非编码变异的作用依赖于所在细胞类型,而传统的“混合样本”检测方式往往掩盖了这些关键差异。cellSTAAR则能“精准聚焦”,根据每种细胞的活性区域,为每个变异打上细胞类型的“功能标签”,显著提升了统计检测的灵敏度和生物学解释力。

在方法设计上,cellSTAAR不仅借助单细胞数据筛选出最可能发挥作用的基因组区域,还采用了多种基因-调控元件关联策略。例如,距离法、ABC模型、EpiMap、以及eQTL和三维染色质互作等多种主流方法,并通过ACAT统计方法将多种关联结果综合起来,最大程度捕捉真实的调控关系。这一“集成思路”有效应对了调控元件与基因关系的不确定性,让研究者不再受限于单一方法的局限。

研究团队以血脂相关性状(如LDL-C、HDL-C和甘油三酯)为例,分别在TOPMed和UK Biobank两大人群队列中进行了大规模分析。结果显示,cellSTAAR不仅发现了更多与脂质代谢相关的非编码变异,而且这些发现高度集中在已知与脂质调控密切相关的细胞类型,如肝脏细胞和脂肪细胞。这一结果不仅验证了cellSTAAR的有效性,也为疾病相关细胞类型的筛选和靶向治疗提供了新思路。

更令人振奋的是,cellSTAAR揭示了不少“被忽略”的调控元件与经典脂质基因(如APOE、APOA1、CETP等)之间的新型调控关系,有些甚至被不同的关联方法分别指向多个潜在靶基因,显示出非编码调控网络的复杂性和多样性。与传统方法相比,cellSTAAR在发现数量、统计显著性和生物学解释力上均有明显提升,尤其是在细胞类型分辨率和调控元件定位方面表现突出。

此外,研究还尝试将单细胞RNA测序数据整合进cellSTAAR,作为辅助信息提升分析功效。虽然初步结果显示表达数据对罕见变异关联提升有限,但团队认为,未来如果能获得更针对性、疾病状态相关的单细胞表达数据,cellSTAAR的威力还将进一步释放。

5 单细胞揭秘系统性硬化症:科学家发现免疫失衡新机制

文章:Single-Cell RNA SequencingRevealsImpaired Regulatory T Cell Function and a Pro-inflammatory Th17 Profile in Systemic Sclerosis

链接:https://www.biorxiv.org/content/10.64898/2026.01.03.697349v1

近日,西班牙格拉纳达、德国柏林及美国哈佛大学等多家研究机构联合发布了一项前沿成果,首次用单细胞RNA测序技术深入分析系统性硬化症(Systemic sclerosis,SSc)患者的外周血CD4+ T细胞,揭示了该疾病中免疫调节失衡的关键分子机制。这项发现不仅拓展了我们对自身免疫病的认识,还为未来精准治疗打开了新思路。

系统性硬化症是一种罕见但危害极大的自身免疫疾病,患者常表现为皮肤、血管和内脏器官的广泛纤维化,发病机制复杂,女性中年群体尤为高发。长期以来,科学家们一直在探索该病的免疫学基础,但由于免疫细胞类型众多、功能多样,传统研究手段难以揭示其细胞层面的动态变化。

本项研究团队选取了8名SSc女性患者和8名健康对照者,均为欧洲血统,通过最新的单细胞RNA测序技术,成功捕获并分析了超过8万例外周血CD4+ T细胞的基因表达和T细胞受体(TCR)特征。他们不仅详细分群了所有细胞,还追踪了各亚群的功能变化和分子“对话”。

研究发现,SSc患者的CD4+ T细胞呈现出明显的免疫激活特征。许多与干扰素(IFN)相关的激活基因,比如IFITM2,在患者群体中显著上调,这意味着患者体内的T细胞处于“高度警戒”状态,可能持续推动炎症和纤维化进程。其中最引人关注的是调节性T细胞(Treg)的功能障碍。Treg本是免疫系统的“刹车手”,负责抑制过度免疫反应,保护自身组织。但在SSc患者中,Treg细胞虽然数量未见明显变化,却出现了FCRL3基因的异常高表达。科学家指出,这一分子会削弱Treg的抑制功能,使免疫系统“刹车失灵”,加剧炎症和组织损伤。此外,Treg细胞还表现出TIGIT等免疫抑制分子的升高,进一步证实了其功能障碍。

更值得注意的是,帮助Treg发挥作用的AREG+初始T细胞在患者体内大幅减少。AREG是一种能增强Treg抑制力的分子,其缺失意味着免疫自我调节能力遭到更深层次破坏,这一发现为理解SSc免疫失衡提供了新线索。在促炎细胞方面,Th17细胞的“异常活跃”成为另一大亮点。SSc患者体内的Th17细胞不仅数量增加,还表现出强烈的促炎和耐药特征。例如MDR1基因在这些细胞中高表达,使其对常用糖皮质激素类抗炎药物产生耐药性。与此同时,Th17细胞还大量表达KLRB1/CD161、CCL20等促炎基因,持续推动免疫反应和组织损伤。这些异常Th17细胞的存在,不仅加重了病情,还可能让患者对药物治疗效果变差。

此外,Th2细胞也在SSc患者中明显增多,并处于高度激活状态。相关基因如GATA3、IL4R、XBP1等均大幅上调,显示出强烈的炎症和迁移能力。这种异常激活的Th2细胞进一步加剧了免疫系统的失控,或与疾病的慢性炎症和纤维化密切相关。

研究团队还对T细胞受体(TCR)进行了深入分析。结果显示,中央记忆T细胞(Tcm)在SSc患者中出现显著的克隆型扩增,意味着某些免疫细胞“家族”异常增多,可能与疾病的持续进展有关。不过,TCR基因的使用和表位识别并无明显偏差,总体多样性也未见显著变化,提示疾病机制远比想象复杂。



往期回顾

基于Seurat的单细胞分析流程再学习

Nature genetics | 单细胞数据揭示肺腺癌起源异质性:肿瘤位置关联性驱动演化

MIF肿瘤细胞介导食管鳞状细胞癌的免疫治疗耐药性

话八二 | 2025年度细胞类型:虚拟细胞

人类大脑皮层空间转录组图谱解析






如果你对单细胞转录组研究感兴趣,但又不知道如何入门,也许你可以关注一下下面的课程




看完记得顺手点个“在看”哦!


生物  | 单细胞 | 转录组丨资料
每天都精彩

长按扫码可关注


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/191402