Py学习  »  机器学习算法

IF 9.4!新工具---scProTrans!基于序列知识的深度学习方法,用于单细胞多组学转化研究

Med-MIMIC • 17 小时前 • 18 次点击  

点击蓝字

关注我们

单细胞转录组测序日趋成熟,但受成本与技术瓶颈制约,单细胞蛋白组难以高通量测定;蛋白直接决定细胞功能,是疾病机理探究、标志物筛选的关键依据。现有跨组学预测模型依赖配对多组学样本训练,难以适配未知蛋白与异源测序平台。
据此研究构建融合基因、蛋白序列生物学先验的深度学习框架scProTrans,完成单细胞转录组向蛋白组的精准换算,在零样本预测、跨测序平台、跨细胞亚型等多种复杂场景性能突出,为低成本扩充单细胞蛋白图谱提供新方案。
如果您在方案设计或生信分析上遇到难题,不妨联系科信服!咱们团队拥有十余年技术沉淀,能提供从个性化思路设计到完整生信分析的一站式服务,助力您高效产出高分成果!

中文题目:一种基于序列知识的深度学习方法,用于单细胞多组学翻译

发表期刊:Genome Biol

发表时间:2026年4月

研究背景

蛋白质分析对于理解生物过程、疾病发病机制以及推进治疗开发至关重要。然而,与单细胞RNA测序数据的指数级增长相比,蛋白质组分析仍显著受限,这主要因大规模蛋白质检测的技术挑战和高昂成本。多组学技术的最新进展建立了转录组与蛋白质组层之间的重要联系,促进了基于转录组数据预测蛋白质丰度的创新计算方法。

研究思路

scProTrans由基因、蛋白、细胞编码、跨组学注意力翻译、损失优化五大模块构成,依托序列预训练与交叉注意力实现组学转换,可支撑零样本预测、聚类、标志物筛选、扰动解析、多组学拓展等多项下游分析。


        研究结果

        1

        scProTrans概述

          scProTrans 通过多组学数据与三大编码器提取基因、蛋白、细胞特征,依托多头交叉注意力核心模块挖掘基因 - 蛋白关联、预测蛋白丰度,突破传统数据局限,可支撑多种单细胞下游分析,且支持三组学翻译任务。

            2

            单细胞蛋白丰度翻译的系统评估

            基于14套异质性多组学数据集,与6种主流算法对比,从同数据集、跨细胞类型、跨批次、跨测序技术四类场景验证scProTrans:该模型预测误差更低、平均相关系数91.4%,可精准还原细胞特异性蛋白表达与疫苗刺激时序变化,依托序列先验信息,在各类变异条件下泛化与稳定性最优。

                3

                细胞聚类和亚型揭示的性能

                利用拆分数据集验证聚类效果,六项评价指标显示:scProTrans预测蛋白谱聚类效果优于原始转录组与实测蛋白数据,可精细分辨常规方法难以区分的T细胞亚群;还能区分同种细胞的空间亚群、筛选亚群特有差异蛋白,助力细胞亚型划分与标志物挖掘。

                    4

                    通过交叉组学翻译模块发现单细胞基因-蛋白质关联

                    跨组学注意力模块可量化基因-蛋白关联,高权重基因多为细胞已知标志物;相较传统差异倍数,注意力分值联合后者能显著提升标志基因筛选准确率,还可在单细胞水平解析基因蛋白互作的共性与细胞异质性。

                      5

                      借助零样本迁移机制推导缺失的蛋白表达谱

                      现有算法只能预测训练集蛋白,受CITE-seq局限无法预测胞内未知蛋白;scProTrans依托基因蛋白序列先验实现零样本预测,可精准还原多种未训练蛋白表达,其借助同源蛋白序列相似性推导未知蛋白表达;该零样本预测受训练蛋白占比影响小、稳定性佳,能拓展多组学的蛋白分析范围。

                        6

                        基于单细胞蛋白质组转化工具scProTrans的蛋白质组扰动响应分析

                        依托scProTrans可由转录组推演扰动后的蛋白谱:在狼疮IFN-β刺激数据中,筛选得到差异蛋白并富集出免疫、粘附及狼疮关键PI3K-Akt通路,明确单核细胞亚型应答差异;另用IL2刺激独立数据集验证,模型可精准预测扰动引发的蛋白丰度变化,差异蛋白重合度高、表达升降趋势与实测相符,适用于药物、致病刺激等扰动应答研究。

                        7

                        将scProTrans扩展至更多组学模式

                        scProTrans拓展支持三组学与空间组学转换:依托五套三组学数据,改造编码器可实现表观组→蛋白、表观组→转录组精准预测,各数据集预测相关性超86%;在皮肤空间组学数据上可由空间转录组零样本还原关键致病标志物的蛋白空间分布,相关系数超90%,弥补空间蛋白测序稀缺的短板。

                                文章小结

                                这项工作通过建立序列感知的跨模态翻译范式,推动了多组学集成,克服了蛋白质组数据采集中的关键局限。这种模块化架构及其零发射能力使其成为新兴多模态单胞体技术的多功能平台。

                                别让繁琐的数据分析拖慢科研进度!西安科信服生物的专业团队,懂你所需、解你所难:转录组、单细胞、肠道菌群…… 无论哪个领域,机器学习、孟德尔随机化等工具信手拈来。从数据到结论,从思路到成果,一站式服务让你专注科学本身。现在就联系我们,让你的科研之路少走弯路,快速产出高质量成果,离顶刊更近一步!

                                END




                                往期推荐




                                IF 15.1!单细胞 + 空间 + 可解释 AI,锁定前列腺癌致命预后轴!1 篇 npj 子刊完整思路拆解

                                IF 7.5!肝纤维化离子通道基因标志物再突破!AQP1/GJA1/KCNN2 三基因精准诊断 + 16 种老药新用,抗纤维化新靶点来了

                                IF 5.1!CIK 细胞联合免疫治疗再发高分!单细胞 + 转录组 + 机器学习,手把手复现 ccRCC 预后模型思路



                                Python社区是高质量的Python/Django开发社区
                                本文地址:http://www.python88.com/topic/197629