Py学习  »  机器学习算法

IF=10.6,单细胞+机器学习发双1区Top的秘诀是?纯公共数据+0实验,国自然资助项目→

挑圈联靠 • 1 周前 • 35 次点击  

欢迎来看雪球的生信套路!学习今天的单细胞SCI之前,先问问大家:国自然已经放榜,有没有关注相关消息?


取消“申二停一”(面上连续2年不中,需暂停1年申报)后申请形势更加激烈,申请量增幅大于资助量增幅。如何设计出延续性可行性高的好主题、写出重点明确的好本子,都是重中之重。而一个延续性、可行性高的主题,又离不开前期工作的文章、预实验支持。


今天我们解读的IF10+文献受到了国自然基金支持。一起来看看他们怎么用机器学习加速单细胞多谱系探索:

生信/临床数据分析课题陪跑

添加雪球,回复“个性化”1v1咨询


Interpretable machine learning-guided single-cell mapping deciphers multi-lineage pancreatic dysregulation in type 2 diabetes

可解释机器学习引导的单细胞图谱解析2型糖尿病中多谱系胰腺失调情况


期刊:Cardiovascular Diabetology

IF:10.6

发布时间:2025/07/24


研究背景



人类胰腺是全身代谢调节的中心枢纽,外分泌内分泌双重功能维持营养稳态。胰腺功能在很大程度上取决于高度异质的细胞网络,且胰腺中经典定义的细胞类型表现出显著的亚群差异,这些细胞异质性使人类胰腺的分子研究变得复杂。

虽然现有研究已经绘制了非糖尿病(ND)和糖尿病个体的细胞类型特异性分子普,但标记基因(尤其是胰腺外分泌细胞中)的差异,阻碍了跨数据集比较和亚群的深入功能分析。

尽管胰腺细胞异质性(如不同的亚群)有据可查,机器学习算法也能够构建稳健的分类模型,促进细胞注释和发现新的细胞标记;但胰腺细胞对T2D发病机制功能贡献仍不清楚。


 技术路线 


数据收集与质控

整合NCBI GEO/ArrayExpress 8个公开数据集,共>15,000细胞;经fastp、STAR、HTSeq、Seurat质控后保留高质量细胞。


PanSubPred模型构建

MIC、ANOVA、F-score、PCA、GBDT、Gini等六法联合,增量特征选择(IFS)

SVM、RF、XGBoost、LR对比,最终XGBoost最优

Baron et al. 70/30内部划分,外部验证Segerstolpe、Enge、Ngara数据集

64个标记基因(38新),跨数据集AUC>0.97;与caSTLe、scID、scPred、CellTypist相比性能领先。


PSC-Stat星状细胞激活分类器

量化静息(qPSC)与激活(aPSC)状态

400 PSC单细胞数据,70/30划分

17个PSC特异基因→Gini选前15基因(MMP14、TIMP1…)

XGBoost建模

5-fold CV AUC=0.963;独立测试AUC=0.978;T2D验证AUC=0.992;外部队列验证AUC 0.835–0.886。


细胞间通讯分析

使用CellCall、CellChat、CellphoneDB解析T2D对胰腺细胞互作网络的重构

ND网络以星状/导管细胞为核心;T2D全局信号减弱但导管中心增强

关键轴:FGF7-FGFR2/3、EFNB3-EPHB2/4/6、EFNA5-EPHA2

下游TF:ETS1、JUN、MYC、NFKB1、NFKBIA、ABL1

构建15基因导管特征(含RPL3、KRT19、S100A6等),训练集AUC=0.884,外部验证AUC=0.846。


β细胞异质性分析

用Seurat聚类→Monocle伪时间→scVelo RNA速率揭示T2D相关β细胞亚群变化

3个β亚群:成熟(cluster 0)、未成熟(cluster 1)、ER应激(cluster 2)

T2D中成熟β细胞比例显著下降,未成熟及ER应激亚群增加

RNA速率提示成熟细胞向ER应激/未成熟状态转化趋势。


非β细胞亚群分析

评估腺泡、导管、α细胞在T2D中的异质性

腺泡:炎症/代谢应激亚群(cluster 1)在T2D中比例升高

导管:分泌型亚群(cluster 1)在T2D中显著扩张

α细胞:发现增殖型亚群(cluster 2,CDK1+MKI67+),可能参与再生。


功能富集与通路评分

使用clusterProfiler GO/KEGG、Seurat AddModuleScore解释亚群生物学功能

成熟β细胞富集胰岛素分泌、线粒体代谢;ER应激β细胞富集UPR、ERAD;炎症腺泡富集细胞因子产生;分泌型导管富集消化液分泌通路。


机器学习驱动的标志物验证

跨数据集交叉验证、独立队列ROC分析,确保发现特征的可重复性与临床转化潜力

PanSubPred与PSC-Stat在所有测试集保持AUC>0.83;15基因导管特征在多个独立T2D胰腺数据集稳健。



 研究结果 


Fig 1 PanSubPred 的构建和表征


Fig 2 PSC-Stat的构建和评估


Fig 3 分析 ND 和 T2D 中胰腺细胞之间的细胞间通讯


Fig 4 scRNA-seq 分析揭示了 T2D 促进的 β 细胞异质性的变化


Fig 5 非 β 胰腺细胞的功能和分子异质性


3个月特训攻克单细胞、孟德尔等多种生信/临床数据分析套路

分析工程师内训同款

扫码后回复卓越计划咨询报名详情


可以用免费工具进行课题调研,先人一步!







生信分析离不开对各大公共数据库的使用。或挖掘,或验证,总有挑分子、找机制的基本功。平常临床/学习太忙,没时间系统学,代码报错搞不定,怎么办?


生信+临床数据挖掘两大版块,分析工程师同款内部培训资料,试试在卓越计划冲刺3个月从新手变能手!教练全程答疑,独设连续2天线下课,攻坚SCI复现实操最后一公里。用自己的课题数据复现,加速独立出科研成果👆

同时,多种课题申请竞争中,对申请者科研代表作有较高要求。想要打破自己目前的科研瓶颈,冲击更高层次的SCI,优化课题与分析,也来添加雪球,回复“个性化”咨询定制吧!

 雪球的生信套路 每周周中讲解 

平台改版,记得星标⭐

才不会错过更新哦

科研小白如何入门纯生信,记得来看最新的复现栏目,生信分析师一步一步教你做🚗有时间学习的小伙伴赶紧动起来,暂时忙碌的小伙伴收藏起来吧!

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/186102
 
35 次点击