数据收集与质控
整合NCBI GEO/ArrayExpress 8个公开数据集,共>15,000细胞;经fastp、STAR、HTSeq、Seurat质控后保留高质量细胞。
PanSubPred模型构建
MIC、ANOVA、F-score、PCA、GBDT、Gini等六法联合,增量特征选择(IFS)
SVM、RF、XGBoost、LR对比,最终XGBoost最优
Baron et al. 70/30内部划分,外部验证Segerstolpe、Enge、Ngara数据集
64个标记基因(38新),跨数据集AUC>0.97;与caSTLe、scID、scPred、CellTypist相比性能领先。
PSC-Stat星状细胞激活分类器
量化静息(qPSC)与激活(aPSC)状态
400 PSC单细胞数据,70/30划分
17个PSC特异基因→Gini选前15基因(MMP14、TIMP1…)
XGBoost建模
5-fold CV AUC=0.963;独立测试AUC=0.978;T2D验证AUC=0.992;外部队列验证AUC 0.835–0.886。
细胞间通讯分析
使用CellCall、CellChat、CellphoneDB解析T2D对胰腺细胞互作网络的重构
ND网络以星状/导管细胞为核心;T2D全局信号减弱但导管中心增强
关键轴:FGF7-FGFR2/3、EFNB3-EPHB2/4/6、EFNA5-EPHA2
下游TF:ETS1、JUN、MYC、NFKB1、NFKBIA、ABL1
构建15基因导管特征(含RPL3、KRT19、S100A6等),训练集AUC=0.884,外部验证AUC=0.846。
β细胞异质性分析
用Seurat聚类→Monocle伪时间→scVelo RNA速率揭示T2D相关β细胞亚群变化
3个β亚群:成熟(cluster 0)、未成熟(cluster 1)、ER应激(cluster 2)
T2D中成熟β细胞比例显著下降,未成熟及ER应激亚群增加
RNA速率提示成熟细胞向ER应激/未成熟状态转化趋势。
非β细胞亚群分析
评估腺泡、导管、α细胞在T2D中的异质性
腺泡:炎症/代谢应激亚群(cluster 1)在T2D中比例升高
导管:分泌型亚群(cluster 1)在T2D中显著扩张
α细胞:发现增殖型亚群(cluster 2,CDK1+MKI67+),可能参与再生。
功能富集与通路评分
使用clusterProfiler GO/KEGG、Seurat AddModuleScore解释亚群生物学功能
成熟β细胞富集胰岛素分泌、线粒体代谢;ER应激β细胞富集UPR、ERAD;炎症腺泡富集细胞因子产生;分泌型导管富集消化液分泌通路。
机器学习驱动的标志物验证
跨数据集交叉验证、独立队列ROC分析,确保发现特征的可重复性与临床转化潜力
PanSubPred与PSC-Stat在所有测试集保持AUC>0.83;15基因导管特征在多个独立T2D胰腺数据集稳健。