Py学习  »  机器学习算法

听说现在流行机器学习+SHAP建模?中南大学湘雅二院凭它联合单细胞分析,纯生信斩获6分+,发文实力强劲,是时候紧跟潮流来一篇了

生信塔 • 5 月前 • 610 次点击  

听说,现在流行用机器学习+SHAP建模来发文?实力咋样?

生信塔今天收到这样一条私信,能看出来咨询这个问题的朋友也是站在生信前沿啊,现在确实慢慢流行机器学习+SHAP建模,新技术联用创新性高,有一定的技术难度,还没有大范围铺开使用,所以发文实力也不错!有一定生信基础的朋友可以尝试用下,能为文章增色不少,不过这个技术对于小白难度就有些大了,不过也可以找生信塔帮忙,背靠专业生信分析团队,十年经验打底,请说出你的需求~

老规矩,还是看一篇新文章:

这篇文章是单细胞分析联合机器学习建模,纯生信就发了2区6分+,性价比超高,思路新颖,比较推荐模仿复现!

1.选题:该研究选择黑色素瘤和NK细胞作为研究目标,肿瘤免疫的研究量很大了,要打造文章创新性就得从思路设计和分析方法入手了

2.思路设计:该研究利用单细胞分析筛选NK细胞标记基因,然后用10种机器学习算法+SHAP+LIME来建模,思路设计有一定的创新性,使用的技术手段比较新,整体新颖性较高,所以能只用纯生信就发2区6分+,推荐大家去模仿复现!


文章的思路设计和分析都有其创新性,机器学习+SHAP流行趋势已起,想早早吃螃蟹的朋友可以模仿这个思路再发一篇,纯生信就能发文的机会可不多了,有想法就速速上车吧!做课题没思路?想实践没条件?找生信塔!创新思路设计、个性化生信分析方案定制,生信服务器,你所需的服务我应有尽有,欢迎来询~

题目:整合可解释机器学习和多组学分析用于具有免疫治疗反应的癌症的生存预测

杂志:Apoptosis(IF=6.1)

日期:2024年12月

研究思路

首先基于黑色素瘤的 scRNA-seq 数据识别NK细胞的标记基因。利用10种机器学习(ML)算法筛选特征基因,为了明确阐明模型的决策过程并揭示新的发现,采用了一种结合机器学习和SHAP以及LIME的可解释技术,并从这些机器学习(ML)中识别出四个基因EPGN、PHF11、RBM34和ZFP36,用于构建预测模型(NKECLR)。最后,在GEO数据中验证模型的有效性,并研究了NKECLR 评分、33 种癌症的药物敏感性、CNV、免疫相关 mRNA 和黑色素瘤对免疫疗法的反应之间的联系。

图1:研究流程图

主要结果

1. 单细胞分析识别NK细胞标记基因

使用单细胞数据进行分析,聚类为12个细胞群体,对细胞进行注释后,发现NK细胞和其917个标记基因(图2)。随后利用CellChat进行细胞间通讯分析(图3)。

    

图2:单细胞分析识别NK细胞标记基因

图3:细胞间通讯分析

2. 机器学习特征基因筛选和模型构建

基于917个NK细胞标记基因,利用10种机器学习算法筛选特征基因,并通过准确度、召回率、精确度、F1、kappa 和 MCC 得分这些指标来评估不同算法的效率。结果发现LightGBM、CatBoost、ET 和 RF 模型表现出优异的性能,用于后续分析(图4,图5)。为了了解 LightGBM、Catboost、Et 和 RF 等模型的核心功能,作者利用SHAP和 LIME这两种模型可解释性技术评估每个因素对黑色素瘤预测的影响。将4个ML模型特征基因取交集得到9个交叉基因,LOSS回归选择了5个基因,再根据SHAP和 LIME分析仅选择最有影响力的前 4 个基因(EPGN、PHF11、RBM34 和 ZFP36),来构建风险模型(NKECLRscore)(图6-7)。根据中位风险评分将患者分为高低风险组进行KM分析,发现高风险组的预后较差,ROC曲线显示其良好预测性能(图8)。(ps:生信想做的又快又好?一定得用服务器!生信日报提供服务器租赁服务,想要免费试用直接联系生信塔,还有超多优惠等你来询)

图4:训练集中 10 个机器学习模型的完整评估柱状图

图5:训练集中的 10 个机器学习模型的评估

图6:用于分析个人预测结果的 SHAP 力图和 LIME 算法

图7:使用 RF、ET 和 LightGBM 模型中的 LIME 算法对正常人和黑色素瘤病例进行比较

图8:风险评分的构建和验证

3. 免疫相关性分析

首先在单细胞水平上分析了4个特征基因的表达和分布(图9)。然后在单细胞水平上分析了免疫细胞与黑色素瘤细胞之间的相互作用(图10)。结果发现,高 NKECLR 黑色素瘤细胞与 CD8+T、初始 CD4+T、B 细胞、上皮细胞、NK细胞等有相互作用。

 

图9:4个特征基因的表达和分布

图10:免疫细胞与黑色素瘤细胞之间的相互作用分析

4. 列线图的构建和评估

结合临床因素和风险评分构建列线图,校准曲线证实了列线图在识别黑色素瘤中的稳健性,DCA曲线显示了使用列线图在诊断黑色素瘤中的净收益(图11)。

图11:列线图的构建和评估

5. NKECLR 能够预测免疫疗法对黑色素瘤患者的益处和抗癌药物的敏感性

图12:免疫治疗反应和药敏性分析

6. 四种基因在泛癌组织中的表达

图13:基因泛癌表达验证

小结    

这篇文章的内容非常丰富,思路设计和分析具有创新性,工作量比较大,整体复现有一定的难度,但容易发高分,还能发纯生信,比较适合有一定生信基础的朋友实践(需要生信服务器直接找生信塔),换个小众疾病,模仿这个思路还能发的更高!生信0基础的朋友,想实践建议找生信塔帮忙,专业的思路设计和生信分析团队为您提供1V1的方案定制服务,有需要随时联系!更划算哦!

生信塔有话说


生信塔公众号持续为大家带来最新生信思路,更多创新性分析思路请点击往期推荐,快来查看吧!想复现这种思路或者定制更多创新性思路欢迎直接call生信塔,我们团队竭诚为您的科研助力!


文献思路复现

定制生信分析

生信服务器


 往期 · 推荐 

IF 16.7!高质量、综合GBD数据库炸裂登场!武大中南医院&湖北医科大襄阳医院携手,3图3表拿下高分,简直美滋滋~

十投九中+纯生信友好=神刊!复旦肿瘤医院李大卫团队2区6分模板文,单细胞数据挖掘+乳酸化修饰,科研人错过血亏!

11种机器学习“飞”上1区Top,诺奖热点不容错过!苏州大学李艳红团队,预后模型这波操作太燃了!

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/178622
 
610 次点击