Py学习  »  机器学习算法

40天斩获2区7分+,机器学习+SHAP解释,嘎嘎好用!淮安一院这招太顶了!

生信图书馆 • 2 月前 • 104 次点击  

AI已经融入到各个领域,在咱们生信圈中用的更多的还是当属“机器学习”,有多好用呢?

机器学习刚开始的时候就是高分杂志的敲门砖,现在用“机器学习+SHAP解释”还能直接让一个经典思路4、5分左右的文章提高2分,这效果是真的很不错了,并且正因为它的热度和发文实力,已经越来越多的人开始用上了这个高端技术,馆长预测这个方法几个月估计就普及开了,现在入手还能分一杯羹吃上红利,普及以后只能跟着喝口汤了···

不能光说不练,下面看个示例文章,由淮安一院团队发表: 这篇文章整体就是一个预后分析的大框架,但在模型构建和解释时使用了机器学习算法和SHAP分析,这块也分析的比较细致,当然出图也多,创新性和内容丰富度都有所提升。后续针对目标基因又进行了单基因分析和实验验证,干湿结合,结果更可靠,也更受审稿人喜欢,并且针对这个目标基因后续还可以开展一些机制探索组学或实验,形成大课题,一举两得~

机器学习+SHAP等模型可解释性分析思路已经在生信文章中逐渐流行起来,一旦普及发高分的难度也会直线上升,想占据较大发文优势的朋友需尽早上车!另外,SHAP这种新技术会有些难度,有能力自己实操的宝子,希望馆长的生信服务器可以助你一臂之力,自己实操搞不定的朋友也可以找馆长来帮你,背靠拥有十年经验的分析团队,创新思路设计、个性化生信分析、生信服务器应有尽有,请放心说出你的需求!

定制生信分析

生信服务器

加好友备注“99”领取试用

题目:UBTD2蛋白分子是神经胶质瘤中的一个关键预后蛋白标记:来自整合组学和机器学习分析的见解

杂志:International Journal of Biological Macromolecules(IF=7.7)

日期:2025年4月

研究背景

外源性雌激素(XEs)是可以模拟或破坏正常雌激素信号的化合物,从而损害生物体的内分泌功能。已有研究表明,XEs暴露可能影响肾功能,但XEs和慢性肾脏疾病(CKD)之间的潜在关系和确切机制并不清楚。

研究思路

首先基于两个公共数据集进行差异表达分析鉴定胶质瘤的特征基因,Venn分析确定DEGs,并进行GO和KEGG富集分析。基于LASSO分析确定关键基因,而SHAP模型用于评估影响胶质瘤预测模型的关键基因及其相互作用。对UBTD2进行进一步单基因表达、预后和功能分析,并利用体外实验验证其在胶质瘤细胞中的功能。(ps:这里的机器学习分析数据处理量比较大,还是建议用生信服务器,馆长这里提供带GPU的服务器,可以为分析大幅提速,有需要直接联系馆长吧~)

主要结果

1. 差异表达分析鉴定出80个上调重叠基因,富集分析显示这些基因主要参与有丝分裂过程和染色体稳定性,在细胞周期、p53 信号途径和运动蛋白等途径中富集

图1:DEGs的识别

图2:数据合并筛选DEGs

图3:Veen分析重叠DEGs

图4:DEGs 的功能和途径富集分析

2.LASSO 分析最终识别出GRM7、NCAPG、C1orf216、CEP55、USP3、GJC1、C2orf55 和 UBTD2作为胶质瘤差异表达谱中的关键基因。基于这些基因的ML模型评估显示,XGBoost 实现了最高的灵敏度和特异性,优于其他模型

图5:LASSO 分析

图6:不同模型的 ROC 分析

3. SHAP分析示影响胶质瘤预测模型的关键因子,显示NCAPG 和 GRM7 是最有影响力的基因,其次是CEP55、GJC1、C2orf55、C1orf216、USP3 和 UBTD2

图7:SHAP 模型

4. SHAP 分析揭示了神经胶质瘤预测模型中基因标记的相互作用

图8:SHAP分析基因相互作用

5.关键特征对模型预测结果的贡献分析显示,GRM7、GJC1 和 USP3 是最有影响力

的特征,对预测有显著贡献,而 NCAPG、CEP55 和其他特征的作用相对较小

图9:SHAP 分析关键特征对模型预测结果的贡献

6. SangerBox 分析显示,神经胶质瘤肿瘤样品中 CEP55、GJC1、NCAPG、UBDT2 和 USP3 显著上调,由于UBDT2研究较少,所以选其进行进一步分析

图10:蛋白表达验证

7. 单基因分析显示,UBTD2 的表达与胶质瘤的低存活率和细胞周期调控相关

图11:UBTD2 分析

8. UBTD2 沉默通过上调 p53 表达抑制细胞增殖和侵袭

图12:表达验证

图13:UBTD2 沉默抑制细胞增殖和侵袭

小结

这篇文章机器学习+SHAP方法的应用,创新性比较高,给经典预后思路增色不少。整体思路不是很复杂但机器学习和SHAP的实操和复现还是有一定难度的,不过正因为此才容易发高分,比较适合有一定生信基础的朋友实践(需要生信服务器直接找馆长),换个疾病或研究目标,模仿这个思路还能继续发纯生信!生信0基础的朋友,想实践建议找馆长帮忙,专业的思路设计和生信分析团队为您提供1V1的方案定制服务,有需要随时联系!

馆长有话说

馆长会持续为大家带来最新生信思路,也可以提供特色数据库构建、免费思路评估、付费生信分析等服务,对数据库构建和生信分析感兴趣的朋友可以咨询馆长哦!

生信分析

方案设计

生信服务器

孟德尔随机化

网络药理学

单细胞测序

临床公共数据库分析

往期推荐

1.IF: 93.6!恭喜海南医科大学,比较GBD数据库与真实世界数据差异,4图拿下BMJ!

2.张伯礼等院士发布共识:AI+中医药势在必行!兰大一院团队紧跟潮流:中药单体+网药+分子对接+8种机器学习,共振中医药创新!

3.5个样本是怎么发IF=23的?瑞金医院陈赛娟院士团队告诉你,单细胞测序就能办到!

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/182377
 
104 次点击