社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

40天斩获2区7分+,机器学习+SHAP解释,嘎嘎好用!淮安一院这招太顶了!

生信图书馆 • 4 月前 • 137 次点击  

AI已经融入到各个领域,在咱们生信圈中用的更多的还是当属“机器学习”,有多好用呢?

机器学习刚开始的时候就是高分杂志的敲门砖,现在用“机器学习+SHAP解释”还能直接让一个经典思路4、5分左右的文章提高2分,这效果是真的很不错了,并且正因为它的热度和发文实力,已经越来越多的人开始用上了这个高端技术,馆长预测这个方法几个月估计就普及开了,现在入手还能分一杯羹吃上红利,普及以后只能跟着喝口汤了···

不能光说不练,下面看个示例文章,由淮安一院团队发表: 这篇文章整体就是一个预后分析的大框架,但在模型构建和解释时使用了机器学习算法和SHAP分析,这块也分析的比较细致,当然出图也多,创新性和内容丰富度都有所提升。后续针对目标基因又进行了单基因分析和实验验证,干湿结合,结果更可靠,也更受审稿人喜欢,并且针对这个目标基因后续还可以开展一些机制探索组学或实验,形成大课题,一举两得~

机器学习+SHAP等模型可解释性分析思路已经在生信文章中逐渐流行起来,一旦普及发高分的难度也会直线上升,想占据较大发文优势的朋友需尽早上车!另外,SHAP这种新技术会有些难度,有能力自己实操的宝子,希望馆长的生信服务器可以助你一臂之力,自己实操搞不定的朋友也可以找馆长来帮你,背靠拥有十年经验的分析团队,创新思路设计、个性化生信分析、生信服务器应有尽有,请放心说出你的需求!

定制生信分析

生信服务器

加好友备注“99”领取试用

题目:UBTD2蛋白分子是神经胶质瘤中的一个关键预后蛋白标记:来自整合组学和机器学习分析的见解

杂志:International Journal of Biological Macromolecules(IF=7.7)

日期:2025年4月

研究背景

外源性雌激素(XEs)是可以模拟或破坏正常雌激素信号的化合物,从而损害生物体的内分泌功能。已有研究表明,XEs暴露可能影响肾功能,但XEs和慢性肾脏疾病(CKD)之间的潜在关系和确切机制并不清楚。

研究思路

首先基于两个公共数据集进行差异表达分析鉴定胶质瘤的特征基因,Venn分析确定DEGs,并进行GO和KEGG富集分析。基于LASSO分析确定关键基因,而SHAP模型用于评估影响胶质瘤预测模型的关键基因及其相互作用。对UBTD2进行进一步单基因表达、预后和功能分析,并利用体外实验验证其在胶质瘤细胞中的功能。(ps:这里的机器学习分析数据处理量比较大,还是建议用生信服务器,馆长这里提供带GPU的服务器,可以为分析大幅提速,有需要直接联系馆长吧~)

主要结果

1. 差异表达分析鉴定出80个上调重叠基因,富集分析显示这些基因主要参与有丝分裂过程和染色体稳定性,在细胞周期、p53 信号途径和运动蛋白等途径中富集

图1:DEGs的识别

图2:数据合并筛选DEGs

图3:Veen分析重叠DEGs

图4:DEGs 的功能和途径富集分析

2.LASSO 分析最终识别出GRM7、NCAPG、C1orf216、CEP55、USP3、GJC1、C2orf55 和 UBTD2作为胶质瘤差异表达谱中的关键基因。基于这些基因的ML模型评估显示,XGBoost 实现了最高的灵敏度和特异性,优于其他模型

图5:LASSO 分析

图6:不同模型的 ROC 分析

3. SHAP分析示影响胶质瘤预测模型的关键因子,显示NCAPG 和 GRM7 是最有影响力的基因,其次是CEP55、GJC1、C2orf55、C1orf216、USP3 和 UBTD2

图7:SHAP 模型

4. SHAP 分析揭示了神经胶质瘤预测模型中基因标记的相互作用

图8:SHAP分析基因相互作用

5.关键特征对模型预测结果的贡献分析显示,GRM7、GJC1 和 USP3 是最有影响力

的特征,对预测有显著贡献,而 NCAPG、CEP55 和其他特征的作用相对较小

图9:SHAP 分析关键特征对模型预测结果的贡献

6. SangerBox 分析显示,神经胶质瘤肿瘤样品中 CEP55、GJC1、NCAPG、UBDT2 和 USP3 显著上调,由于UBDT2研究较少,所以选其进行进一步分析

图10:蛋白表达验证

7. 单基因分析显示,UBTD2 的表达与胶质瘤的低存活率和细胞周期调控相关

图11:UBTD2 分析

8. UBTD2 沉默通过上调 p53 表达抑制细胞增殖和侵袭

图12:表达验证

图13:UBTD2 沉默抑制细胞增殖和侵袭

小结

这篇文章机器学习+SHAP方法的应用,创新性比较高,给经典预后思路增色不少。整体思路不是很复杂但机器学习和SHAP的实操和复现还是有一定难度的,不过正因为此才容易发高分,比较适合有一定生信基础的朋友实践(需要生信服务器直接找馆长),换个疾病或研究目标,模仿这个思路还能继续发纯生信!生信0基础的朋友,想实践建议找馆长帮忙,专业的思路设计和生信分析团队为您提供1V1的方案定制服务,有需要随时联系!

馆长有话说

馆长会持续为大家带来最新生信思路,也可以提供特色数据库构建、免费思路评估、付费生信分析等服务,对数据库构建和生信分析感兴趣的朋友可以咨询馆长哦!

生信分析

方案设计

生信服务器

孟德尔随机化

网络药理学

单细胞测序

临床公共数据库分析

往期推荐

1.IF: 93.6!恭喜海南医科大学,比较GBD数据库与真实世界数据差异,4图拿下BMJ!

2.张伯礼等院士发布共识:AI+中医药势在必行!兰大一院团队紧跟潮流:中药单体+网药+分子对接+8种机器学习,共振中医药创新!

3.5个样本是怎么发IF=23的?瑞金医院陈赛娟院士团队告诉你,单细胞测序就能办到!

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/182377
 
137 次点击