Py学习  »  机器学习算法

NHANES数据库分析思路:6种机器学习算法+SHAP分析!这对搭子用起来了没?纯生信发文,实力在线!

生信图书馆 • 2 月前 • 246 次点击  

化学环境物质与疾病之间的关系大家首先想到的是什么?是不是网络毒理学,除了网络毒理学还有什么呢?看看这篇文章,应该能为大家扩宽思路。

馆长要给大家分享的是发表在《Ecotoxicology and Environmental Safety》期刊上的文章,这本期刊之前连续三年霸榜二区Top,现在对于纯生信的文章还是十分友好,今天要说的是东南大学团队的研究,他们想要探究环境化学物质与obesity之间的关系,用到了什么技术?数据来源是什么?感兴趣的宝子们跟着馆长一起看下去吧~

🔵这篇文章采用到了6种机器学习算法,用SHAP分析来识别关键预测因子,将变量对XGBoost模型的全局贡献可视化,证实了环境化学物质,如重金属、多环芳烃等与obesity之间存在很强的相关性。

🔵这篇文章的数据来自 NHANES数据库,颗粒度小,精确到个人水平数据,除了本研究应用在环境暴露评估中,还可以在慢病研究、营养状况分析等领域对该数据库进行分析。相比起GBD数据库来说,相应的研究还不是特别多,还是公开可下载的数据,想利用NHANES数据分析发文,请来联系馆长,这里有经验丰富的生信团队,定能为你的研究指点一二,还有咱生信人必备的服务器,锁定馆长,生信分析我们是专业的。

图片

研究思路

🔵研究人群来自NHANES数据库,环境化学物质选取了常见人类暴露的9类56种,拓宽了对化学物质影响的理解。

🔵ML模型包括SVM、KNN、RF、NB、AdaBoost和XGBoost,6种。ML算法能够揭示原本可能被忽视的复杂关系和非线性模式

🔵SHapley解释基于合作博弈论中的Shapley值理论,用于评估每个特征对模型预测的影响,为复杂的机器学习模型提供透明度。

选题介绍

🔵Obesity会扰乱多个器官和组织的代谢功能,导致2型糖尿病、脂肪肝、高胆固醇和动脉粥样硬化等疾病,严重损害患者的生活质量。遗传因素会导致obsity,环境因素更容易改变,但同时也为改善和干预提供重要机会。

研究结果

图片

图1 使用六个评估指标比较了六种机器学习模型预测全身性/腹部obsity的性能

图片

图2 SHAP模型贡献的可视化

图片

图3 全身性/腹腔性obsity与前五名SHAP值中的环境化学物质的关联

图片

图4 全身性/腹部obsity与前五种SHAP值中的环境化学物质的剂量反应关系图

馆长总结

这篇文章采用机器学习+SHAP分析的方法,调查多种环境化学物质与obsity之间的关联,并确定具有obsity风险预测价值的特定化学物质,探讨了血脂在环境化学物质与obsity关联中的中介作用,除了构建预测模型外,本研究主要关注单个化学物质,其中重金属和多环芳烃被确定为所研究化学物质中obsity风险的最强预测因子。

这篇文章也有一定的局限性,获得的研究结果还需要独立的外部数据集进行验证。当然NHANES还可以与其他数据库联合应用,如NHANES+GBD:多维评估铅暴露与疾病之间的关系,除了这一联合应用,宝子们还有那些好的想法可以留言。如果你也想纯生信发文,赶紧滴滴馆长吧,晚一步,发文难度高一层呀,咱这的专业团队,十年经验,生信分析和思路定制都可以!

馆长有话说

馆长会持续为大家带来最新生信思路,也可以提供特色数据库构建、思路评估、生信分析等服务,对数据库构建和生信分析感兴趣的朋友可以咨询馆长哦!

生信分析

方案设计

生信服务器

孟德尔随机化

网络药理学

单细胞测序

临床公共数据库分析

往期推荐

1.IF: 93.6!恭喜海南医科大学,比较GBD数据库与真实世界数据差异,4图拿下BMJ!

2.张伯礼等院士发布共识:AI+中医药势在必行!兰大一院团队紧跟潮流:中药单体+网药+分子对接+8种机器学习,共振中医药创新!

3.5个样本是怎么发IF=23的?瑞金医院陈赛娟院士团队告诉你,单细胞测序就能办到!

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/183498
 
246 次点击