社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

“机器学习+SHAP”火出圈?如果再搭档“GBD数据库”呢?暨南大学巧妙利用王炸组合直冲8+Top!

生信图书馆 • 4 周前 • 67 次点击  

2024年的诺奖带火了AI也让机器学习一度翻红,目前,利用机器学习的生信分析思路也在不断升级,其中最火的莫属联合SHAP解释了。SHAP可以计算每个模型对预测的贡献,以发现模型的潜在问题,提高模型的精准预测能力。

最近,暨南大学团队别出心裁的利用了“机器学习+SHAP”和GBD数据库这个组合分析了全球碘缺乏症的疾病负担。

1. GBD 2021数据的应用为全面评估碘缺乏症的全球负担提供了更全面的视角。

2.首次将XGBoost模型与SHAP分析相结合,用于预测碘缺乏症的全球负担。不仅提高了预测的准确性,还增强了模型的可解释性。

目前,这个组合形式全网发文量只有3篇!

图片

图片

总之,这个组合目前竞争力和创新性都十分在线,大家抓紧上车吧!不会选题?机器学习+SHAP分析实操有难度?那就找馆长!方案设计、个性化生信分析,生信服务器,你所需的服务我应有尽有,欢迎来询~

定制生信分析

生信服务器

加好友备注“99”领取试用

下面就带大家一起看看暨南大学这篇文章吧~    

图片

题目:全球碘缺乏负担:使用XGBoost和SHAP的见解和预测到2050年

研究背景

碘缺乏症(ID)是一项重大的全球公共卫生挑战。本研究旨在分析1990年至2021年的趋势,并使用极端梯度增强(XGBoost)模型和Shapley加性解释(SHAP)预测≤2050年的未来模式,以确定关键因素并为公共卫生战略提供信息。

研究结果

ID的总体负担

1990年,全球ID事件为751万例,到2021年上升到808万例,预计到2050年将达到848万例。ASIR从1990年的126.11/10万下降到2021年的105.99/10万,预计到2050年将小幅上升到108.20/10万。从1990年到2021年,ASIR的EAPC为- 0.40,而从2021年到2050年,预计为0.14(表1,图1A, B)。在几乎所有年龄组中,女性的发病率都高于男性(图2)。  

图片

图片

图1 

图片

图2

1990年撒哈拉以南非洲中部的ASIR最高,其次是南亚和撒哈拉以南非洲东部。2021年,撒哈拉以南非洲中部仍然是最高的,南亚和撒哈拉以南非洲东部分别为207.06/10万和185.94/10万。对2050年的预测表明,撒哈拉以南非洲中部将继续领先,其次是南亚和撒哈拉以南非洲东部(表1和图3A-C)。从1990年到2021年,东亚地区ASIR的EAPC最高,而从2021年到2050年,预计东南亚地区的EAPC最高(表1,图4A, B)。

图片

图3    

图片

图4

在国家层面上,1990年最高的非洲平均死亡率是赤道几内亚、刚果民主共和国和索马里。2021年,索马里、刚果民主共和国和吉布提位居榜首。预计到2050年,最高的阿西尔在索马里,吉布提,与刚果民主共和国 (表2,图3A -C)。从1990年到2021年,ASIR中最大的EAPCs分别是菲律宾(1.00%)、巴基斯坦(0.65%)和尼泊尔(0.32%),而在2021年至2050年间,预计科摩罗(0.51%)、印度尼西亚(0.42%)和不丹(图4 a、B)。    

图片

ID患病率

1990年,全球流行病例为14642万例,到2021年将增加到18081万例,预计到2050年将达到19451万例。ASPR从1990年的2801.80/100,000下降到2021年的2213.98/100,000,预计到2050年将进一步下降。从1990年到2021年,ASPR的EAPC为- 0.59%,从2021年到2050年为- 0.56%(表1,图1C, D)。5岁及以上个体的患病率较高,几乎所有年龄组的女性发病率均高于男性。1990年、2021年和2050年,男性与女性的ASPR分别为2323.28/10万比3287.18/10万、1542.43/10万比2891.38/10万、1298.35/10万比2519.03/10万(表1、图2D-F)。

在区域层面上,1990年撒哈拉以南非洲中部的ASPR最高,其次是南亚和撒哈拉以南非洲东部。到2021年,这些地区仍然拥有最高的ASPR。到2050年,预计撒哈拉以南非洲中部将保持最高的ASPR(表1,图3D-F)。从1990年到2021年,东亚地区ASPR的EAPC最高,而东南亚地区预计在2021年至2050年期间EAPC最高(表1和图4C, D)。    

在国家层面,1990年,最高的ASPR国家是赤道几内亚、刚果民主共和国和索马里。2050年的预测显示,索马里,刚果民主共和国,和吉布提将继续ASPRs最高(表2)。从1990年到2021年,全国最大的EAPC ASPR是菲律宾(1.02%),而从2021年到2050年,阿联酋将EAPC最高(0.25%)(图4 C, D)。

ID的DALYs

1990年,全球因ID导致的伤残调整年为246万,2021年为225万,到2050年预计将增加到251万。ASDR从1990年的46.19/10万下降到2021年的27.67/10万,预计到2050年将进一步下降到25.51/10万(表1,图2G-I)。

在区域层面上,1990年撒哈拉以南非洲中部、南亚和撒哈拉以南非洲东部的ASDR最高。对2050年的预测表明,这些地区仍将处于领先地位(表1图3G-I)。在1990年至2021年期间,ASDR中EAPC最高的国家是南苏丹(0.49%),而在2021年至2050年期间,老挝人民民主共和国的EAPC预计将最高(0.60%)(表1和图4E、F)。

在国家层面,预测2050年建议索马里,刚果民主共和国,和吉布提将继续率最高(表2)。最大的国家EAPC正如1990年和2021年之间的南苏丹(0.49%),而从2021年到2050年,老挝人民民主共和国预计EAPC最高(0.60%)(图4胃肠道和补充表4)。

ID发病率、患病率和DALYs的APC分析

APC模型用于分析年龄、时期和队列对ID发病率、患病率和DALYs的影响。年龄效应结果显示,20岁以下人群发病率随年龄增长而增加,15 - 19岁年龄组发病率最高。20岁以后,发病率一般随年龄的增长而下降。患病率以30 - 34岁年龄组最高。DALY率在25-29岁年龄组达到峰值,30岁前迅速上升,随后随年龄增长而下降(图5A、D、G)。    

期间效应分析显示,与参照组(2015-2019)相比,1990-1994年期间发病率、患病率和DALYs的RRs最高,分别为1.18、1.25和1.57(图5B、E、H)。

出生队列效应分析显示发病率队列RR变化不大。患病率队列RR在2000年前保持稳定,2000年后总体下降。DALYs队列RR在1905年队列达到峰值1.48,此后整体呈下降趋势(图5C, F, I)。

图片

图5

原始的XGBoost模型进行SHAP分析

在最初的XGBoost模型中,年龄、性别和年份被确定为影响发病率、患病率和DALYs的最重要因素。SHAP分析显示,年龄、性别和年份对发病率、患病率和DALYs的影响具有不同的模式。在20岁之前,年龄与发病率普遍呈正相关,但在20岁之后,这种相关性变为负相关。对于患病率和DALYs,模式相似:在30岁之前,年龄呈正相关,而在30岁之后,相关性变为负相关。性别的SHAP值表明,女性的发病率、患病率和DALYs风险高于男性(图6、图7、图8)。    

图片

图6    

图片

图7    

图片

图8

SDI和碘盐覆盖率与ID的ASRs比较

SDI与ASIR、ASPR、ASDR呈负相关。1990年ASIR、ASPR和ASDR的加权相关系数分别为- 0.64、- 0.63和- 0.58。2021年,SDI与ASIR、ASPR和ASDR的加权相关系数分别为- 0.76、- 0.78和- 0.77(图9)。这些结果表明,较高的社会经济发展水平与ID负担较低的ASR相关。    

图片

图9

小结

这项研究提供了1990年至2021年全球ID趋势的详细分析,并预测了到2050年的趋势。XGBoost+SHAP模型的使用有效地识别了年龄、性别和年份等关键因素,提供了准确且可解释的预测,这对于理解ID的区域和人口差异至关重要。

无论是GBD数据库,还是机器学习+SHAP解释目前都是热门方向,不过没有生信基础的朋友操作起来有一定的难度,自己搞不定的朋友可以联系馆长,专业团队做专业的事,包您满意!

馆长有话说

馆长会持续为大家带来最新生信思路,也可以提供特色数据库构建、免费思路评估、付费生信分析等服务,对数据库构建和生信分析感兴趣的朋友可以咨询馆长哦!

生信分析

方案设计

生信服务器

孟德尔随机化

网络药理学

单细胞测序

临床公共数据库分析

往期推荐

1.继孟德尔随机化后,又一“不做实验”的高分发文赛道开启!浙大朱益民&周丹团队凭它拿下37.6分!

2.这本10分纯生信友好刊竟然被我漏掉了!11套数据集+24种机器学习模型,纯生信新思路!看老外如何把机器学习玩出花~

3.不愧是清华大学,本科生就能一作发Nat Commun!代谢组学+机器学习纯生信,代码全公开!牛犇!

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/182280
 
67 次点击