2024年的诺奖带火了AI也让机器学习一度翻红,目前,利用机器学习的生信分析思路也在不断升级,其中最火的莫属联合SHAP解释了。SHAP可以计算每个模型对预测的贡献,以发现模型的潜在问题,提高模型的精准预测能力。
最近,暨南大学团队别出心裁的利用了“机器学习+SHAP”和GBD数据库这个组合分析了全球碘缺乏症的疾病负担。
1. GBD 2021数据的应用为全面评估碘缺乏症的全球负担提供了更全面的视角。
2.首次将XGBoost模型与SHAP分析相结合,用于预测碘缺乏症的全球负担。不仅提高了预测的准确性,还增强了模型的可解释性。
目前,这个组合形式全网发文量只有3篇!


总之,这个组合目前竞争力和创新性都十分在线,大家抓紧上车吧!不会选题?机器学习+SHAP分析实操有难度?那就找馆长!方案设计、个性化生信分析,生信服务器,你所需的服务我应有尽有,欢迎来询~
下面就带大家一起看看暨南大学这篇文章吧~

题目:全球碘缺乏负担:使用XGBoost和SHAP的见解和预测到2050年
研究背景
碘缺乏症(ID)是一项重大的全球公共卫生挑战。本研究旨在分析1990年至2021年的趋势,并使用极端梯度增强(XGBoost)模型和Shapley加性解释(SHAP)预测≤2050年的未来模式,以确定关键因素并为公共卫生战略提供信息。
研究结果
ID的总体负担
1990年,全球ID事件为751万例,到2021年上升到808万例,预计到2050年将达到848万例。ASIR从1990年的126.11/10万下降到2021年的105.99/10万,预计到2050年将小幅上升到108.20/10万。从1990年到2021年,ASIR的EAPC为- 0.40,而从2021年到2050年,预计为0.14(表1,图1A, B)。在几乎所有年龄组中,女性的发病率都高于男性(图2)。

图1

图2
1990年撒哈拉以南非洲中部的ASIR最高,其次是南亚和撒哈拉以南非洲东部。2021年,撒哈拉以南非洲中部仍然是最高的,南亚和撒哈拉以南非洲东部分别为207.06/10万和185.94/10万。对2050年的预测表明,撒哈拉以南非洲中部将继续领先,其次是南亚和撒哈拉以南非洲东部(表1和图3A-C)。从1990年到2021年,东亚地区ASIR的EAPC最高,而从2021年到2050年,预计东南亚地区的EAPC最高(表1,图4A, B)。
图3

图4
在国家层面上,1990年最高的非洲平均死亡率是赤道几内亚、刚果民主共和国和索马里。2021年,索马里、刚果民主共和国和吉布提位居榜首。预计到2050年,最高的阿西尔在索马里,吉布提,与刚果民主共和国 (表2,图3A -C)。从1990年到2021年,ASIR中最大的EAPCs分别是菲律宾(1.00%)、巴基斯坦(0.65%)和尼泊尔(0.32%),而在2021年至2050年间,预计科摩罗(0.51%)、印度尼西亚(0.42%)和不丹(图4 a、B)。

ID患病率
1990年,全球流行病例为14642万例,到2021年将增加到18081万例,预计到2050年将达到19451万例。ASPR从1990年的2801.80/100,000下降到2021年的2213.98/100,000,预计到2050年将进一步下降。从1990年到2021年,ASPR的EAPC为- 0.59%,从2021年到2050年为- 0.56%(表1,图1C, D)。5岁及以上个体的患病率较高,几乎所有年龄组的女性发病率均高于男性。1990年、2021年和2050年,男性与女性的ASPR分别为2323.28/10万比3287.18/10万、1542.43/10万比2891.38/10万、1298.35/10万比2519.03/10万(表1、图2D-F)。
在区域层面上,1990年撒哈拉以南非洲中部的ASPR最高,其次是南亚和撒哈拉以南非洲东部。到2021年,这些地区仍然拥有最高的ASPR。到2050年,预计撒哈拉以南非洲中部将保持最高的ASPR(表1,图3D-F)。从1990年到2021年,东亚地区ASPR的EAPC最高,而东南亚地区预计在2021年至2050年期间EAPC最高(表1和图4C, D)。
在国家层面,1990年,最高的ASPR国家是赤道几内亚、刚果民主共和国和索马里。2050年的预测显示,索马里,刚果民主共和国,和吉布提将继续ASPRs最高(表2)。从1990年到2021年,全国最大的EAPC ASPR是菲律宾(1.02%),而从2021年到2050年,阿联酋将EAPC最高(0.25%)(图4 C, D)。
ID的DALYs
1990年,全球因ID导致的伤残调整年为246万,2021年为225万,到2050年预计将增加到251万。ASDR从1990年的46.19/10万下降到2021年的27.67/10万,预计到2050年将进一步下降到25.51/10万(表1,图2G-I)。
在区域层面上,1990年撒哈拉以南非洲中部、南亚和撒哈拉以南非洲东部的ASDR最高。对2050年的预测表明,这些地区仍将处于领先地位(表1图3G-I)。在1990年至2021年期间,ASDR中EAPC最高的国家是南苏丹(0.49%),而在2021年至2050年期间,老挝人民民主共和国的EAPC预计将最高(0.60%)(表1和图4E、F)。
在国家层面,预测2050年建议索马里,刚果民主共和国,和吉布提将继续率最高(表2)。最大的国家EAPC正如1990年和2021年之间的南苏丹(0.49%),而从2021年到2050年,老挝人民民主共和国预计EAPC最高(0.60%)(图4胃肠道和补充表4)。
ID发病率、患病率和DALYs的APC分析
APC模型用于分析年龄、时期和队列对ID发病率、患病率和DALYs的影响。年龄效应结果显示,20岁以下人群发病率随年龄增长而增加,15 - 19岁年龄组发病率最高。20岁以后,发病率一般随年龄的增长而下降。患病率以30 - 34岁年龄组最高。DALY率在25-29岁年龄组达到峰值,30岁前迅速上升,随后随年龄增长而下降(图5A、D、G)。
期间效应分析显示,与参照组(2015-2019)相比,1990-1994年期间发病率、患病率和DALYs的RRs最高,分别为1.18、1.25和1.57(图5B、E、H)。
出生队列效应分析显示发病率队列RR变化不大。患病率队列RR在2000年前保持稳定,2000年后总体下降。DALYs队列RR在1905年队列达到峰值1.48,此后整体呈下降趋势(图5C, F, I)。

图5
原始的XGBoost模型进行SHAP分析
在最初的XGBoost模型中,年龄、性别和年份被确定为影响发病率、患病率和DALYs的最重要因素。SHAP分析显示,年龄、性别和年份对发病率、患病率和DALYs的影响具有不同的模式。在20岁之前,年龄与发病率普遍呈正相关,但在20岁之后,这种相关性变为负相关。对于患病率和DALYs,模式相似:在30岁之前,年龄呈正相关,而在30岁之后,相关性变为负相关。性别的SHAP值表明,女性的发病率、患病率和DALYs风险高于男性(图6、图7、图8)。

图6

图7

图8
SDI和碘盐覆盖率与ID的ASRs比较
SDI与ASIR、ASPR、ASDR呈负相关。1990年ASIR、ASPR和ASDR的加权相关系数分别为- 0.64、- 0.63和- 0.58。2021年,SDI与ASIR、ASPR和ASDR的加权相关系数分别为- 0.76、- 0.78和- 0.77(图9)。这些结果表明,较高的社会经济发展水平与ID负担较低的ASR相关。

图9
小结
这项研究提供了1990年至2021年全球ID趋势的详细分析,并预测了到2050年的趋势。XGBoost+SHAP模型的使用有效地识别了年龄、性别和年份等关键因素,提供了准确且可解释的预测,这对于理解ID的区域和人口差异至关重要。
无论是GBD数据库,还是机器学习+SHAP解释目前都是热门方向,不过没有生信基础的朋友操作起来有一定的难度,自己搞不定的朋友可以联系馆长,专业团队做专业的事,包您满意!
馆长会持续为大家带来最新生信思路,也可以提供特色数据库构建、免费思路评估、付费生信分析等服务,对数据库构建和生信分析感兴趣的朋友可以咨询馆长哦!