社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

Advanced Science(IF14.3):UKBB+机器学习,南方医科大学刘莉团队构建可用于NAFLD早期检测的预后模型

生信学霸 • 昨天 • 10 次点击  

非酒精性脂肪性肝病(NAFLD)是最常见的慢性肝脏疾病,与代谢综合征密切相关,可引发不良结局。多项研究证实NAFLD与多种代谢相关不良事件存在密切关联,包括心血管疾病、2型糖尿病和慢性肾脏病等。尽管疾病负担沉重,但目前获批的NAFLD药物治疗方案稀缺,亟需早期识别和预后分层手段来助力疾病预防和个性化干预。Advanced Science 上发表的新文章通过整合UK Biobank队列的遗传及临床数据,构建了一个用于NAFLD早期识别和预后分层的多模态机器学习模型,并将其概率提取为NAFLD的数字定量标志物——ISNLD,以支持对NAFLD的快速识别,并有助于对严重肝病(SeLD)及代谢相关结局进行早期风险分层。

标题:Development and Validation of Machine Learning-Based Marker for Early Detection and Prognosis Stratification of Nonalcoholic Fatty Liver Disease

期刊:Advanced Science(IF 14.3)

出版商:Wiley

发表:2025年5月28日

DOI:https://doi.org/10.1002/advs.202410527

关键词:非酒精性脂肪性肝病 | 机器学习 | ISNLD | 早期预测 | 代谢相关

技术手段:机器学习算法、富集分析、生存分析、ROC曲线分析、决策曲线分析等

核心思路:


 材料与方法 

Materials and Methods

数据来源:从UK Biobank获取了36490名参与者的临床和基因型数据,并将这些参与者按8:2的比例随机分配到训练集和测试集;从南方医院获取9007名健康检查者的体检数据,并将这些参与者纳入外部测试集。

特征选择:使用python LassoCV进行LASSO回归分析,从646个SNPs中选择217个与NAFLD显著相关的遗传变量,并基于现有研究选择了性别、年龄、BMI、血脂参数、血糖、AST和ALT等10个临床特征。

模型开发与验证:使用LGBM、XGB、SVM、RF、ADB、LR和KNN方法并行独立地对输入特征进行预测,然后将预测结果传递给元模块(XGB)进一步处理以得出最终的NAFLD预测;使用5折交叉验证方法来增强模型的稳定性并减轻过拟合。

模型可解释性:通过对基础分类器的特征重要性分析,识别并排名了对模型预测能力贡献最大的特征,以增强模型的可解释性。

ISNLD获取与预后评估:利用堆叠多模态模型生成的概率分数作为ISNLD值,评估其对严重肝脏疾病(SeLD)的预测能力和与代谢相关结果的关联性;通过ROC曲线分析和Cox比例风险回归分析评估ISNLD的预测能力。


 分析结果 

Results

研究概述

本研究利用UKBB队列(36490名参与者)的遗传和临床数据开发了一种堆叠式多模态机器学习模型,用于预测非酒精性脂肪肝病(NAFLD)风险。随后,研究利用外部测试集对模型进行了验证。在第二部分,研究从多模式模型中提取概率评分,以构建ISNLD作为一种无创的定量标志物。ISNLD可根据Youden指数的最大值将个体分为NAFLD低风险和高风险组,并在高风险人群中对严重肝病(SeLD)和代谢并发症具有良好的预测能力。

图1


UKBB队列中SNP与NAFLD的关联

研究采用LASSO回归方法从UKBB队列的646个NAFLD相关候选SNPs中筛选出217个与NAFLD显著相关的SNPs(图2A,B)。功能注释识别出这些SNPs涉及52个关键基因,包括PNPLA3、TM6SF2、GCKR等。富集分析结果显示,这些基因主要参与脂质代谢通路(如甘油三酯代谢、甘油磷脂代谢)及转运通路(如apelin信号通路、cGMP-PKG通路),提示它们在NAFLD发病机制中的作用(图3)。

图2

图3


堆叠ML模型的性能评估

研究选择了217个遗传特征和10个临床特征作为NAFLD的预测因子,并开发了一个用于预测NAFLD的堆叠多模态机器学习模型。在训练集和内部/外部测试集中,该模型的预测性能均优于FIB-4指数,AUC值均大于0.8(图2C-E)。同时,堆叠模型的性能也优于优于单一分类器,表明整合遗传和临床特征的机器学习模型在NAFLD预测中具有优势。此外,决策曲线分析显示模型在合理阈值概率范围内具有更大的净收益(图A-C)。校准曲线表明,该模型预测概率与实际概率具有良好一致性(图4D-F)。这些结果进一步验证了模型的准确性和稳定性。

图4


ISNLD分数的特点

根据模型得出的NAFLD概率,研究开发了一种名为ISNLD的无创生物标志物,其能够有效在训练集、内部/外部测试集中对NAFLD风险进行分层(所有NAFLD与对照组之间的比较均具有显著性差异,p<0.05)。在所有数据集中,ISNLD与已知的NAFLD危险因素(如年龄、肥胖、血脂异常、肝酶水平)以及遗传风险评分呈显著相关,并且可以通过MRI-PDFF反映肝脏脂肪含量。这些结果进一步强调了ISNLD作为NAFLD的有效无创生物标志物的潜力。


ISNLD的预后评估

鉴于NAFLD与肝内和肝外不良结局密切相关,研究评估了ISNLD是否可以作为严重肝病(SeLD)风险分层和代谢相关结果的定量生物标志物。在平均4.36年的随访期间,训练集的97名发生了SeLD,并且ISNLD可显著识别SeLD参与者(图5A,B)。在NAFLD高危人群中,ISNLD不仅能显著预测SeLD的发生,还能将高风险人群进一步细分为三个具有临床意义风险亚组。各亚组的SeLD累积发病率随ISNLD评分的增加而上升(图5C,D)。此外,ISNLD对多种代谢相关结果表现出良好的预测能力,高风险亚组的风险比(HR)范围为1.72–8.93(图6)。

图5

图6


 结论 

Conclusion

本文虽然只做了预后建模与性能评估,未涉及多组学层面,但大规模UKBB队列和南方医院(外部测试集)数据集以及多模态集成建模框架(结合临床特征+多种算法整合)的使用很好地提升了预后模型的泛用性和准确性。通过结合UK Biobank的遗传和临床特征,研究构建了一个堆叠多模态机器学习模型,并开发出ISNLD这一非侵入性数字定量标志物。ISNLD可有效将人群分为NAFLD的低风险和高风险组,并能以较高准确性预测严重肝病(SeLD)和代谢相关并发症,有利于NAFLD病情的动态检测。


1

END

1

公众号后台私信太多回复不及时,SCI论文润色翻译自上线以来,润色服务已累计助力9000+SCI文章成功发表,业务覆盖全国大多数高校、三甲医院!确保录用率,高效、便捷、精准,解决毕业与晋升燃眉之急

SCI论文润色|翻译|降重|投稿咨询|SCI期刊推荐等业务详情请扫码咨询!


不想错过最新生信文献解读

欢迎大家添加生信学霸为星标推荐

SangerBox小红书

打开小红书,扫码关注

每天更新生信相关资讯

SangerBox交流群 

QQ群:744969477

SangerBox平台交流群


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/183380
 
10 次点击