非酒精性脂肪性肝病(NAFLD)是最常见的慢性肝脏疾病,与代谢综合征密切相关,可引发不良结局。多项研究证实NAFLD与多种代谢相关不良事件存在密切关联,包括心血管疾病、2型糖尿病和慢性肾脏病等。尽管疾病负担沉重,但目前获批的NAFLD药物治疗方案稀缺,亟需早期识别和预后分层手段来助力疾病预防和个性化干预。Advanced Science 上发表的新文章通过整合UK Biobank队列的遗传及临床数据,构建了一个用于NAFLD早期识别和预后分层的多模态机器学习模型,并将其概率提取为NAFLD的数字定量标志物——ISNLD,以支持对NAFLD的快速识别,并有助于对严重肝病(SeLD)及代谢相关结局进行早期风险分层。
标题:Development and Validation of Machine Learning-Based Marker for Early Detection and Prognosis Stratification of Nonalcoholic Fatty Liver Disease
期刊:Advanced Science(IF 14.3)
出版商:Wiley
发表:2025年5月28日
DOI:https://doi.org/10.1002/advs.202410527
关键词:非酒精性脂肪性肝病 | 机器学习 | ISNLD | 早期预测 | 代谢相关
技术手段:机器学习算法、富集分析、生存分析、ROC曲线分析、决策曲线分析等
核心思路:
数据来源:从UK Biobank获取了36490名参与者的临床和基因型数据,并将这些参与者按8:2的比例随机分配到训练集和测试集;从南方医院获取9007名健康检查者的体检数据,并将这些参与者纳入外部测试集。
特征选择:使用python LassoCV进行LASSO回归分析,从646个SNPs中选择217个与NAFLD显著相关的遗传变量,并基于现有研究选择了性别、年龄、BMI、血脂参数、血糖、AST和ALT等10个临床特征。
模型开发与验证:使用LGBM、XGB、SVM、RF、ADB、LR和KNN方法并行独立地对输入特征进行预测,然后将预测结果传递给元模块(XGB)进一步处理以得出最终的NAFLD预测;使用5折交叉验证方法来增强模型的稳定性并减轻过拟合。
模型可解释性:通过对基础分类器的特征重要性分析,识别并排名了对模型预测能力贡献最大的特征,以增强模型的可解释性。
ISNLD获取与预后评估:利用堆叠多模态模型生成的概率分数作为ISNLD值,评估其对严重肝脏疾病(SeLD)的预测能力和与代谢相关结果的关联性;通过ROC曲线分析和Cox比例风险回归分析评估ISNLD的预测能力。
本研究利用UKBB队列(36490名参与者)的遗传和临床数据开发了一种堆叠式多模态机器学习模型,用于预测非酒精性脂肪肝病(NAFLD)风险。随后,研究利用外部测试集对模型进行了验证。在第二部分,研究从多模式模型中提取概率评分,以构建ISNLD作为一种无创的定量标志物。ISNLD可根据Youden指数的最大值将个体分为NAFLD低风险和高风险组,并在高风险人群中对严重肝病(SeLD)和代谢并发症具有良好的预测能力。
研究采用LASSO回归方法从UKBB队列的646个NAFLD相关候选SNPs中筛选出217个与NAFLD显著相关的SNPs(图2A,B)。功能注释识别出这些SNPs涉及52个关键基因,包括PNPLA3、TM6SF2、GCKR等。富集分析结果显示,这些基因主要参与脂质代谢通路(如甘油三酯代谢、甘油磷脂代谢)及转运通路(如apelin信号通路、cGMP-PKG通路),提示它们在NAFLD发病机制中的作用(图3)。
研究选择了217个遗传特征和10个临床特征作为NAFLD的预测因子,并开发了一个用于预测NAFLD的堆叠多模态机器学习模型。在训练集和内部/外部测试集中,该模型的预测性能均优于FIB-4指数,AUC值均大于0.8(图2C-E)。同时,堆叠模型的性能也优于优于单一分类器,表明整合遗传和临床特征的机器学习模型在NAFLD预测中具有优势。此外,决策曲线分析显示模型在合理阈值概率范围内具有更大的净收益(图A-C)。校准曲线表明,该模型预测概率与实际概率具有良好一致性(图4D-F)。这些结果进一步验证了模型的准确性和稳定性。
根据模型得出的NAFLD概率,研究开发了一种名为ISNLD的无创生物标志物,其能够有效在训练集、内部/外部测试集中对NAFLD风险进行分层(所有NAFLD与对照组之间的比较均具有显著性差异,p<0.05)。在所有数据集中,ISNLD与已知的NAFLD危险因素(如年龄、肥胖、血脂异常、肝酶水平)以及遗传风险评分呈显著相关,并且可以通过MRI-PDFF反映肝脏脂肪含量。这些结果进一步强调了ISNLD作为NAFLD的有效无创生物标志物的潜力。
鉴于NAFLD与肝内和肝外不良结局密切相关,研究评估了ISNLD是否可以作为严重肝病(SeLD)风险分层和代谢相关结果的定量生物标志物。在平均4.36年的随访期间,训练集的97名发生了SeLD,并且ISNLD可显著识别SeLD参与者(图5A,B)。在NAFLD高危人群中,ISNLD不仅能显著预测SeLD的发生,还能将高风险人群进一步细分为三个具有临床意义风险亚组。各亚组的SeLD累积发病率随ISNLD评分的增加而上升(图5C,D)。此外,ISNLD对多种代谢相关结果表现出良好的预测能力,高风险亚组的风险比(HR)范围为1.72–8.93(图6)。
本文虽然只做了预后建模与性能评估,未涉及多组学层面,但大规模UKBB队列和南方医院(外部测试集)数据集以及多模态集成建模框架(结合临床特征+多种算法整合)的使用很好地提升了预后模型的泛用性和准确性。通过结合UK Biobank的遗传和临床特征,研究构建了一个堆叠多模态机器学习模型,并开发出ISNLD这一非侵入性数字定量标志物。ISNLD可有效将人群分为NAFLD的低风险和高风险组,并能以较高准确性预测严重肝病(SeLD)和代谢相关并发症,有利于NAFLD病情的动态检测。
公众号后台私信太多回复不及时,SCI论文润色翻译自上线以来,润色服务已累计助力9000+SCI文章成功发表,业务覆盖全国大多数高校、三甲医院!确保录用率,高效、便捷、精准,解决毕业与晋升燃眉之急!
SCI论文润色|翻译|降重|投稿咨询|SCI期刊推荐等业务详情请扫码咨询!
不想错过最新生信文献解读
欢迎大家添加生信学霸为星标推荐
QQ群:744969477
SangerBox平台交流群