Py学习  »  机器学习算法

iMetaMed | 温附一夏二杰组-预测乳腺癌5年生存率-可解释机器学习模型

宏基因组 • 5 天前 • 58 次点击  

点击蓝字 关注我们

基于整合蛋白质组学和临床数据的可解释机器学习模型预测乳腺癌5年生存率

iMetaMed主页:https://onlinelibrary.wiley.com/journal/3066988x

研究论文

● 原文:iMetaMed

● 英文题目:An Interpretable Machine Learning Model for Predicting 5-Year Survival in Breast Cancer Based on Integration of Proteomics and Clinical Data

● 中文题目:基于整合蛋白质组学和临床数据的可解释机器学习模型预测乳腺癌5年生存率

 原文链接:https://onlinelibrary.wiley.com/doi/10.1002/imm3.70010

● DOI: https://doi.org/10.1002/imm3.70010

● 2025年10月7日,温州医科大学附属第一医院夏二杰和王瓯晨在 iMetaMed在线发表了题为“An Interpretable Machine Learning Model for Predicting 5-Year Survival in Breast Cancer Based on Integration of Proteomics and Clinical Data”的研究文章。

● 本研究首次将KAN引入深度学习模型,用于整合临床与蛋白质组学数据以预测乳腺癌患者的5年生存率。包含13个关键预测因子的最优预测模型展现出卓越的预测性能,具有高精度、高精确度及F1分数。通过SHAP解释方法,既可基于个性化输入数据进行个体预测,又能全面解析特征贡献。KAN通过构建特征输入与预测结果之间的数学框架,提升了模型的可解释性。该研究为最终模型的临床转化应用提供了有力支持。

  第一作者:吴志炫、姚圣楠、金玲莉、吴雪

  通讯作者:夏二杰(whenzhoujex@163.com)、王瓯晨(woc099@163.com

  合作作者:章榕榕

 主要单位:温州医科大学附属第一医院乳腺外科、浙江大学医学院附属邵逸夫医院结直肠外科、同济大学医学院附属同济医院乳腺外科

亮点

 我们的模型在预测乳腺癌5年生存率方面展现出稳健性能;

 SHAP分析识别出影响模型预测的关键特征;

 KAN通过提供数学函数表达式对模型进行了优化。


摘  要

乳腺癌是全球女性中高度异质性的恶性肿瘤。仅依靠临床病理特征的传统预后模型预测准确性有限且缺乏分子水平的见解。与这些传统方法不同,本研究将蛋白质组学与临床数据整合至可解释深度学习框架中,以提升预后精确度和生物学可解释性。我们旨在利用多组学数据建立一个更可靠的模型来准确预测乳腺癌患者的5年生存状态。与其他特征组合模型相比,整合蛋白质组学与临床特征的模型(AUC=0.8136)表现出更优越的性能。经优化的13个关键特征模型(4个临床特征与9个蛋白)实现了0.864的AUC值,精确度0.970,召回率0.810,F1分数0.883。SHapley加性解释(SHAP)分析确定MPHOSPH10、EGFR、ARL3、KRT18、淋巴结状态和HER2状态为最具影响力的特征,而科尔莫戈洛夫-阿诺尔德网络(KAN)分析则揭示了关键贡献因素与预测结果间的明确数学关系。总的来说,我们开发的可解释多模态模型在预测乳腺癌患者5年生存率方面表现出强大性能,并提供了机制上的见解,通过开发易用预测工具增强了其临床转化潜力。


视频解读

Bilibili:https://www.bilibili.com/video/BV1CyUrB5EBW/

Youtube:https://youtu.be/2dup5feL1Zc

中文翻译、PPT、中/英文视频解读等扩展资料下载

请访问期刊官网:http://www.imeta.science/

全文解读

引  言

乳腺癌仍是全球女性中最常见的恶性肿瘤之一,具有复杂的生物学特征和多样化的临床结局。尽管诊断和治疗策略取得了进展,但由于肿瘤异质性和个体治疗反应的差异性,患者生存期的准确预测仍具挑战性。传统的预后模型主要依赖肿瘤大小、淋巴结状态和激素受体表达等临床病理特征,但这些参数单独使用对患者结局的预测准确性有限。因此,开发一个更稳健的多组学预后模型来预测乳腺癌患者的5年生存率具有重要意义。

多组学技术的最新进展使得对肿瘤进行全面分子分析成为可能,包括基因组学、转录组学和蛋白质组学。这些高通量方法为肿瘤生物学和潜在预后生物标志物研究提供了前所未有的洞见。特别是,蛋白质组学能够直接反映细胞功能与表型,可能比单独的基因组或转录组标记物更能可靠地指示疾病进展和治疗反应。先前的研究表明,蛋白质组学分析可为乳腺癌提供有价值的预后信息。例如,反相蛋白质阵列分析已鉴定出与无复发生存期相关的蛋白质特征,大规模蛋白质组学研究也定义了具有不同生存结局的分子亚型。然而,这些研究通常单独评估蛋白质组学特征或在转录组数据背景下进行分析,而未将其与临床预后因素整合到一个统一的预测模型中。据我们所知,目前尚未有公开发表的研究开发出将蛋白质组学特征与常规收集的临床特征相结合的预后模型,用以预测乳腺癌患者的5年生存率。

人工智能(AI),尤其是深度学习算法,在整合与分析复杂的多维生物医学数据方面展现出显著潜力。这些计算方法能够识别大规模数据集中传统统计方法难以察觉的复杂模式与关联。然而,AI模型的临床实用性常受限于其"黑箱"特性,导致临床医生难以理解和信任预测依据。可解释人工智能(XAI)作为AI研究的新兴前沿领域,专门应对机器学习(ML)算法"黑箱"的可解释性挑战。在各种XAI方法中,SHapley加性解释(SHAP)已成为模型解读的强效技术。与局部可解释模型无关解释(LIME)等广泛应用的局部解释方法相比,科尔莫戈洛夫-阿诺尔德网络(KAN)在生物医学应用中具有多项优势。KAN可直接学习输入特征与目标结果间的显式函数关系,实现线性和非线性效应的可视化与量化。这种全局可解释性避免了LIME依赖单个预测扰动可能产生的不稳定性与局部偏差。

本研究旨在开发并验证一种透明、可解释的人工智能模型,该模型整合蛋白质组学与临床数据,用于预测乳腺癌患者的5年生存率。通过采用SHAP和KAN等先进可解释性技术,我们试图阐明驱动预测结果的生物学和临床因素。此外,我们旨在开发一个基于网络的直观工具,通过实时预测与特征贡献度的全面可视化,提升临床转化应用价值。最后,通过免疫组织化学染色验证关键蛋白的表达情况。

结  果

患者特征

本研究共纳入773名乳腺癌患者。训练集与测试集的基线特征(补充资料:表8)包括年龄、绝经状态、组织学类型、组织学分级、淋巴结阳性等人口统计学特征。中位随访时间为83.1个月。研究设计如图1所示。

图1. 研究的工作流程

模型开发与特征优化

为确定预测乳腺癌患者5年生存率(是或否)的最佳多组学特征,我们采用深度神经网络(DNN)构建了五种特征组合方案。在测试集中AUC值为0.624(临床特征),0.716(RNA测序特征),0.711(RNA测序联合临床特征),0.720(蛋白质组)和0.814(蛋白质组联合临床特征),如图2A所示。其中蛋白质组与临床特征的组合模型展现出最优预测性能。此外,模型评价指标进一步证实了蛋白质组与临床特征组合模型的优越性能:准确率0.811、召回率0.861、精确率0.919和F1分数0.889(补充资料:图1A)。

为提高计算效率并降低维度,我们采用三步特征筛选策略(图2B)。首先,基于过滤器的方法将特征池缩减至100个候选指标;其次,采用嵌入式方法将其缩小到50;最后,基于包装器的技术确定了20个最具信息的变量。该过程中模型性能保持稳定,其中20个特征的模型达到最高准确率(0.890)和F1分数(0.849),表明在不损失预测能力的前提下可大幅降维。随后使用五种机器学习算法评估这20个特征(图2C),其中DNN表现最佳(AUC=0.877),优于XGBoost(0.644)、逻辑回归(0.792)、KNN(0.643)和朴素贝叶斯(0.585)(补充资料:图1B)。随后,采用SHAP值优化特征(图2D)。性能随着更高等级特征的加入而提升,但在13个特征后趋于稳定。13个特征的模型AUC达0.864,与20个特征模型(0.877)相当,同时更具简约性。精确率(0.970)、召回率(0.810)和F1分数(0.883)进一步证实其稳健预测能力(补充资料:图1C)。因此,最终选取前13个特征用于后续分析,包括4个临床变量(肿瘤大小、辅助内分泌治疗、淋巴结阳性和HER2状态)和9种蛋白(EGFR、MPHOSPH10、ACOX2、CASP3、ARL3、KRT18、FAM102A、STEAP3和BUB1B)。

图2. 预测模型的受试者工作特征(ROC)曲线

(A)测试中五种不同数据组合的AUC。(B)三步特征筛选策略。(C)五种机器学习模型的ROC曲线。(D)DNN模型的ROC曲线。

SHAP解释

为阐明我们最终模型的有效性,我们采用SHAP方法来探究各特征的贡献度。环形图和蜂群图显示,对预测结果具有显著贡献的特征包括MPHOSPH10、EGFR、ARL3、KRT18、淋巴结阳性、Her2状态(免疫组化)、辅助内分泌治疗、FAM102A、STEAP3、CASP3、肿瘤大小、BUB1B和ACOX2(图3A,B)。图3C展示了各特征对预测结果的影响程度。MPHOSPH10、EGFR、ARL3等蛋白以及“淋巴结阳性”和“HER2状态(免疫组化)”等特定临床特征,通过其SHAP值在不同样本间的显著变异性和相对分散的颜色分布,显示出对模型结果的显著影响。对于特定样本,红色标注的MPHOSPH10和EGFR高表达可能导致模型预测值升高。另一方面,相关性热图(图3D)呈现了各特征间关系的强度与方向。例如,“辅助内分泌治疗”与自身的相关系数为1.00,而与“淋巴结阳性”的相关系数为0.19,呈弱正相关,与EGFR的相关系数为-0.36,呈中度负相关,与MPHOSPH10的相关系数为-0.22,呈弱负相关。此外,肿瘤大小与MPHOSPH10的散点图展示于补充资料:图2中。

此外,SHAP局部解释阐明了各特征如何影响每位患者5年生存预测(是或否)的概率。图4A和4B分别展示了13个特征的SHAP值决策过程,针对特定乳腺癌患者推演出无5年生存率(0.0)与5年生存率(1.0)的结果。图4C和D的力图揭示了不同特征如何共同影响最终预测结果:当f(x)=0时,该乳腺癌患者的预测结果为无5年生存;当f(x)=1时,则预测结果为5年生存。

为评估模型在不同分子亚型间的稳健性,研究对Luminal A、Luminal B、HER2富集型和三阴性乳腺癌(TNBC)进行了分层分析。该模型取得了一致的高预测性能,各亚型曲线下面积(AUC)分别为:Luminal A型1.00、Luminal B型0.98、HER2富集型0.96、TNBC型0.92(补充资料:图3A-D)。SHAP分析进一步揭示了各亚型内部特征重要性的差异化模式:在Luminal A型中,辅助内分泌治疗、MPHOSPH10和EGFR是最具影响力的预测因子;Luminal B型则以淋巴结阳性、ARL3和MPHOSPH10为主导;对于HER2富集型,淋巴结阳性、EGFR和MPHOSPH10排名最高;而在TNBC亚型中,MPHOSPH10、ARL3和EGFR的贡献度最为显著。这些发现证明该模型不仅能保持跨异质性亚型的卓越预测能力,还能精准捕捉各亚型特有的预后驱动因素。

图3. 使用SHAP进行全局解释

(A)特征重要性环形图与(B)蜂群图。(C)热力图可视化。(D)13个特征间的相关性热力图。

图4. SHAP的局部解释

(A,B)个体乳腺癌样本的决策映射图显示:当f(x)为0时表示生存期不足5年,当f(x)为1时表示生存期超过5年。(C,D)该样本预测结果的力图。当f(x)为0.0时预测结果为生存期不足5年,当f(x)为1.0时预测结果为生存期超过5年。

KAN解释与优化

为进一步提升最优模型的透明度和可解释性,研究团队采用KAN方法对整合蛋白质组学和临床特征的13个特征模型进行了验证与解释。受试者工作特征(ROC)曲线分析显示,AUC值达0.81(图5A),具有良好的分类性能,表明其在乳腺癌5年生存预测中具有较强的判别能力。如图5B所示,KAN网络拓扑结构被详细可视化,清晰阐释了整合蛋白质标志物(EGFR、MPHOS10、ACOX2、CASP3、ARL3、KRT18、FAM102A、STEAP3、BUB1B)与临床特征(包括肿瘤大小、淋巴结转移等肿瘤特性,以及内分泌治疗等治疗因素)的乳腺癌5年生存预测模型输出结果。此外,拟合函数分析表明MPHOSPH10(R²=0.92)和肿瘤大小(R²=0.95)是模型预测结果的关键贡献因子(图5C,D),这些关键特征与预测结果呈现显著的线性相关性。通过KAN方法,我们成功量化了各特征-结局关系的函数形式,并识别出具有强线性主导效应的特征(如MPHOSPH10、肿瘤大小)。这种机制层面的可解释性难以通过LIME等局部替代模型实现,因其无法直接表征全局特征-结局映射关系。这些发现有力验证了KAN在解析生物医学数据复杂相互作用方面的强大能力。

图5. KAN解释

(A)受试者工作特征曲线。(B)网络分析。(C)MPHOSPH10的线性拟合函数。(D)肿瘤大小的线性拟合函数。KAN,科尔莫戈洛夫-阿诺尔德网络;ROC,受试者工作特征曲线。

在线预测工具

为提升最终模型的临床应用价值,我们基于Streamlit Python框架开发了直观的网络应用程序(图6),实现了乳腺癌5年生存预测模型的可视化部署。临床医生或患者可通过左侧交互界面输入13项关键特征值,右侧SHAP力图可实时评估5年生存预测结果,直观展示各特征对预测的贡献度。该在线预测工具不仅支持快速临床决策,更通过SHAP解释增强了临床医师对模型的信任度。应用程序可通过以下链接访问(https://ai-model-jhwvgzhyqyimdbvhptcxrp.streamlit.app/)。

图6. 乳腺癌5年生存期预测最优模型的在线预测平台,包含13个关键特征

关键靶标验证

最后,我们通过HPA数据库研究了预后预测模型中9种蛋白质的表达情况,如图7A-G所示。免疫组织化学染色分析显示,与正常组织相比,MPHOSPH10、EGFR、ARL3、KRT18、STEAP3、CASP3和ACOX2在乳腺癌组织中存在差异表达。此外,关键蛋白的总生存分析还通过kaplan-Meier绘图工具利用GEO数据库进行了外部验证,详见补充资料:图4。随后,我们对乳腺癌组织进行了RNA测序以阐明关键靶点的表达水平。分析显示,与癌旁组织相比,BUB1B和EGFR在乳腺癌组织中显著上调,而ACOX2的表达在癌组织中明显下调(补充资料:图5)。

图7. 通过HPA数据库对预测预后模型关键蛋白进行免疫组化验证

(A) MPHOSPH10. (B) EGFR. (C) ARL3. (D) KRT18. (E) STEAP3. (F) CASP3. (G) ACOX2.

讨  论

本研究开发并验证了一个整合蛋白质组学与临床数据的可解释模型,用于预测乳腺癌患者5年生存率。研究结果表明,采用DNN算法将蛋白质组学特征与既定临床参数相结合,其预测性能显著优于仅基于临床特征、RNA测序数据或蛋白质组学的模型。这个包含13个关键特征的优化模型展现出卓越的判别能力,其AUC值达0.8642,精确率、召回率和F1分数均平衡在0.9367。通过SHAP和KAN方法的后续应用,我们深入理解了特征贡献度与交互作用,从而增强了模型的可解释性。值得注意的是,本研究的最终预测模型虽然仅采用少量关键特征,却实现了优异性能。这主要归因于以下因素:首先,通过严格的特征选择方法和可解释性分析,我们精准筛选出最具信息量和相关性的变量;其次,降低特征维度有助于缓解过拟合问题,提升模型泛化能力——这在样本量有限时尤为重要;最后,采用的深度学习模型能够捕捉选定特征间复杂的非线性关系,即便输入变量有限仍能进一步提高预测准确性。这些因素共同作用,使得精简的特征集也能产生稳健的预测性能。

多模态数据整合已被日益视为捕捉癌症进展和治疗反应背后复杂生物过程的关键。值得注意的是,我们的研究结果表明,基于蛋白质组学的模型在预测临床结局方面优于基于RNA测序的模型。这种差异可能源于蛋白质组学直接测量蛋白质丰度,相比RNA表达水平能更准确地反映细胞功能状态和生物通路活性。虽然RNA测序能提供基因表达的重要信息,但转录后修饰、蛋白质降解和其他调控机制可能导致mRNA与蛋白质水平不一致。因此,蛋白质组学数据能捕捉RNA测序单独分析可能遗漏的其他生物复杂性层面,这解释了其在本研究中更具预测优势的原因。未来工作中整合这两种数据类型有望进一步提升模型性能和生物学洞察力。

研究确定的13项特征标志物组合包含4项临床常规参数(肿瘤大小、辅助内分泌治疗、淋巴结状态和HER2状态)及9种蛋白质标记物(EGFR、MPHOSPH10、ACOX2、CASP3、ARL3、KRT18、FAM102A、STEAP3和BUB1B)。通过SHAP分析,我们发现MPHOSPH10、EGFR、ARL3、KRT18、淋巴结状态和HER2状态是驱动预测结果最具影响力的特征因子。这些发现与现有关于乳腺癌生物学特性及预后的认知相吻合。

在我们的KAN分析中,MPHOSPH10和肿瘤大小显示出特别重要的预测价值,其R²值分别达到0.92和0.95。MPHOSPH10(M期磷蛋白10)参与核糖体生物合成和细胞周期进程,这些过程对癌细胞增殖至关重要。近期一项研究将MPHOSPH10鉴定为乳腺癌预后分层和治疗指导的RNA结合蛋白之一,进一步证实了其在乳腺癌中的重要性。基于我们的研究发现,MPHOSPH10可能作为一种新型预后标志物。同样,其他几种已鉴定的蛋白质,包括ARL3、STEAP3和FAM102A,也代表着值得在乳腺癌中进一步研究的潜在新型生物标志物。我们模型中识别的这些蛋白质(如STEAP3)目前尚未纳入常规临床检测。由于大多数诊断实验室尚未建立标准化且具有成本效益的检测方法,这给直接临床转化带来了挑战。

然而,靶向蛋白质组学(如多重反应监测)和多重免疫分析技术的进步,为开发这些生物标志物的临床应用检测提供了可行路径。此外,将这些蛋白整合至现有的多标志物组合或配套诊断试剂盒中,可促进其融入临床工作流程。在广泛应用前,必须通过前瞻性研究评估这些检测方法的可行性、可重复性及成本效益。

表皮生长因子受体(EGFR)过表达此前已被证实与乳腺癌不良预后相关,尤其在三阴性和炎性亚型中表现显著。细胞骨架蛋白角蛋白18(KRT18)参与上皮-间质转化及肿瘤进展过程。而凋亡执行关键蛋白半胱天冬酶-3(CASP3)的功能失调可能导致治疗耐药性。

应用先进的可解释性技术(包括SHAP和KAN)通过清晰展示特征对预测结果的贡献度,既增强了临床医生的信任度,又促进了对疾病机制的生物学理解。辅助内分泌治疗与EGFR之间中等程度的负相关性(-0.36)符合已知的内分泌耐药机制——EGFR通路激活可促进雌激素非依赖性生长。

尽管KAN与SHAP的整合相较于传统深度神经网络显著提升了模型透明度,但这些方法仍无法完全消除深度学习的“黑箱”特性。SHAP能从全局和局部两个维度量化每个特征对预测结果的贡献度,而KAN则能可视化已学习到的函数关系,从而提供有价值的解释性见解。然而,这两种方法均属于事后可解释性工具,既不能确保完全的因果性,也无法提供机制性理解。因此,在临床决策应用中,模型预测结果必须结合生物学知识进行解读,并通过实验研究加以验证。

SHAP与KAN分析结果之间存在明显差异。SHAP通过计算每个特征在所有样本中对模型预测的平均边际贡献来分配重要性分数,反映的是特征的全局影响力。而KAN则量化每个特征与结果之间关系的强度及线性/非线性特性,这种方法可能凸显出在特定患者亚群中具有强直接效应的特征,即使这些特征的整体全局影响较低。例如,肿瘤大小在KAN分析(R²=0.95)中表现出高度线性主导性,但在SHAP排名较低,这可能说明其在特定临床情境下具有显著预后相关性,而在整个队列中的平均贡献相对较小。这种互补性视角凸显了采用多种可解释性技术来更全面理解模型行为的重要价值。

开发基于网络的可访问预测工具标志着我们模型向临床转化迈出了重要一步。通过SHAP力图提供直观的特征贡献可视化,临床医生能更好地理解个体患者预测依据,有望辅助治疗决策和风险分层。

必须承认我们的研究存在一些局限性。本研究的一个局限在于,除用于外部验证的公开数据集外,缺乏其他前瞻性真实世界临床队列数据。虽然现有队列提供了多样化的患者群体并增强了研究结果的普适性,但可能无法全面反映更广泛临床环境中乳腺癌的异质性。未来工作将开展多中心前瞻性数据收集,以在实际临床环境中进一步验证和完善该模型。其次,当前分析将5年生存率作为二分类结局指标,后续研究应考虑采用时间-事件分析和竞争风险模型。

结  论

我们结合蛋白质组学和临床数据的可解释多模态模型在预测乳腺癌患者5年生存率方面展现出稳健性能。通过SHAP和KAN技术揭示的蛋白质标志物,尤其是MPHOSPH10,展现出作为预后生物标志物和治疗靶点的良好潜力,值得深入研究。先进可解释性技术的整合与便捷预测工具的研发,提升了该模型临床转化的可能性,有力推动了精准肿瘤学在乳腺癌治疗领域的应用前景。

方  法

研究人群与数据来源

从复旦大学附属肿瘤医院( Fudan University Shanghai Cancer Center,FUSCC )靶向测序队列、TCGA研究网络、乳腺癌分子分类国际联盟和临床蛋白质组学肿瘤分析联盟获取乳腺癌的转录组数据、蛋白质数据和临床数据。这项研究包括了来自中国各地的773名未经治疗的乳腺癌患者,他们在2013年和2014年在FUSCC接受了治疗。这些患者术前均未接受过系统治疗(包括化疗、内分泌治疗、靶向治疗或免疫治疗等)或放疗。用于Kaplan - Meier验证的GEO数据集包括:E‐MTAB‐365 (n = 537), E‐TABM‐43 (n = 37), GSE11121 (n = 200), GSE12093 (n = 136), GSE12276 (n = 204), GSE1456 (n = 159), GSE16391 (n = 55), GSE16446 (n = 120), GSE16716 (n = 47), GSE17705 (n = 196), GSE17907 (n = 54), GSE18728 (n = 61), GSE19615 (n = 115), GSE20194 (n = 45), GSE20271 (n = 96), GSE2034 (n = 286), and GSE20685 (n = 327), GSE20711 (n = 90), GSE21653 (n = 240), GSE22093 (n = 68), GSE25066 (n = 507), GSE26971 (n = 276), GSE29044 (n = 79), GSE2990 (n = 102), GSE31448 (n = 71), GSE31519 (n = 67), GSE32646 (n = 115), GSE3494 (n = 251), GSE36771 (n = 107), GSE37946 (n = 41), GSE41998 (n = 279), GSE42568 (n = 121), GSE43358 (n = 57), GSE43365 (n = 111), GSE45255 (n = 139), GSE4611 (n = 153), GSE46184 (n = 74), GSE48390 (n = 81), GSE50948 (n = 156), GSE5327 (n = 58), GSE58812 (n = 107), GSE61304 (n = 62), GSE65194 (n = 164), GSE6532 (n = 82), GSE69031 (n = 130), GSE7390 (n = 198), GSE76275 (n = 265), GSE78958 (n = 424), GSE9195 (n = 77).

数据处理

我们共获得773例27个临床特征(附表1),752例211个特征(补充资料:表2和表3)的RNA测序数据,271例151个特征(补充资料:表4和表5)的蛋白质组学数据。从FUSCC电子病历中检索临床信息,包括诊断年龄、肿瘤大小、组织学分级、淋巴结状态、雌激素受体( ER )状态、孕激素受体(PR )状态、HER2状态和生存结果。当缺失率为5 %时,缺失的临床值被排除在分析之外,使用链式方程多重填补。基因表达值在分位数标准化后被标准化为每百万个log2转化的转录本。蛋白质丰度进行log2‐转换,并使用跨样本中位数中心化进行标准化。在低于80 %的样本中检测到的蛋白质被排除,缺失值用基于正态分布的方法(宽度= 0.3 ,下移= 1.8 )填补。蛋白组学数据和转录组学数据两者之间有77个交点,如补充资料所示:表6。主要研究终点为5年总生存期( OS ),定义为从确诊之日起至60个月内任何原因死亡的时间。存活超过60个月的患者视为存活患者,而在60个月之内失访的患者在最后一次接触的日期进行删失。为了确定最优的多组学特征,将具有不同特征的数据进行如下划分:a .临床特征b . RNA测序数据c .蛋白质组学数据d .临床特征结合RNA测序数据。e.临床特征结合蛋白质组学数据。5年以上生存定义为1,5年以下生存定义为0。对于基于转录组学的多组学模型,将临床特征与来自同一患者的转录组图谱进行整合,形成输入特征矩阵。对于基于蛋白质组学的多组学模型,临床特征与相应患者的蛋白质组图谱进行了整合。在每种情况下,仅将两种模态数据均完整的样本纳入各自的分析。在整合之前,所有特征在每个模态内使用z‐score变换进行独立标准化,以确保跨数据类型的可比性。

模型开发与比较

将整合后的表达数据随机分为训练集( 70 % )和测试集( 30 % )。训练集用于拟合模型参数和调整超参数,测试集用于评估预测性能和泛化能力。我们考察了训练队列中存活和非存活病例的分布,发现中等程度的类别不平衡。为了减轻模型训练过程中的潜在偏差,在损失函数中应用了与类频率成反比的类权重。这种方法确保了在没有对数据进行过采样或欠采样的情况下,两类对优化过程的贡献相等。采用深度神经网络( DNN )、逻辑回归( LR )、极端梯度提升( XGBoost )、K近邻算法( KNN )和朴素贝叶斯法( NB )五种机器学习算法构建乳腺癌预后预测模型。对于所有模型,在训练集上进行5折交叉验证,以防止过拟合。具体来说,使用交叉熵作为损失函数的Adam优化器来训练DNN模型。采用如下超参数进行训练:学习率:0.001,批量大小:32,训练轮数:100,激活函数:ReLU用于隐藏层、sigmoid用于输出层,删除比率:0.3,以此来减轻过拟合。为了提高模型的泛化能力和防止过拟合,我们采用了提前停止的方法,如果连续10轮训练的验证损失没有减少,则停止训练。保留表现最好的模型(基于验证损失)进行下游评价。

模型评价

为了评估模型的整体性能,测量了受试者工作特征曲线下的总面积( AUC )、准确率、精确率、召回率和F1分数。计算公式如下:Tp:真阳性;Tn:真阴性;Fp:假阳性;Fn:假阴性。

最优特征选择

采用三步特征筛选策略来确定最具信息量的变量。初始的177个特征首先根据统计显著性被过滤为100个候选特征。然后使用嵌入的方法将该集合减少到50个特征。最后,采用基于包装器的方法选择具有最大预测相关性(补充资料:表7)的前20个特征。使用深度DNN构建了初步模型。在训练过程中,应用Adam优化器,以交叉熵作为损失函数。为了识别最重要的特征,我们使用SHAP来评估特征对训练好的DNN模型的贡献。SHAP为每个特征分配一个Shapley值,代表其对模型输出的边际贡献,允许我们根据特征的平均绝对SHAP值对特征进行排序。基于此排名,我们选取了排名前20、前17、前15、前13、12、11、10的特征进行下游模型构建和对比。

模型解释

SHAP

为了阐明具有“黑箱”特征的ML模型的内在机制,我们系统地使用SHAP框架来解释最优预测模型。这种基于博弈论的方法在现有研究中得到了广泛的验证,它通过Shapley值分解提供了有数学基础的解释。通过汇总图实现全局解释,可视化整体特征重要性,量化输入变量和输出预测之间的方向关系。对于局部解释,力图通过显式地显示每个特征值如何增加或减少特定实例的基线预测概率来分解个体预测。SHAP值是通过Shapley值分解计算得到的,它量化了每个特征对模型预测的边际贡献,同时考虑了所有可能的特征交互。

KAN

基于科尔莫戈洛夫-阿诺尔德表示定理的KAN算法也提高了乳腺癌5年生存率预测模型的性能。网络和函数表达式为输入变量和预测输出之间提供了数学基础。其规范化形式如下:

为了可视化内部架构并解释学习到的表征,生成了网络拓扑图,显示隐藏节点的组织及其激活模式。对于每个选定的特征,直接从训练好的KAN中提取相应的函数映射,并将其表示为显式的数学公式( e.g. , f ( x) = a + bx ),通过R2统计量拟合曲线图来进一步说明,以反映近似质量。通过计算关键节点的局部激活值,KAN提供了在每个样本的基础上最强烈地促进或抑制疾病分类的基因。这使得在群体和个体水平上都有生物学意义的解释成为可能。

关键靶标表达的验证

收集温州医科大学附属第一医院26例乳腺癌组织及癌旁组织。使用TRIzol试剂( TaKaRa )进行总RNA提取。使用Agilent 2100生物分析仪评估RNA样品的完整性,随后在Illumina平台上进行RNA测序。在人类蛋白质图谱(https://www. proteinatlas.org/)中验证乳腺癌与正常之间预后预测模型中关键蛋白的蛋白表达情况。

统计学分析

本研究采用R (版本 4.4.1)和Python (版本 3.9.12 )进行统计分析。所有统计评估均采用双侧检验,p值小于0.05表明差异有统计学意义。无序分类资料组间比较采用Pearson ' s χ 2检验或Fisher确切概率法,有序分类资料组间比较采用Mann - Whitney U检验。使用Kaplan - Meier绘图仪对关键蛋白的总体生存分析进行外部验证。

代码和数据可用性:

本研究所用的转录组和蛋白质组数据均可在https://data.3steps.cn/cdataportal/网站获得。完整的分析代码可在https://github.com/2729956566/streamlit_ breast上通过GitHub访问。


引文格式

Wu, Z., Yao, S., Jin, L., Wu, X., Zhang, R., Wang, O. and Xia, E. (2025), An Interpretable Machine Learning Model for Predicting 5-Year Survival in Breast Cancer Based on Integration of Proteomics and Clinical Data.iMetaMed e700010. https://doi.org/10.1002/imm3.700010.

作者简介

吴志炫(第一作者)

● 浙江大学在读博士研究生。

● 研究方向为肿瘤神经微环境及肿瘤生物标志物研究,以第一作者在Phytomedicine、Molecular Medicine、Computers in biology and medicine、Frontiers in immunology、BMC Cancer、imetaMED等期刊发表SCI论文10余篇。

夏二杰(通讯作者)

● 温州医科大学附属第一医院乳腺外科主治医师。

● 研究方向为小分子药物抗肿瘤药物作用及机制研究、肿瘤生物信息学分析及预测模型构建。主持浙江省自然科学基金1项和温州市科技局课题1项。以一作和通讯作者在Phytomedicine、Computers in biology and medicine、International journal of oncology、imetaMED等高影响力期刊上发表研究论文。

更多推荐

(▼ 点击跳转)

高引文章 ▸▸▸▸

iMeta | 引用16000+,海普洛斯陈实富发布新版fastp,更快更好地处理FASTQ数据

高引文章 ▸▸▸▸

iMeta | 兰大张东组:使用PhyloSuite进行分子系统发育及系统发育树的统计分析

高引文章▸▸▸▸

iMeta | 唐海宝/张兴坦-用于比较基因组学分析的多功能分析套件JCVI

iMeta封面

1卷1期

1卷2期

1卷3期

1卷4期

2卷1期

2卷2期

2卷3期

2卷4期

3卷1期

3卷2期

3卷3期

3卷4期

3卷5期

3卷6期

4卷1期

4卷2期

iMetaOmics封面

1卷1期

1卷2期

2卷1期

期刊简介

iMeta” 是由威立、宏科学和本领域数千名华人科学家合作出版的开放获取期刊,主编由中科院微生物所刘双江研究员和荷兰格罗宁根大学傅静远教授担任。目的是发表所有领域高影响力的研究、方法和综述,重点关注微生物组、生物信息、大数据和多组学等前沿交叉学科。目标是发表前10%(IF > 20)的高影响力论文。期刊特色包括中英双语图文、双语视频、可重复分析、图片打磨、60万用户的社交媒体宣传等。2022年2月正式创刊!相继被Google Scholar、PubMed、SCIE、ESI、DOAJ、Scopus等数据库收录!2024年6月获得首个影响因子23.8,中科院分区生物学1区Top,位列全球SCI期刊前千分之五(107/21848),微生物学科2/161,仅低于Nature Reviews,学科研究类期刊全球第一,中国大陆11/514!

iMetaOmics” 是“iMeta” 子刊,主编由中国科学院北京生命科学研究院赵方庆研究员和香港中文大学于君教授担任,目标是成为影响因子大于10的高水平综合期刊,欢迎投稿!

"iMetaMed"  是“iMeta” 子刊,专注于医学、健康和生物技术领域,目标是成为影响因子大于15的医学综合类期刊,欢迎投稿!

iMeta主页:

http://www.imeta.science

姊妹刊iMetaOmics主页:

http://www.imeta.science/imetaomics/

出版社iMeta主页:

https://onlinelibrary.wiley.com/journal/2770596x

出版社iMetaOmics主页:

https://onlinelibrary.wiley.com/journal/29969514

出版社iMetaMed主页:

https://onlinelibrary.wiley.com/journal/3066988x

iMeta投稿:

https://wiley.atyponrex.com/journal/IMT2

iMetaOmics投稿:

https://wiley.atyponrex.com/journal/IMO2

iMetaMed投稿:

https://wiley.atyponrex.com/submission/dashboard?siteName=IMM3

邮箱:

office@imeta.science


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/189745