文献地址:https://www.nature.com/articles/s42256-021-00353-8 补充材料地址:https://doi.org/10.1038/s42256-021-00353-8 文章首页 思维导图 杂志及发表情况 摘要 准确预测辅助治疗的个体化生存获益,是早期浸润性乳腺癌患者制定知情治疗决策的关键。机器学习技术能够以数据驱动的方式对风险因素间的复杂相互作用进行建模,从而准确预测不同治疗方案下患者的预后。
本研究利用自动化且可解释的机器学习算法,基于英国和美国国家癌症登记处近百万女性的大规模队列数据,开发了一款乳腺癌预后及治疗获益预测模型——Adjutorium。我们在来自英国国家癌症登记与分析服务局(NCRAS)的395,862名患者中对Adjutorium模型进行了
训练和内部验证 ,随后在来自美国监测、流行病学与最终结果(SEER)项目的571,635名患者中进行了 外部验证 。
在内部验证和外部验证中,与当前临床常用的主要预后工具(PREDICT v2.1)相比,Adjutorium的准确性显著提高。 重要的是,该模型在已知现有模型服务不足的特定亚组中,大幅提升了预测准确性。
目前,Adjutorium已开发为基于网络的决策支持工具(https://vanderschaar-lab.com/adjutorium/),用于协助早期乳腺癌女性患者的辅助治疗决策,全球患者和临床医生均可公开访问。
乳腺癌是全球女性中最常见的癌症,其发病率在东非为19.3/10万女性,在西欧则高达89.7/10万女性¹,²。自辅助内分泌治疗和化疗问世以来,早期乳腺癌的预后已得到显著改善³,但这些治疗需谨慎使用,需仔细权衡风险与获益,尤其是在其疗效尚不明确的患者亚组中⁴,⁵。多年来,已开发出多种乳腺癌预后模型,旨在根据患者的临床病理特征预测个体患者的生存情况,从而实现术后个体化治疗决策。其中,PREDICT v2.1(https://predict.nhs.uk)是全球应用最广泛的模型⁶⁻⁸。该模型近期获得了美国癌症联合委员会(AJCC)的认可⁹,在2011年至2020年期间,全球100多个城市的访问量超过100万次(https://breast.predict.nhs.uk/statistics.html),并且是当前国家卫生与临床优化研究所(NICE)指南中推荐用于辅助治疗规划的工具¹⁰。
然而,尽管PREDICT v2.1应用广泛,但研究表明其在特定患者亚组中的表现欠佳,包括老年患者、肿瘤直径超过50mm的患者、小体积雌激素受体(ER)阳性肿瘤患者或较大体积ER阴性肿瘤患者¹¹。 对特定患者亚组生存风险的高估或低估可能导致治疗不足或过度治疗,进而对患者预后产生负面影响¹²⁻¹⁵。
我们推测,现有工具的局限性源于:
(1)主要用于开发预后模型的Cox回归方法缺乏灵活性⁷,¹⁶; (2)模型构建所使用的队列数据过时且规模相对有限,某些患者亚组的代表性不足。 机器学习(ML)技术能够从数据中轻松推断复杂模式,再结合大数据资源,为解决上述局限性提供了契机¹⁷,¹⁸。
在本研究中,我们采用最先进的自动化机器学习算法AutoPrognosis¹⁹,开发并验证了Adjutorium模型——一款用于预测乳腺癌患者生存情况和辅助治疗获益,以指导个体化治疗决策的预后模型。AutoPrognosis是我们开发的一款开源软件(https://bitbucket.org/mvdschaar/mlforhealthlabpub),可实现机器学习在临床预后建模中的自动化部署。该算法通过先进的贝叶斯优化算法对机器学习模型集成(如神经网络、随机森林等)进行优化,为现有数据集自动生成定制化的机器学习模型,随后利用符号回归算法²⁰将优化后的集成模型转换为临床医生可解释的透明风险方程(图1)。我们通过AutoPrognosis软件,利用来自英国和美国人群代表性大规模队列的近百万女性数据,开发并验证了Adjutorium模型。
图1:AutoPrognosis框架示意图。在给定患者数据的情况下,AutoPrognosis使用贝叶斯优化算法来搜索ML模型集合的最佳参数以及分配给集合中每个模型的最佳权重。(在这里,我们将随机森林、梯度提升和神经网络模型描述为集合的示例元素。)在对总体模型进行拟合后,使用符号回归算法将拟合的模型转换为将患者变量映射到预测风险的数学方程。最终的结果是一个数学方程式,它计算出单个患者在接受和不接受给定治疗的情况下的生存曲线。
我们对Adjutorium进行训练,通过拟合10个二分类集成模型(经AutoPrognosis优化),预测无辅助治疗情况下乳腺癌特异性死亡率和全因死亡率。
每个模型均针对从基线开始的10个不同时间点(1年至10年,每年递增)的患者生存情况进行训练。
模型中纳入了四种辅助治疗(化疗、激素治疗、双膦酸盐类药物和曲妥珠单抗)的疗效,其相对风险降低率基于早期乳腺癌试验者协作组(EBCTCG)的荟萃分析结果²¹,²²。
模型的输入为个体患者的一系列特征,输出为无辅助治疗情况下以及所考虑的四种辅助治疗任意组合情况下,患者的预测生存曲线(乳腺癌特异性生存和全因生存)(Adjutorium的输入和输出可通过网络应用程序可视化查看:https://adjutorium-breastcancer.herokuapp.com/)。
AutoPrognosis的实现技术细节已在之前的研究中描述²⁰,²³,²⁴。方法部分简要介绍了AutoPrognosis,并详细解释了Adjutorium的训练流程。
通过内部验证和外部验证,我们比较了Adjutorium与常用的PREDICT v2.1评分以及基于Adjutorium模型训练队列拟合的内部Cox比例风险(PH)回归模型,在预测基线后3年、5年和10年全因死亡率和乳腺癌特异性死亡率方面的准确性。我们采用时间依赖性受试者工作特征曲线下面积²⁵(AUC-ROC)、Harrell一致性指数²⁶(C指数)和Uno’s C-index²⁷评估所有模型的区分准确性。各指标的数学定义详情见补充信息。所有评估均通过对验证数据进行bootstrap重采样,获得估计性能指标的95%置信区间。
数据资源与研究队列 本研究的患者数据来自两个队列:
美国监测、流行病学与最终结果项目²⁸(SEER, ) NCRAS是英格兰基于人群的癌症登记处,美国国家癌症研究所的SEER项目收集了约30%美国人群的癌症诊断、治疗和生存数据。两个数据库共包含2000年至2016年期间确诊的超过120万例病例数据。我们提取了早期乳腺癌患者的数据(排除转移性癌症患者),并获取了患者水平的数据;对于多原发肿瘤患者,仅纳入其首次诊断信息。提取的患者水平数据包括现有预后模型中使用的标准预后因素⁷,²⁹,³⁰,包括诊断年龄、检测方式(筛查发现/有症状)、ER状态、人表皮生长因子受体2(HER2)状态、受累淋巴结数量、肿瘤大小和组织学肿瘤分级。由于本研究为大规模基于人群的研究,所有数据均已完全匿名化,因此未获得知情同意和伦理批准。
NCRAS和SEER队列中分别有395,862名和571,635名患者符合纳入标准(补充图1)。缺失数据采用多重连锁方程³¹(MICE)法进行填补。患者纳入标准和缺失数据填补步骤的详情见方法部分和补充图2-4,患者特征见补充表1。NCRAS数据库的患者样本被随机分为两个互斥队列:用于模型构建的训练队列(316,690名患者)和用于评估模型准确性的内部验证队列(79,172名患者)。整个SEER队列(571,635名患者)用于外部验证。本研究的主要结局指标为乳腺癌术后3年、5年和10年的全因死亡生存率。全因死亡进一步分为次要结局指标乳腺癌特异性死亡和其他原因导致的死亡。乳腺癌特异性死亡定义为死亡证明中列为ICD-10编码C.50的死亡原因。
补充图1:样本选择和患者纳入过程的流程图。
补充图2:SEER(左)和NCRAS(右)队列中有和没有缺失数据的患者的Kaplan-Meier生存曲线。这些曲线之间的差异反映了失配机制的信息量。 补充图3:缺失变量数不同的患者的Kaplan-Meier生存曲线。 补充图4:用于恢复丢失变量的补偿方法的说明性描述。 补充表1:研究队列的特点。 乳腺癌预后Adjutorium模型的开发 图2展示了AutoPrognosis拟合开发队列(
)后生成的机器学习模型的高层示意图。整体模型基于两个集成模型,每个集成模型包含四个二分类模型³²:随机森林、神经网络、梯度提升和AdaBoost。集成模型中各模型的权重见补充信息(权重最高的模型为梯度提升模型)。一个集成模型基于所有预后变量训练,用于预测时间点 的乳腺癌特异性死亡风险 ;另一个集成模型基于年龄训练,用于预测时间点 的其他原因死亡风险
。全因生存率计算为
,其中 为所选辅助治疗的风险降低率比(风险比)(若未接受治疗,则 )。化疗、激素治疗、双膦酸盐类药物和曲妥珠单抗的
值来自EBCTCG的荟萃分析²¹,²²。
图2|辅助器底层ML模型的图解。A,通过AutoPrognosis软件学习的系综模型。该集成包括四个基本的ML模型:随机森林模型、神经网络模型、梯度增强模型和AdaBoost模型。由Adjutterum发布的预测是该乐团四名成员预测的加权组合。集合中的每个模型都有一组参数(在括号中列出),以及确定其在最终预测中的贡献的指定权重α(T)。模型参数及其权重都根据预测范围t而变化。单独的集成被训练来预测乳腺癌特定的生存率Pbc(T)和其他原因的生存率Pnbc(T)。B,一个例子患者的预测生存曲线(有辅助治疗和没有辅助治疗)。这里,每个预测范围(从诊断起1到10年,具有1年的步长)对应于生存曲线中的一个结点,并且每个结点与A.C.中集合中的一组不同的模型参数和贡献权重相关联,如AutoPrognosis中的符号回归模块所学习的那样,调整之下的风险方程。在给定患者个体水平变量的情况下,风险方程评估未来时间范围内的生存概率。在时间t生存的对数优势比包括两个部分:(1)人口水平项,它模拟年龄和淋巴结数量的非线性影响,以及通过对所有患者固定的六个系数在不同变量之间的交互作用;以及(2)肿瘤分级和ER特定项,利用具有相同级别和ER状态的每一组患者特有的系数来评估所有预后因素的线性影响。在这里,我们展示了一例ER阴性的癌症患者,肿瘤分级为2。风险方程是ML模型发布的预测的数学抽象。 通过AutoPrognosis中的符号回归模块(图1), 的集成模型以风险方程的形式进行数学表达,该方程将患者变量映射到乳腺癌特异性生存函数(图2c直观展示了该方程)。
的风险方程描述如下:对于特定患者,乳腺癌相关生存概率为
,其中 为评估生存概率的时间点。 可解释为时间 时的生存对数优势比,其包含以下两个部分:
其中,第一项
包含人群中所有患者共有的系数,包括年龄和淋巴结数量变量的非线性效应,以及年龄、检测方式、肿瘤大小和淋巴结数量之间的交互项(图2c)。这些交互项反映了实施的筛查政策对患者风险的影响;即图2c中的系数 量化了通过筛查早期发现癌症所带来的风险降低,该风险降低与患者诊断时的年龄、肿瘤扩散情况相关。第二项
包含所有预后变量的线性贡献,其系数针对肿瘤分级和ER状态所有可能组合的患者亚组具有特异性。 的系数数值见补充表9。
补充表9:模型系数。 AutoPrognosis学习到的乳腺癌特异性死亡风险方程表明,我们的机器学习方法识别出了先前模型⁷中未纳入的新交互作用,即肿瘤分级与其他所有变量之间的交互作用。这些结果与新的分子分型方法一致,该方法结合受体状态和肿瘤分级,将乳腺癌分为多个具有不同预后和(潜在)不同特定治疗反应的概念性分子亚型(如管腔A型和管腔B型)³³。因此,AutoPrognosis学习到的可解释风险方程不仅保证了模型的透明度,还为发现新的乳腺癌亚型提供了思路。与AutoPrognosis学习到的原始集成模型相比,可解释风险方程并未出现显著的性能损失(补充表12)。
补充表12 为进行基准测试,我们还评估了PREDICT v2.1评分以及基于与Adjutorium相同训练数据拟合的标准Cox比例风险模型,以作比较。与先前的研究⁷一致,我们拟合了两个独立的Cox模型,针对ER阳性和ER阴性癌症采用不同的基线风险,以捕捉ER状态与其他预后变量之间的交互作用。我们纳入了年龄平方项,以考虑诊断时基线年龄对乳腺癌死亡率的非线性效应。肿瘤大小和淋巴结数量均编码为连续变量。拟合的Cox比例风险模型的系数见补充表2。
补充表2:NCRAS-2队列的特点。 Adjutorium模型的准确性 NCRAS队列中395,862名符合条件的患者,乳腺癌诊断的平均年龄为61岁,队列总随访人年数为200万人年(中位随访时间为5.2年)。SEER队列包含571,635名符合条件的患者,诊断平均年龄为61岁,总随访人年数为320万人年(中位随访时间为5.7年)。随访期间,NCRAS和SEER队列分别记录了83,139例和139,225例死亡,其中53,143例(64%)和59,585例(43%)为乳腺癌相关死亡。SEER和NCRAS队列的乳腺癌五年总体生存率分别为90%和86%。
区分准确性 在NCRAS内部验证和SEER外部验证中,Adjutorium在预测全因死亡率和乳腺癌特异性死亡率方面,均一致优于PREDICT v2.1和传统Cox比例风险模型(表1)。在所有研究的区分准确性指标和所有时间点上,Adjutorium均实现了性能提升。
表1:关于主要和次要结果的区分准确性 内部验证中,Adjutorium预测10年全因死亡率的AUC-ROC为0.815(95%置信区间:0.813-0.817),而PREDICT v2.1为0.770(95%置信区间:0.768-0.772),Cox比例风险模型为0.775(95%置信区间:0.773-0.777)。在其他时间点和C指数统计中也观察到了类似的性能提升(表1)。Adjutorium在预测乳腺癌特异性死亡率方面的准确性提升更为显著,10年结局的AUC-ROC为0.825(95%置信区间:0.823-0.827),而PREDICT v2.1为0.730(95%置信区间:0.727-0.733),Cox比例风险模型为0.783(95%置信区间:0.781-0.785)。次要结局指标的准确性提升更为显著,这一结果并不意外,因为模型中纳入的所有变量均与乳腺癌相关。在所有实验中,与最具竞争力的基线模型相比,Adjutorium在所有指标上的性能提升均具有统计学意义(
)。
Adjutorium在外部验证队列中表现出良好的泛化能力,主要结局指标和次要结局指标均获得了类似的准确性提升(补充表4)。对于10年全因死亡率,Adjutorium的AUC-ROC为0.790(95%置信区间:0.787-0.793),而PREDICT v2.1为0.756(95%置信区间:0.753-0.759),诺丁汉预后指数(NPI)为0.631(95%置信区间:0.628-0.634),Cox比例风险模型为0.778(95%置信区间:0.771-0.785)。在其他时间点也获得了类似的提升(补充表4)。对于10年乳腺癌特异性死亡率的预测,Adjutorium的AUC-ROC为0.803(95%置信区间:0.800-0.806),而PREDICT v2.1为0.744(95%置信区间:0.741-0.747),NPI为0.768(95%置信区间:0.765-0.771),Cox比例风险模型为0.775(95%置信区间:0.770-0.780)。
重要的是,Adjutorium优于基于相同开发队列拟合的Cox比例风险模型,这体现了“建模增益”,即使用灵活的机器学习模型而非标准回归模型所获得的增益。另一方面,外部验证中Cox比例风险模型相比PREDICT v2.1的增益体现了“信息增益”,即使用大规模、具有代表性的数据所获得的增益,此类数据提高了拟合模型对其他可能具有不同人口统计学结构和结局的队列的准确性和泛化能力。
亚组分析 按年龄、HER2状态、ER状态和肿瘤分级分层的所有患者亚组中,Adjutorium的准确性提升均保持一致(表2)。在当前预后工具服务不足的亚组中,准确性提升更为显著;事实上,与PREDICT v2.1相比,Adjutorium在老年患者(诊断年龄 岁)和ER阴性、HER2阴性乳腺癌患者中的准确性提升更为明显。这可能是因为我们基于机器学习的风险方程捕捉到了现有预后工具中未纳入的细微交互作用和非线性模式(图2c)。
表2:针对乳腺癌特定10年结局的亚组水平歧视 敏感性分析和校准性能 我们进行了多项测试以评估结果的稳健性。首先,我们测试了Adjutorium对时间队列效应的稳健性,对2005年至2016年按诊断日期分层的亚队列进行内部验证,结果显示,除近期诊断队列的10年全因死亡率(两个模型表现相似)外,Adjutorium在所有诊断年份均实现了准确性提升(图3)。(这主要是因为近期队列的随访时间不足。)此外,我们对数据完整和数据缺失的亚队列进行了内部验证和外部验证,以测试Adjutorium对数据缺失的稳健性;该模型在数据完整和数据缺失的情况下均表现良好,在两项分析中均以相似的幅度优于其他模型(补充表6)。在内部验证队列中21,164名所有变量数据均完整的患者中进行验证时,Adjutorium预测10年乳腺癌特异性死亡率的AUC-ROC为0.811(95%置信区间:0.808-0.814),而PREDICT v2.1为0.783(95%置信区间:0.780-0.786)。在57,996名一个或多个变量数据缺失的患者中进行验证时,Adjutorium的AUC-ROC为0.829(95%置信区间:0.827-0.831),而PREDICT v2.1为0.728(95%置信区间:0.725-0.731)。
图3:在按诊断日期分层的患者子队列中评估的判别准确度。关于全因死亡率的判别性准确性。B,关于乳腺癌特定死亡率的判别准确性。U.C指数、Uno和谐指数。
表S6:对具有不同缺失模式的数据的不同子集的区分精度。 Adjutorium在各研究队列中均具有良好的校准性,与观察到的结局相比,其校准效果优于PREDICT v2.1(补充图6)。内部验证中,我们发现PREDICT v2.1在10年随访中显著高估了全因死亡和乳腺癌相关死亡的风险。外部验证中,PREDICT v2.1高估了乳腺癌相关死亡的风险,但在预测全因死亡方面相对更为保守。尽管观察到Adjutorium在乳腺癌和全因死亡高风险患者中低估了死亡率,但这不太可能影响临床决策,因为这些患者的风险很可能远高于治疗获益的决策阈值。此外,该风险亚组的患者仅占总人群的6%。
补充图6:内部验证队列中的校准性能(NCRAS,n=79,172)。 对辅助治疗决策的影响 为评估使用Adjutorium支持辅助治疗决策的临床获益,我们将Adjutorium的治疗获益预测结果与PREDICT v2.1的预测结果以及来自NCRAS数据库的多学科团队(MDTs)的实际决策进行了比较。为此,我们遵循英国当前使用PREDICT进行决策的阈值:若预测患者从治疗中获得的10年净生存获益大于5%,则推荐化疗³⁴;若治疗获益 ,则不推荐辅助化疗。对于预测生存获益为3%-5%的情况,需逐例决策;目前尚无相关正式指南。我们比较了MDT治疗决策与Adjutorium预测一致的患者,以及决策不一致的患者的5年和10年生存率。我们还对PREDICT v2.1进行了类似比较,分析了两种算法治疗获益预测不一致的患者的平均生存率。最后,我们评估了与MDTs和PREDICT v2.1的治疗分配相比,Adjutorium可能会为多少额外的10年内死于乳腺癌的患者推荐治疗。
研究发现,所有研究队列中Adjutorium和PREDICT v2.1预测的化疗获益存在显著差异(t检验,
)。图4展示了Adjutorium和PREDICT v2.1指导的治疗决策之间的不一致性,以及结合患者10年结局的MDT实际决策情况。在内部验证队列和外部验证队列中,Adjutorium和PREDICT v2.1在19%的患者人群中存在治疗决策不一致(图4a)。
图4|辅助者通知的治疗决定与预测v2.1之间的比较。A、不同模式之间的不协调。2、不和谐病例的患者特征。不同模型之间的死亡率差异具有统计学意义(P<;0.001,带比率(对数)t检验)。死亡率(定义为选定人口的10年死亡率与总人口死亡率之间的比率)。 被Adjutorium推荐治疗但未被PREDICT v2.1或MDTs推荐治疗的患者人群(图4中的P2和P4),其10年死亡率高于平均水平。28%的平均10年死亡率与 的获益一致,这表明该治疗亚组平均可从治疗中获益。
相反,未被Adjutorium推荐治疗但被PREDICT v2.1或MDTs推荐化疗的患者人群,其10年死亡率低于人群平均水平。PREDICT v2.1不一致推荐治疗的人群中,10年死亡率为18%,表明平均治疗获益约为2.4%。这表明Adjutorium指导的治疗决策不太可能导致治疗不足或过度治疗。与MDTs的历史决策相比,Adjutorium有望改善25%患者人群的治疗决策(13%的治疗不足患者和12%的潜在过度治疗患者)。
讨论 我们开发并验证了Adjutorium——一款基于机器学习的乳腺癌辅助治疗个体化获益预测工具。该研究纳入了来自英国和美国的近百万乳腺癌患者数据,是同类研究中规模最大的研究之一。我们发现,Adjutorium显著优于临床决策中最广泛使用的标准工具之一,并且重要的是,该模型在多个具有全国代表性的队列中,能够推广到不同的临床环境。
尽管目前已有多种预后方法可用于支持乳腺癌辅助治疗的临床决策,但这些方法存在公认的局限性,尤其是在特定亚组中的准确性及其向其他人群的推广能力方面。我们发现,在所有患者群体中,Adjutorium在准确性以及与观察结局的校准方面均优于现有的临床决策支持工具。此外,该模型在已知现有临床决策支持工具表现欠佳的亚组(如老年早期癌症女性患者、ER阴性乳腺癌患者)中,表现出显著改善的性能,这表明使用Adjutorium支持临床决策可能会为这些亚组带来更好的治疗决策和潜在的更好结局。与其他现有工具不同,Adjutorium对数据缺失具有稳健性,即使在部分预后因素信息缺失的情况下,也能做出准确预测。这是一项重要的进展,使我们的模型更适用于患者数据可能不完整的场景。重要的是,我们观察到MDT决策与Adjutorium预测一致的患者,其10年死亡率更低。这对临床决策支持具有重要意义,并凸显了Adjutorium等预后工具在改善患者结局方面的效用。
我们发现,Adjutorium不仅优于PREDICT v2.1,还优于基于相同训练队列拟合的Cox比例风险模型。这表明性能提升不仅源于用于模型训练的更大规模代表性数据集,还源于所应用的机器学习算法的灵活性。我们拟合的模型并未对患者风险与预后因素之间的线性关系,或风险随时间的比例性做出任何假设。此外,如描述机器学习模型的可解释风险方程所示,该模型能够以数据驱动的方式推断交互作用和非线性关联。
为提高可及性和通用性,我们还基于Adjutorium模型提供了一款易于使用的乳腺癌预测在线工具(http://www.vanderschaar-lab.com/adjutorium/),可轻松输入患者特征,通过可视化工具展示不同治疗方案下患者的生存时间。该平台允许临床医生与患者合作,在个体化背景下制定关于辅助治疗的重要决策。因此,我们为英国乃至全球的乳腺癌治疗管理提供了一款重要的临床工具。此外,我们还提供了AutoPrognosis系统的开源软件,使其他研究人员能够在获得更多数据时轻松重新拟合模型。由于我们的方法是自动化的,随着医疗系统各方面的不断变化(如新型辅助治疗的问世),该方法将帮助临床研究人员更新模型,而无需专家为每次更新重复进行新的建模选择和决策。此外,符号回归模块可以通过突出模型系数的变化以及新发现的交互作用和非线性关系,向临床医生传达这些模型更新,从而使整个过程具有透明度。
我们承认该模型存在局限性,包括研究的回顾性性质,这使得难以评估使用Adjutorium相比现有工具对患者结局的影响。另一个局限性是,我们的模型不预测复发等结局,且目前未纳入多基因检测或其他基于基因表达的预测信息。此外,我们无法获取开发队列中的孕激素受体(PR)状态,因此未将其纳入预后变量。尽管PR状态在先前的评分系统(如PREDICT和诺丁汉预后指数)中也未被考虑,但我们认为在未来的研究中,将PR状态纳入预后建模可能会带来益处。利用我们的自动化特征处理方法,可以轻松将其他预后变量和基于遗传的标志物纳入模型,该方法可优化变量选择和降维算法,以处理高维临床和遗传变量。
另一个局限性是,Adjutorium并未以数据驱动的方式明确推导治疗效果,而是使用了临床试验的荟萃分析估计值。我们还承认用于构建模型的数据存在局限性,包括NCRAS开发队列中双膦酸盐类药物和曲妥珠单抗的完整信息缺失、SEER队列中除化疗外其他治疗的信息缺失,以及SEER队列中化疗变量的编码不完整。此外,在NCRAS和SEER数据集中,仅记录了每位患者是否接受化疗,而未明确使用的化疗方案类型(二代或三代方案)。在分析中,我们做出了保守选择,使用更普遍且疗效略低的方案的 来调整训练数据中的生存时间,以避免高估未治疗患者的生存率。鉴于我们对未治疗患者的生存预测准确,在实际应用中,可将二代方案(不含蒽环类药物的紫杉烷类方案)和三代方案(同时含紫杉烷类药物和蒽环类药物的方案)的疗效纳入Adjutorium,而无需重新训练(补充表8)。
总之,我们开发并验证了Adjutorium——一款灵活且可推广的基于机器学习的乳腺癌治疗临床决策支持工具。我们的研究表明,在不同的临床环境中,使用Adjutorium支持MDTs关于辅助治疗的决策,相比现有决策支持工具,有望改善患者结局。未来需要通过前瞻性纵向队列研究进一步量化并在实践中实现这些益处。
方法 数据来源和患者纳入标准 来自NCRAS的患者纳入标准为2005年1月1日后确诊的患者。在NCRAS中设置这一额外纳入标准是因为HER2状态变量的缺失与结局相关(HER2状态缺失的患者平均结局更差)。由于2005年之前HER2状态的缺失率极高,纳入2005年之前确诊且HER2信息完整的患者会导致生存结局存在偏倚。两个数据集均纳入诊断年龄为30-90岁的患者。NCRAS中缺乏30岁以下患者的具体年龄数据,因此将其排除。我们还排除了超过四个变量数据缺失的患者(占所有参与者的
),以及少数肿瘤大小( mm)和阳性淋巴结数量( 个)异常的患者。NCRAS和SEER队列中分别有395,862名和571,635名患者符合纳入标准。我们未纳入Ki67状态,因为NCRAS中绝大多数患者缺乏该数据,且已有研究表明其预测能力较差³⁵,³⁶。
提取的NCRAS数据集包含接受化疗和激素治疗患者的完整信息,但未包含其他辅助治疗(如抗HER2靶向药物)的信息。完整治疗信息的发布违反了NCRAS数据共享政策规定的数据匿名化限制。此外,其他辅助治疗的信息仅常规记录于近期确诊的患者。因此,为在具有完整治疗信息的数据上验证我们的模型,我们获取了一个匿名的NCRAS补充数据集,包含2013年确诊的17,804名患者,其中包含化疗、激素治疗、免疫治疗、CDK4/6抑制剂、PARP抑制剂、曲妥珠单抗和双膦酸盐类药物的完整信息。我们将该数据集命名为NCRAS2。NCRAS2亚队列的患者特征和验证结果详情见补充表2和11。NCRAS2亚队列(包括NCRAS数据集中2013年确诊的所有患者)共包含17,804名符合条件的患者,中位随访时间为5.38年。其中,84.72%接受了化疗,19.49%接受了激素治疗,22.43%接受了曲妥珠单抗治疗,3%接受了双膦酸盐类药物治疗。
缺失数据填补 现有模型的一个局限性是依赖完整病例分析,且缺乏纳入缺失变量的灵活性。我们的分析表明,数据缺失具有高度信息性³⁷(数据完整患者与一个或多个变量缺失患者的五年生存率差异的对数秩检验, )。在这种情况下,仅纳入数据完整的患者可能会影响模型的泛化能力。因此,为提高泛化能力,我们选择利用其他变量的可用数据填补任何缺失数据。对于所有研究队列,我们采用基于模型的MICE³¹法填补缺失数据。我们创建了10个填补数据集,并采用Rubin法则³⁸合并所有研究模型的预测结果。填补的详细信息见补充信息。
模型开发
自动化机器学习 我们利用AutoPrognosis¹⁹框架构建Adjutorium模型,这是一款我们开发的开源软件(https://bitbucket.org/mvdschaar/mlforhealthlabpub),可实现机器学习在临床预后建模中的自动化部署。由于其自动化特性,临床研究人员无需具备深入的机器学习知识,即可使用AutoPrognosis构建适合特定数据集的预后模型,这解决了在常规临床实践中应用这些方法的最大障碍之一³⁹。此外,该框架通过将训练后的模型转换为可解释且透明的风险方程,克服了机器学习模型的“黑箱”特性。
AutoPrognosis通过优化最先进的机器学习管道集成的参数,自动构建适合现有数据集的优化预后模型;每个管道包含填补算法、特征处理算法、机器学习预测模型和校准算法。(此处,由于模型开发中涉及的预后变量数量相对较少,我们关闭了特征预处理模块。)整体Adjutorium模型通过拟合10个二分类集成模型(经AutoPrognosis优化)构建,以预测10个不同节点(从基线开始的1年至10年,每年递增)的结局。AutoPrognosis算法通过先进的贝叶斯优化技术调整机器学习模型的参数,然后采用贝叶斯模型平均法¹⁹合并这些调整后的模型,从而创建该集成模型。
为将(通过贝叶斯优化创建的)机器学习集成模型转换为透明的风险模型,AutoPrognosis采用符号回归方法,自动将训练后的集成模型转换为可理解的数学方程,将患者变量与预测结局关联起来。该方法通过搜索技术优化参数化符号表达式,这些表达式由单变量Meijer G函数²⁰组合而成。通过三次样条插值对描述10个节点模型预测的符号表达式的系数进行平滑处理,生成生存曲线。
Cox模型 为进行比较,我们还评估了基于与Adjutorium相同数据拟合的标准Cox比例风险模型。与先前的方法⁷一致,我们应用了两个独立的模型,针对ER阳性和ER阴性癌症采用不同的基线风险。我们纳入了年龄平方项,以考虑诊断时基线年龄对乳腺癌死亡率的非线性效应。肿瘤大小和淋巴结数量均编码为连续变量。针对10个填补数据集分别拟合模型,并采用Rubin法则合并10个模型(在验证数据上评估)的预测结果。
基于训练队列(乳腺癌特异性结局)拟合并在10个填补数据集上平均的Cox比例风险模型的系数见补充表1。ER阴性癌症合并预测的样本内Harrell一致性指数为0.72,而ER阳性癌症为0.80。HER2状态与ER状态存在定性交互作用,可改变乳腺癌死亡风险(ER阳性肿瘤患者中,HER2阳性肿瘤的 为0.73(95%置信区间:0.69-0.77);ER阴性肿瘤患者中,HER2阳性肿瘤的 为1.24(95%置信区间:1.20-1.28))。这表明,HER2阳性状态与ER阴性癌症患者的死亡风险降低相关,但与ER阳性癌症患者的预后相对更差相关。
模型训练 NCRAS数据库的患者样本被随机分为两个互斥队列:用于模型构建的训练队列(316,690名患者)和用于评估模型准确性的内部验证队列(79,172名患者)。整个SEER队列(571,635名患者)用于外部验证。我们利用NCRAS数据训练Adjutorium,通过调整治疗效果的生存时间创建反事实“未治疗”生存队列,以预测无辅助治疗情况下的乳腺癌特异性死亡率和全因死亡率。无治疗情况下的估计生存时间计算如下:
其中, 代表每位个体的未截尾生存时间, 为治疗指标, 为基于EBCTCG荟萃分析²¹,²²的特定治疗相关风险比。这与交叉试验中用于创建调整后的反事实生存时间的先前方法一致⁴⁰。Cox比例风险模型采用相同的流程。Adjutorium模型纳入了四种治疗:化疗、激素治疗、双膦酸盐类药物和曲妥珠单抗。其他治疗(如免疫治疗、靶向PARP抑制剂和CDK4/6抑制剂)主要用于转移性癌症患者,关于其作为辅助治疗的使用数据不足,因此未纳入我们的模型⁴¹。
模型验证 我们分别在NCRAS验证队列(
)和SEER队列( )中对Adjutorium进行了内部验证和外部验证。此外,我们还在包含3,560名具有完整治疗信息的患者的NCRAS2亚队列中验证了我们的模型。我们在原始未调整队列中验证了预测结局,纳入了接受治疗患者的治疗效果。采用该方法可以评估无治疗情况下总生存率的预测准确性以及治疗对生存率的改善情况。由于乳腺癌死亡和其他原因死亡是竞争风险,全因总生存概率计算如下:
其中,
、 和
分别代表时间点 的总生存率、乳腺癌特异性生存率和其他非乳腺癌相关原因生存率。补充图5测试了原因之间的独立性。对于接受辅助治疗的个体, 计算为无治疗生存率
(由训练后的模型预测)和治疗效果的函数:
统计分析 区分准确性 我们比较了Adjutorium与PREDICT v2.1⁷以及基于NCRAS训练队列拟合的内部Cox比例风险模型,在预测基线后3年、5年和10年全因死亡率和乳腺癌特异性死亡率方面的区分准确性。对于NCRAS2队列,我们仅评估了3年和5年结局的区分准确性,因为该队列的患者于2013年确诊,最大随访时间不足6年。我们采用时间依赖性AUC-ROC²⁵、Harrell C指数²⁶和Uno C指数²⁷评估Adjutorium的区分准确性。各指标的数学定义详情见补充信息。所有评估均通过对验证数据进行bootstrap重采样,获得95%置信区间。
校准准确性 我们通过比较预测死亡风险与感兴趣时间点的观察风险,评估了Adjutorium的校准曲线。对于每个时间点,我们将Adjutorium预测的风险范围分为10个分位数,并在每个分位数内,采用Kaplan-Meier估计器⁴²估计相应患者样本的观察风险。通过在x轴绘制Adjutorium的预测风险,在y轴绘制相应的观察风险,评估校准曲线。
敏感性分析 为检验Adjutorium对数据缺失的稳健性,我们分别在数据完整的个体和至少一个变量缺失的个体中验证了其性能。(补充表6还在不同缺失变量数量的个体以及每个变量缺失的个体中验证了Adjutorium。)此外,为评估Adjutorium对时间队列效应的稳健性(由于患者管理和生存情况随时间变化),我们在2005年至2016年期间按1年为间隔分层的患者亚组中,比较了其与PREDICT的区分准确性。
亚组分析 我们在按年龄、ER状态、HER2状态、肿瘤大小和肿瘤分级分层的特定患者亚组中验证了Adjutorium。我们特别评估了Adjutorium相对于PREDICT v2.1在65岁以上患者、较大肿瘤( mm)患者和ER阴性状态患者中的性能。通过最大化每个模型的约登指数的决策阈值,获得每个亚组的错误计数(真阳性和假阳性病例,对应误分类病例数)。
数据可用性 用于模型构建和内部验证的数据集来自国家癌症登记与分析服务局。这些数据由英国公共卫生部门持有。数据获取方式详见http://ncin.org.uk/collecting_and_using_data/data_access。
用于外部验证的数据集来自监测、流行病学与最终结果项目,可通过https://seer.cancer.gov/seertrack/data/request/获取。
代码可用性 AutoPrognosis软件的代码可通过https://bitbucket.org/mvdschaar/mlforhealthlabpub获取。 参考文献 Alaa, A.M., Gurdasani, D., Harris, A.L. et al. Machine learning to guide the use of adjuvant therapies for breast cancer. Nat Mach Intell 3, 716–726 (2021). https://doi.org/10.1038/s42256-021-00353-8