文章首页
本次分享内容开始部分结果
模型构建与内部验证
在TOPCAT试验样本中,对3445名患者进行中位3.3年的随访后,两组共观察到671例结局事件。其中,螺内酯组和安慰剂组的事件发生率分别为5.9例/100人年和6.6例/100人年;风险比(95%置信区间)为0.89(0.77~1.04),3.3年时相应的受限平均生存时间(RMST)差异为21天(采用自举法计算的95%置信区间:0~45天)。
在采用自举法的内部验证中,纳入全部22个候选预测因子的模型校准度较差——四个预测获益四分位数组的获益分布相似,提示该模型可能存在过拟合(补充图2,Figure S2)。而将预测因子数量限定为7个重要的临床和人口统计学变量后,模型校准度得到改善:在预测获益最高的四分位数组中,观察到的平均受限平均生存时间(RMST)更高(图2、图3)。同时,限制变量数量也提升了模型的区分度(包含22个变量的模型,其获益一致性统计量(c-for-benefit statistic)及95%置信区间为包含22个变量的模型,其获益一致性统计量(95%置信区间)为0.50(0.49~0.52);而精简模型(指含7个变量的模型)的该统计量(95%置信区间)为0.52(0.50~0.53)。基于这些观察结果,我们选择精简模型作为更稳健的替代模型,用于挖掘治疗效果异质性(HTE)。。
补充图 2——包含22个候选预测因子的模型的内部模型验证结果
图 2. 基于内部模型验证的校准度分析图注:
每个点代表在单次自举法(bootstrap)迭代中,某一预测四分位数组内 3.3 年时 “平均预测受限平均生存时间(RMST)差异” 与 “平均观察受限平均生存时间(RMST)差异” 的对应关系。不同的点对应不同的自举法迭代(共 500 次迭代 ×4 个四分位数组 = 2000 个点)。受限平均生存时间(RMST)差异为正值时,表明治疗存在获益;垂直虚线代表观察获益为零的情况。“Q” 代表四分位数(quartile)。
治疗效果异质性(HTE)评估
将从模型开发子样本中得出的治疗优先选择规则,应用于500次迭代过程中的验证子样本,我们估算出秩加权平均治疗效果(RATE)为24天,其基于百分位法计算的95%置信区间(CI)为-9~57天。在模型预测获益最高的四分位数组中,3.3年时观察到的受限平均生存时间(RMST)差异的中位数(四分位距)为62天(32~83天),这一数值大于射血分数(EF)最低四分位数组中观察到的RMST差异(47天,26~67天)(图3)。模型预测获益的前三个四分位数组,其观察到的RMST差异大致相似;而仅基于射血分数(EF)划分的四分位数组,则呈现出“随着EF升高,治疗获益逐渐降低”的一致梯度变化。对于体重指数(BMI)和估算肾小球滤过率(eGFR),未观察到一致的变化规律。
图 3. 内部模型验证中观察到的获益分布图注:
模型预测获益四分位数(A 图)、射血分数(EF)四分位数(B 图)、体重指数(BMI)四分位数(C 图)、估算肾小球滤过率(GFR)四分位数(D 图)。各图展示了 500 个内部自举法验证子样本中,3.3 年时观察到的受限平均生存时间(RMST)差异的分布情况。Q 代表四分位数。
在患者特征对比分析中我们发现,与预测获益最低四分位数组的患者相比,预测获益最高四分位数组的患者平均年龄更小、EF更低、BMI更高,且糖尿病患病率更高(表1)。我们的模型还验证了此前在TOPCAT试验中观察到的异质性现象:纳入“住院分层”(相较于“脑钠肽升高分层”)的患者,从螺内酯治疗中获益的可能性更低。
表 1. 基于 7 变量模型的预测获益四分位数分层,醛固酮拮抗剂治疗射血分数保留型心力衰竭试验(Treatment of Preserved Cardiac Function Heart Failure with an Aldosterone Antagonist Trial)中患者基线特征分布图4展示了各患者特征对观察到的治疗效果异质性的相对贡献度²⁶,²⁷。其中,能预测患者对螺内酯治疗产生更优应答的个体特征依次为:较高的BMI(贡献度33.7%)、较高的eGFR(27.3%)、较低的EF(15.1%)以及较年轻的年龄(12.8%)。已知TOPCAT试验中来自俄罗斯/格鲁吉亚的数据存在异常²⁸,因此我们还按地区评估了治疗效果异质性。在控制其他因素的情况下,地理区域(美洲vs.俄罗斯/格鲁吉亚)对螺内酯治疗效果异质性(HTE)的驱动作用相对较弱,贡献度仅为7.1%。
图 4. 各变量在治疗效果异质性预测中的相对影响。数值代表在 500 个内部自举法开发子样本所构建的模型中,各变量相对影响的平均值。阴性对照结局分析
对于“非心血管死亡”这一对照结局,3.3年时观察到的受限平均生存时间(RMST)差异分布情况见图5。按模型预测获益四分位数从高到低排序,非心血管死亡相关的RMST差异(单位:天)及其中位数(四分位距)分别为:-10(-22~1)、2(-8~12)、3(-5~13)和10(1~20)。在预测获益最低的四分位数组中,非心血管死亡相关的RMST差异分布偏离了零值,提示可能存在一定获益——这一现象或许表明存在残余混杂因素失衡,或非心血管死亡的竞争风险对我们的预测模型产生了影响。
图 5. 以非心血管(Non-CV)死亡为阴性对照结局的分析讨论
基于利用TOPCAT试验数据开发的个体化治疗效果预测模型,我们观察到了明显的治疗效果异质性(HTE),并识别出导致该异质性的关键预测因子,包括BMI、GFR和EF。采用稳健方法识别导致治疗效果差异的因素,对于以下两方面工作至关重要:一是提出关于“特定病因因素在假定治疗获益中作用”的研究假设;二是识别更可能从特定治疗中获益的患者群体。这一成果还有助于为心力衰竭(射血分数保留型,HFpEF)等异质性疾病的靶向治疗,制定未来研究的规划与设计方案。
本研究报告具有重要的方法学意义。数据驱动型方法有望提升从随机对照试验(RCTs)中识别治疗效果异质性(HTE)。正如历史经验所证实的那样,亚组分析(尤其是涉及小样本亚组的分析)容易出现偶然发现和数据稀疏偏倚,进而导致解读过度²⁹,³⁰。而基于预测建模的方法在评估治疗效果异质性时,会综合考虑纳入的多个因素,且不依赖于显著性阈值。然而,个体化治疗效果预测模型也并非完全不受“统计检验效能低”相关问题的影响——这种低效能会表现为模型过拟合,我们在22变量模型的内部验证中观察到的校准度不足,便凸显了这一问题。
由于所有随机对照试验的样本量都是基于“总样本主要结局”来确定的,因此我们针对“降低过拟合风险”提出以下建议:在选择候选预测因子时需审慎考量,即便采用基于机器学习的建模方法,也应优先选择具有临床相关性的特征,通过“精简模型”(少而精)的方式构建模型。另一个相关问题是,在解读“秩加权平均治疗效果(RATE)”等量化方法评估整体治疗效果异质性的结果时,需考虑到统计检验效能有限的问题。正如我们所观察到的,估算出的RATE值的95%置信区间(CI)包含了零值(即无效应值)。但通过与“朴素效应修饰因子(射血分数EF)”的对比性描述评估发现,该预测模型在识别“更可能从螺内酯治疗中获益的亚人群”方面,仍可能具有一定的改进作用。
总体而言,我们建议在评估多个指标后再对结果进行审慎解读,避免过度依赖RATE等量化指标来排除治疗效果异质性的存在。这一点在药物治疗的前瞻性随机对照试验中尤为重要——此类试验中,治疗效果异质性的效应量可能较为微弱,且用于识别该异质性的统计检验效能往往有限。
借此机会,我们还想强调:随着基于机器学习的治疗效果异质性识别方法的应用日益广泛,在采用这类方法时需关注一些核心挑战,这些挑战对于方法的合理应用至关重要。首先,由于开发的模型特定于“治疗-结局”组合,因此寻找真正的外部样本进行模型验证可能具有挑战性——除非存在第二项针对相同“治疗-结局”组合、且研究人群相似的试验。利用常规医疗数据进行外部验证是一种可行方案,但必须警惕观察性数据本身存在的固有挑战,即混杂因素干扰和测量误差。
其次需要注意的是,评估“预测治疗获益的模型”会受到因果推断核心问题的阻碍,这一核心问题便是反事实结局的不可观测性¹¹。尽管本研究中已采用了校准度评估以及获益一致性统计量(c-for-benefit statistic)²⁵这类方法,但要进一步制定更规范的基准标准并明确解读方式,仍需开展更多研究。例如,正如 van Klaveren 等人 ²⁵所指出的,不应参照风险预测模型中 C 统计量(c statistic)的现有基准来解读获益一致性统计量 —— 因为用于计算获益一致性统计量的 “观察获益” 具有不可观测性,而风险预测模型中 C 统计量所依赖的 “观察风险”,对单个患者而言是可观测的。最后,当前已有的个体化治疗效果预测方法仍需进一步完善:未来应致力于改进这些方法,以应对当前面临的重点挑战,例如(如何处理)竞争风险、(如何建立)评估亚人群中 “局部” 协变量平衡性的方法等,这些改进工作具有重要意义。
TOPCAT 试验特别适合应用并评估这种相对新颖的治疗效果异质性(HTE)识别方法,原因如下:该试验中存在明确记录的 “地区相关异质性”—— 这种异质性可能由 “住院随机化分层中随机分配的患者比例差异” 所驱动 ²²。我们的模型成功实现了患者分类:在预测获益最高的四分位数组中,83.5% 的患者来自美洲地区;而在预测获益最低的四分位数组中,80.6% 的患者来自 “住院分层随机分配” 的人群。这些观察结果为我们的方法提供了表面效度支持。此外,我们关于 “在特定 BMI 和 EF 水平范围内的部分患者群体中,螺内酯可能具有更高疗效” 的研究结果,也与以往的观察结论高度一致⁸,¹⁹,²⁰,³¹。
总之,在对 TOPCAT 试验的二次分析中,我们通过个体化治疗效果预测,识别出了决定射血分数保留型心力衰竭(HFpEF)患者对螺内酯治疗应答的关键因素。数据驱动型方法若能得到谨慎应用与验证,有望更高效地识别随机对照试验(RCTs)中的异质性治疗效果。
相关课程推荐