社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

个性化治疗效应预测与机器学习-2

灵活胖子的科研进步之路 • 昨天 • 9 次点击  
文章首页
文章首页
本次分享内容开始部分
本次分享内容开始部分

结果

模型构建与内部验证

在TOPCAT试验样本中,对3445名患者进行中位3.3年的随访后,两组共观察到671例结局事件。其中,螺内酯组和安慰剂组的事件发生率分别为5.9例/100人年和6.6例/100人年;风险比(95%置信区间)为0.89(0.77~1.04),3.3年时相应的受限平均生存时间(RMST)差异为21天(采用自举法计算的95%置信区间:0~45天)。

在采用自举法的内部验证中,纳入全部22个候选预测因子的模型校准度较差——四个预测获益四分位数组的获益分布相似,提示该模型可能存在过拟合(补充图2,Figure S2)。而将预测因子数量限定为7个重要的临床和人口统计学变量后,模型校准度得到改善:在预测获益最高的四分位数组中,观察到的平均受限平均生存时间(RMST)更高(图2、图3)。同时,限制变量数量也提升了模型的区分度(包含22个变量的模型,其获益一致性统计量(c-for-benefit statistic)及95%置信区间为包含22个变量的模型,其获益一致性统计量(95%置信区间)为0.50(0.49~0.52);而精简模型(指含7个变量的模型)的该统计量(95%置信区间)为0.52(0.50~0.53)。基于这些观察结果,我们选择精简模型作为更稳健的替代模型,用于挖掘治疗效果异质性(HTE)。。

补充图 2——包含22个候选预测因子的模型的内部模型验证结果
补充图 2——包含22个候选预测因子的模型的内部模型验证结果
图 2. 基于内部模型验证的校准度分析
图 2. 基于内部模型验证的校准度分析

图注:

每个点代表在单次自举法(bootstrap)迭代中,某一预测四分位数组内 3.3 年时 “平均预测受限平均生存时间(RMST)差异” 与 “平均观察受限平均生存时间(RMST)差异” 的对应关系。不同的点对应不同的自举法迭代(共 500 次迭代 ×4 个四分位数组 = 2000 个点)。受限平均生存时间(RMST)差异为正值时,表明治疗存在获益;垂直虚线代表观察获益为零的情况。“Q” 代表四分位数(quartile)。


治疗效果异质性(HTE)评估

将从模型开发子样本中得出的治疗优先选择规则,应用于500次迭代过程中的验证子样本,我们估算出秩加权平均治疗效果(RATE)为24天,其基于百分位法计算的95%置信区间(CI)为-9~57天。在模型预测获益最高的四分位数组中,3.3年时观察到的受限平均生存时间(RMST)差异的中位数(四分位距)为62天(32~83天),这一数值大于射血分数(EF)最低四分位数组中观察到的RMST差异(47天,26~67天)(图3)。模型预测获益的前三个四分位数组,其观察到的RMST差异大致相似;而仅基于射血分数(EF)划分的四分位数组,则呈现出“随着EF升高,治疗获益逐渐降低”的一致梯度变化。对于体重指数(BMI)和估算肾小球滤过率(eGFR),未观察到一致的变化规律。

图 3. 内部模型验证中观察到的获益分布
图 3. 内部模型验证中观察到的获益分布

图注:

模型预测获益四分位数(A 图)、射血分数(EF)四分位数(B 图)、体重指数(BMI)四分位数(C 图)、估算肾小球滤过率(GFR)四分位数(D 图)。各图展示了 500 个内部自举法验证子样本中,3.3 年时观察到的受限平均生存时间(RMST)差异的分布情况。Q 代表四分位数。


在患者特征对比分析中我们发现,与预测获益最低四分位数组的患者相比,预测获益最高四分位数组的患者平均年龄更小、EF更低、BMI更高,且糖尿病患病率更高(表1)。我们的模型还验证了此前在TOPCAT试验中观察到的异质性现象:纳入“住院分层”(相较于“脑钠肽升高分层”)的患者,从螺内酯治疗中获益的可能性更低。

表 1. 基于 7 变量模型的预测获益四分位数分层,醛固酮拮抗剂治疗射血分数保留型心力衰竭试验(Treatment of Preserved Cardiac Function Heart Failure with an Aldosterone Antagonist Trial)中患者基线特征分布
表 1. 基于 7 变量模型的预测获益四分位数分层,醛固酮拮抗剂治疗射血分数保留型心力衰竭试验(Treatment of Preserved Cardiac Function Heart Failure with an Aldosterone Antagonist Trial)中患者基线特征分布

图4展示了各患者特征对观察到的治疗效果异质性的相对贡献度²⁶,²⁷。其中,能预测患者对螺内酯治疗产生更优应答的个体特征依次为:较高的BMI(贡献度33.7%)、较高的eGFR(27.3%)、较低的EF(15.1%)以及较年轻的年龄(12.8%)。已知TOPCAT试验中来自俄罗斯/格鲁吉亚的数据存在异常²⁸,因此我们还按地区评估了治疗效果异质性。在控制其他因素的情况下,地理区域(美洲vs.俄罗斯/格鲁吉亚)对螺内酯治疗效果异质性(HTE)的驱动作用相对较弱,贡献度仅为7.1%。

图 4. 各变量在治疗效果异质性预测中的相对影响。数值代表在 500 个内部自举法开发子样本所构建的模型中,各变量相对影响的平均值。
图 4. 各变量在治疗效果异质性预测中的相对影响。数值代表在 500 个内部自举法开发子样本所构建的模型中,各变量相对影响的平均值。

阴性对照结局分析

对于“非心血管死亡”这一对照结局,3.3年时观察到的受限平均生存时间(RMST)差异分布情况见图5。按模型预测获益四分位数从高到低排序,非心血管死亡相关的RMST差异(单位:天)及其中位数(四分位距)分别为:-10(-22~1)、2(-8~12)、3(-5~13)和10(1~20)。在预测获益最低的四分位数组中,非心血管死亡相关的RMST差异分布偏离了零值,提示可能存在一定获益——这一现象或许表明存在残余混杂因素失衡,或非心血管死亡的竞争风险对我们的预测模型产生了影响。

图 5. 以非心血管(Non-CV)死亡为阴性对照结局的分析
图 5. 以非心血管(Non-CV)死亡为阴性对照结局的分析

讨论

基于利用TOPCAT试验数据开发的个体化治疗效果预测模型,我们观察到了明显的治疗效果异质性(HTE),并识别出导致该异质性的关键预测因子,包括BMI、GFR和EF。采用稳健方法识别导致治疗效果差异的因素,对于以下两方面工作至关重要:一是提出关于“特定病因因素在假定治疗获益中作用”的研究假设;二是识别更可能从特定治疗中获益的患者群体。这一成果还有助于为心力衰竭(射血分数保留型,HFpEF)等异质性疾病的靶向治疗,制定未来研究的规划与设计方案。

本研究报告具有重要的方法学意义。数据驱动型方法有望提升从随机对照试验(RCTs)中识别治疗效果异质性(HTE)。正如历史经验所证实的那样,亚组分析(尤其是涉及小样本亚组的分析)容易出现偶然发现和数据稀疏偏倚,进而导致解读过度²⁹,³⁰。而基于预测建模的方法在评估治疗效果异质性时,会综合考虑纳入的多个因素,且不依赖于显著性阈值。然而,个体化治疗效果预测模型也并非完全不受“统计检验效能低”相关问题的影响——这种低效能会表现为模型过拟合,我们在22变量模型的内部验证中观察到的校准度不足,便凸显了这一问题。

由于所有随机对照试验的样本量都是基于“总样本主要结局”来确定的,因此我们针对“降低过拟合风险”提出以下建议:在选择候选预测因子时需审慎考量,即便采用基于机器学习的建模方法,也应优先选择具有临床相关性的特征,通过“精简模型”(少而精)的方式构建模型。另一个相关问题是,在解读“秩加权平均治疗效果(RATE)”等量化方法评估整体治疗效果异质性的结果时,需考虑到统计检验效能有限的问题。正如我们所观察到的,估算出的RATE值的95%置信区间(CI)包含了零值(即无效应值)。但通过与“朴素效应修饰因子(射血分数EF)”的对比性描述评估发现,该预测模型在识别“更可能从螺内酯治疗中获益的亚人群”方面,仍可能具有一定的改进作用。

总体而言,我们建议在评估多个指标后再对结果进行审慎解读,避免过度依赖RATE等量化指标来排除治疗效果异质性的存在。这一点在药物治疗的前瞻性随机对照试验中尤为重要——此类试验中,治疗效果异质性的效应量可能较为微弱,且用于识别该异质性的统计检验效能往往有限。

借此机会,我们还想强调:随着基于机器学习的治疗效果异质性识别方法的应用日益广泛,在采用这类方法时需关注一些核心挑战,这些挑战对于方法的合理应用至关重要。首先,由于开发的模型特定于“治疗-结局”组合,因此寻找真正的外部样本进行模型验证可能具有挑战性——除非存在第二项针对相同“治疗-结局”组合、且研究人群相似的试验。利用常规医疗数据进行外部验证是一种可行方案,但必须警惕观察性数据本身存在的固有挑战,即混杂因素干扰和测量误差。

其次需要注意的是,评估“预测治疗获益的模型”会受到因果推断核心问题的阻碍,这一核心问题便是反事实结局的不可观测性¹¹。尽管本研究中已采用了校准度评估以及获益一致性统计量(c-for-benefit statistic)²⁵这类方法,但要进一步制定更规范的基准标准并明确解读方式,仍需开展更多研究。例如,正如 van Klaveren 等人 ²⁵所指出的,不应参照风险预测模型中 C 统计量(c statistic)的现有基准来解读获益一致性统计量 —— 因为用于计算获益一致性统计量的 “观察获益” 具有不可观测性,而风险预测模型中 C 统计量所依赖的 “观察风险”,对单个患者而言是可观测的。最后,当前已有的个体化治疗效果预测方法仍需进一步完善:未来应致力于改进这些方法,以应对当前面临的重点挑战,例如(如何处理)竞争风险、(如何建立)评估亚人群中 “局部” 协变量平衡性的方法等,这些改进工作具有重要意义。

TOPCAT 试验特别适合应用并评估这种相对新颖的治疗效果异质性(HTE)识别方法,原因如下:该试验中存在明确记录的 “地区相关异质性”—— 这种异质性可能由 “住院随机化分层中随机分配的患者比例差异” 所驱动 ²²。我们的模型成功实现了患者分类:在预测获益最高的四分位数组中,83.5% 的患者来自美洲地区;而在预测获益最低的四分位数组中,80.6% 的患者来自 “住院分层随机分配” 的人群。这些观察结果为我们的方法提供了表面效度支持。此外,我们关于 “在特定 BMI 和 EF 水平范围内的部分患者群体中,螺内酯可能具有更高疗效” 的研究结果,也与以往的观察结论高度一致⁸,¹⁹,²⁰,³¹。

总之,在对 TOPCAT 试验的二次分析中,我们通过个体化治疗效果预测,识别出了决定射血分数保留型心力衰竭(HFpEF)患者对螺内酯治疗应答的关键因素。数据驱动型方法若能得到谨慎应用与验证,有望更高效地识别随机对照试验(RCTs)中的异质性治疗效果。

相关课程推荐

国内首发-基于AI辅助Python编程的机器学习与因果推断在医学研究中的应用培训班

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/186957
 
9 次点击