文献地址:https://pmc.ncbi.nlm.nih.gov/articles/PMC12597446 /pdf/main.pdf 文章首页 思维导图 杂志及发表情况 关键词 因果机器学习;异质性治疗效应;真实世界数据;目标试验仿真
缩写 目标试验仿真(TTE)是一种新颖的统计框架,它将随机对照试验(RCTs)的设计原则应用于观察性数据,能够帮助研究人员更严谨地估计因果效应。通过明确规定假设性目标试验的组成部分,TTE 对观察性数据分析进行结构化处理,以模拟随机对照试验的条件,减少非随机研究中固有的偏倚。当随机对照试验因实际操作或伦理问题而不可行时,这种方法尤为实用,它能为临床决策提供可靠的真实世界证据。美国食品药品监督管理局等监管机构已认识到,设计完善的观察性研究通过“真实世界证据计划”等项目,具有为决策提供指导的潜力。
随机对照试验主要评估平均治疗效应,这是监管机构批准药物以及制定关于目标人群预期获益的临床指南时所依据的关键指标。然而,不同患者对治疗的反应可能存在差异,从而产生异质性治疗效应(HTEs)。理解异质性治疗效应对于精准医疗至关重要,因为它能让临床医生为最有可能从治疗中获益的患者量身定制治疗方案。评估异质性治疗效应需要估计条件平均治疗效应(CATE),该效应代表具有特定特征或处于特定状况的个体接受治疗后的预期效果。若所估计的效应有效,它有助于识别并优先考虑那些最有可能从干预措施中获得最大益处的个体。
在目标试验仿真框架内估计异质性治疗效应既可行又具有重要价值,因为与随机对照试验相比,该框架能充分利用观察性数据样本量更大的优势。尽管随机对照试验的样本量往往有限,可能不足以检测出异质性治疗效应,但在满足必要的因果假设且控制了测量误差的前提下,观察性研究能够提供所需的统计效能,从而更精确地估计这些效应。通过运用适当的统计方法对随机对照试验进行仿真,研究人员可以得出准确的条件平均治疗效应估计值,将观察性数据的优势与因果推断的严谨性相结合。此外,如果能妥善处理数据和估计量的协调问题,目标试验仿真框架在整合随机研究和非随机研究方面具有很大潜力。这种方法兼顾了两种研究类型的优势,同时还能利用大数据样本量的特点——在大数据背景下,机器学习(ML)方法的表现通常优于传统的参数方法。
近年来,因果机器学习方法在条件平均治疗效应估计方面取得了显著进展。一系列机器学习技术已被开发出来,其中许多技术已在 R 语言和 Python 语言等的开源软件包中实现。尽管因果森林、元学习器(S 学习器、T 学习器和 X 学习器)、靶向最大似然估计以及双重机器学习等算法在代码层面看似差异很大,但它们本质上都是为倾向得分和结局模型这两个关键组成部分构建灵活的模型,然后通过“一步式”或“增强型”估计量将它们组合起来。不同方法之间的区别并非在于因果估计量的不同,而在于它们如何放宽干扰模型中的平滑性或稀疏性假设,以及如何高效地利用特定的数据特征。有些方法会进一步优化,以在特定的数据生成场景下提高性能,但所有方法都拥有相同的推断核心。
由于这些方法依赖灵活的机器学习模型来估计复杂的关系,因此需要谨慎实施才能确保结果的有效性。交叉验证有助于选择拟合良好且不会过拟合的模型。此外,许多方法会采用交叉拟合技术,这是一种样本分割方法——将数据的一个子集用于拟合干扰模型,另一个独立的子集用于估计条件平均治疗效应。通过在不同样本中分别进行干扰估计和目标估计,交叉拟合可以避免因同一组观测数据同时承担两种角色(尤其是在使用高度自适应的学习器时)而导致的最终条件平均治疗效应估计值出现偏倚。
在涉及异质性治疗效应的因果推断中,异质性效应估计的精确度是评估模型性能的常用指标。然而,在实际情况中,只有在已知真实条件平均治疗效应的模拟场景下,才能计算出异质性效应估计的精确度。在真实世界的观察性研究中,真实的条件平均治疗效应通常是无法观测到的,因此无法直接对其进行评估。相反,可以使用提升曲线、Qini 曲线及其相应的汇总指标(如这些曲线下的面积或 Qini 系数)等替代指标,来评估模型根据个体预测治疗效应对个体进行排序的能力。这些指标能够有效反映模型区分具有不同治疗反应的个体的能力。但是,Qini 曲线特别侧重于排序性能,而非绝对条件平均治疗效应估计值的准确性。如果估计的条件平均治疗效应存在系统性偏倚,那么即使模型的 Qini 系数很高,其提供的治疗效应估计值也可能是错误的。此外,Qini 曲线的应用依赖于治疗效应单调性的假设(即估计的条件平均治疗效应值越大,实际治疗获益就越大)。在因果推断中,这一假设并非总能成立。因此,尽管 Qini 曲线在基于排序的评估中具有一定价值,但不应单独使用。校准图等补充验证方法(用于评估估计的治疗效应与观察到的结局之间的一致性)对于识别系统性偏倚至关重要,应予以报告。此外,纳入不确定性量化(如置信区间和/或预测区间)有助于确保条件平均治疗效应估计值的稳健性。通过综合运用这些验证技术,研究人员能够更有效地评估模型性能,确保条件平均治疗效应估计值的准确性和可靠性。不过,需要注意的是,异质性治疗效应的性能评估领域发展迅速,随着新方法的不断涌现,最佳实践可能会发生变化。
表 1 提供了一个分步检查清单,用于指导研究人员开展在目标试验仿真框架内估计异质性治疗效应的研究。关键步骤包括:定义假设性目标试验、利用观察性数据对其进行仿真、识别混杂因素、选择合适的因果机器学习方法,以及运用交叉验证和交叉拟合等技术对模型进行验证。对于较小的数据集,需要格外小心以减轻过拟合问题;而较大的数据集则能够支持使用更灵活的模型。遵循该检查清单有助于提高因果机器学习分析的有效性和可靠性,推动精准治疗策略的发展。
表 1 利用目标试验仿真进行异质性治疗效应估计研究的检查清单
明确规定 7 个关键组成部分:合格标准、待比较的治疗策略、分配程序、随访期、关注的结局、因果对比以及分析计划。 ·数据收集:从电子健康记录、登记处、索赔数据库和队列研究等相关来源收集观察性数据。 ·组成部分的可操作化:将目标试验的组成部分与观察性数据相对应(例如,定义起始时间点、治疗开始时间和结局测量方式)。 ·数据清洗:通过适当的数据预处理技术处理缺失值、异常值和数据不一致问题。 ·运用领域知识和有向无环图等工具,识别影响治疗和结局的潜在混杂因素。 ·确保所有相关的混杂因素都已被测量并纳入数据集。 ·根据研究目标和数据情况选择合适的方法(例如元学习器、靶向最大似然估计等)。 ·模型开发:使用交叉验证调整超参数并选择模型,以减轻过拟合;在实施适当的机器学习方法时,采用交叉拟合方法,将干扰估计与条件平均治疗效应估计分离开来。 ·模型评估:评估校准情况(在不同条件平均治疗效应分位数下观察到的效应与预测效应的对比),并报告性能指标(如提升曲线/Qini 曲线、提升曲线下面积/Qini 曲线下面积、Qini 系数)。 ·探究不同亚组或协变量模式下治疗效应的差异。 ·识别从治疗中获益最多或最少的个体或群体。 ·如适用,通过与传统方法(如倾向得分匹配、回归调整)进行比较来验证研究结果。 ·测试不同的模型设定(例如,不同的模型形式或纳入交互项)。 ·运用 E 值等方法评估未测量的混杂因素,或通过偏倚分析评估未观测变量的影响。 ·通过应用不同的缺失值插补方法,评估关于缺失数据的假设对结果的影响以及结果的稳健性。
·提供详细的效应估计值,包括点估计值和置信区间。 ·如相关,纳入亚组分析结果。 ·总结敏感性分析结果,并讨论研究局限性(如偏倚、通用性和假设条件)。 ·在公共代码库(如 GitHub、GitLab)中分享用于数据预处理、建模和分析的代码;若允许,还应分享去标识化的数据集,以确保研究的透明度和可重复性。
在精准医疗领域,估计异质性治疗效应的重要性日益凸显,本文提出的检查清单为严谨、可重复地使用因果机器学习工具提供了指导。然而,观察性仿真研究往往侧重于符合方案效应,这可能会引入时变混杂因素——治疗和协变量会随时间变化,从而使因果估计变得复杂。尽管已有纵向靶向最大似然估计等方法来解决这一问题,但这些方法仍处于发展阶段,应用时需要谨慎。相比之下,随机对照试验中的意向性治疗分析针对的是明确的时点治疗。因此,处理复杂纵向数据的研究人员应谨慎行事:要认识到未测量的混杂因素、缺失数据和模型设定错误仍然是关键挑战,并且在时变混杂因素下估计异质性治疗效应时,应考虑采用专门的方法或进一步开发相关方法。
参考文献 Wang X, Zou Y, Wang Y, Zhang C. Estimating Heterogeneous Treatment Effects With Target Trial Emulation: A Checklist of Causal Machine Learning for Observational Data. Chest. 2025 Oct;168(4):856-859. doi: 10.1016/j.chest.2025.05.028 . PMID: 41073037; PMCID: PMC12597446.
如果您对真实世界研究/因果推断/生信分析/影像组学/人工智能算法感兴趣可以 通过下方的微信加我的交流群
助教微信-程老师 欢迎关注我的视频号- 定期直播免费文献分享会 扫码添加我的视频号 我的小红书- 分享最新方法学进展 我的下红书 欢迎关注我的B站账号- 公开课及文献分享视频会更新至此 我的B站