文章首页机器学习在可实施医疗中的因果推断与反事实预测-2
目标试验
目标试验指的是可以利用大型观察性数据库中的数据来模拟的随机对照试验,其目的是回答比较性的因果问题。治疗效果31。尽管随机对照试验(RCTs)是识别因果效应的黄金标准,但在许多情况下,开展这类试验既不可行也不符合伦理。相反,经过适当调整以控制已测量混杂因素的观察性数据——例如通过倾向得分匹配——可用于模拟随机化的治疗分配;对于电子病历而言,这可能是可行的,因为其中许多个体层面的属性可以被关联起来以消除偏倚。
目标试验方案需要类似前瞻性入组的 eligibility标准、治疗策略和分配程序的描述、从基线到结局的时间进程识别、因果查询(例如治疗效果)以及分析计划(例如回归模型),如表1所示。
表1 | 利用观察性数据和算法随机化模拟随机对照试验(即目标试验),其目的是减少偏倚并得到更可靠的治疗效果估计值作为目标试验框架的一个实例,研究人员利用公共监测数据和临床索赔数据库复刻了两项随机对照试验,其中一项研究了针对结直肠癌的治疗效果,另一项则研究了针对胰腺腺癌的治疗效果32。每项研究都明确遵循目标试验框架,仅在分配程序上与随机对照试验设计存在差异,而这种差异的合理性在于缺乏随机化过程。研究结果与目标试验一致——所有结果均显示无显著效应。
相比之下,当研究作者采用非随机对照试验式的研究设计(纳入相同变量)对治疗效果进行建模时,得出的死亡率估计结果均与目标试验不一致。这些实例表明,在利用观察性数据研究治疗效果时,有必要坚持采用目标试验设计。此外,若将目标试验框架与能够从大数据源中推断出更多有用信息的机器学习方法相结合,它有望成为探索当前未知因果过程的基础。
模型的可迁移性与预测不变性
在既定因果结构下对因果效应进行验证尤为必要,尤其是当这类效应是在有限场景(例如随机对照试验)中估算得出时。可迁移性是一个数据融合框架,用于干预模型和反事实查询的外部验证。正如珀尔(Pearl)和巴雷恩博伊姆(Bareinboim)所定义的56,可迁移性是“将实验研究中获得的因果效应迁移到新人群的许可,而在这些新人群中只能开展观察性研究”。
通过整合在异质条件下生成的数据集,可迁移性提供了正式的数学工具,用于:
- (1)评估一项研究的结果(例如在随机对照试验中识别出的因果关系)是否可用于在另一不同场景的研究(例如在不同人群中针对同一因果效应开展的观察性研究)中生成该因果效应的有效估算值;
- (2)估算若在新场景中开展该研究,其因果效应会是怎样的57,58。
该框架利用因果图59,对研究人群中感兴趣变量的因果关系以及目标人群与研究人群存在差异的特征进行编码。如果选择图中变量间的结构性约束可通过“do演算”解决,那么就可以利用原始研究中已有的因果效应来计算目标人群中因果效应的有效估算值,这意味着观察到的因果效应具有可迁移性。
珀尔的一个可迁移性示例如图4所示。在该示例中,在A市(原始环境)开展了一项随机对照试验,确定了治疗x对结局y的因果效应(P(y | do(x)))。我们希望推断该治疗方法在B市(目标环境)人群中是否同样有效,而B市只有观察性数据可用,因为A市的年龄分布(P(z))与B市的年龄分布(P^}(z))存在差异。B市特有的x对y的因果效应(P^{}(y(y | do(x))=\sum_z} P(y(z)]
图4 | 用于说明可迁移性的选择图。图注
图4 | 用于说明可迁移性的选择图。a,在A市的原始环境中,通过随机对照试验发现并量化了治疗x对结局y的因果效应(P(y | do(x)))。b,若同时知晓整体因果效应(P(y | do(x)))和特定年龄层的因果效应(P(y | do(x), z)),则x对y的因果效应可从A市迁移到B市,即(P^{*}(y | do(x)));若后者未知,则该因果效应不具有可迁移性。
在这个可迁移性公式中,将随机对照试验中估算出的特定年龄层因果效应(P(y|do(x),z))与目标人群的年龄分布(P^(z))相结合,即可得到B市特有的x对y的因果效应(P^(y|do(x)))。
然而,因果效应并非总能实现迁移。沿用上述例子,如果仅知晓整体因果效应(P(y|do(x))),而不了解特定年龄层的因果效应(P(y|do(x),z)),那么就无法将x对y的因果效应从A市迁移到B市。
目前,可迁移性理论正被扩展到各种更复杂的因果关系中——例如样本选择偏倚58,其应用也正从理论示例向实际问题跨越60。
因此,结合我们在前几节讨论的问题案例,可迁移性可用于判断哮喘或年龄相关效应能否从一个人群迁移到另一个人群。值得注意的是,可迁移性与领域自适应领域密切相关,后者旨在在一个源人群中训练出可用于不同目标分布的模型。事实上,领域自适应已被用于解决样本选择偏倚问题61。
与可迁移性密切相关的一个概念是预测不变性62。在所有能在不同实验场景和干预条件下保持预测准确性不变的模型中,因果模型很可能是其中之一。例如,舒拉姆(Schulam)和萨里亚(Saria)提出了反事实高斯过程,用于在不规则采样情况下预测连续时间轨迹,以处理由临床协议导致的偏倚72。在另一项研究中,针对训练数据与目标数据分布不同(即数据集偏移)时的监督学习问题,萨里亚等人提出了“干预估计量”63,其定义为一种不受环境差异影响的干预分布16。该干预估计量通过在训练数据中学习具有泛化能力的关系来发挥作用,这种关系能够通过整合关于数据生成过程的先验知识,该方法能够在原始人群和目标人群之间存在预期差异的情况下,将在训练数据中学习到的关系推广到目标人群。这种方法已在因果结构未知的实际案例中得到应用。
结论
我们探讨了医疗健康领域中数据驱动的机器学习发展所面临的常见陷阱,区分了可用于支持临床决策的预测模型与干预模型。重要的是,干预模型的开发需要审慎考量因果关系。埃尔南(Hernan)等人64评论道:“近年来大量数据分析师涌入,其中许多人并未接受过正规的统计理论训练,他们带来了一种全新的态度——不会先验地排除因果问题”,但他们呼吁(我们也强烈支持这一呼吁)在数据科学培训课程中恰当地区分描述性建模、预测建模与干预建模。
开展因果机器学习是实现医疗健康领域伦理人工智能的关键,这等同于医生“首先不造成伤害”的誓言65。医疗健康干预模型涉及可执行的输入,且需要(无论是隐含还是明确地)对因果路径进行建模,以计算出合理的反事实结果。机器学习领域正在就模型的可解释性展开持续讨论,旨在避免偏倚并确保决策的公平性66。偏倚是因果理论的核心议题。可解释性或许是一种比因果性“更弱”的模型属性。对黑箱模型中输入变量如何影响输出的解释,既无法保证对输入-输出机制的解读是正确的,也无法揭示其中的因果关系。例如,在一个预测心脏病发作风险的深度学习系统中,后续分析或许能够解释“种族”和“血压”这些输入变量会影响发病风险,但无法说明这些发现是否具有因果性,因为它们可能受到分层偏倚、未测量的混杂因素的影响,或是由因果路径中的其他因素介导的。 机器学习中的公平性旨在开发能够避免因历史偏倚数据而产生社会歧视的模型,这与从观察性数据中学习面临着相同的概念性难题。事实上,已有观点主张利用因果模型来识别并减轻数据中的歧视性关联67。近期,一项关于癌症预后的研究将因果结构与深度学习相结合,以消除碰撞偏倚并提供无偏的个体预测68,不过该研究并未明确测试模型的可迁移性。
对于特定场景的干预模型,若存在可用的因果结构或可设计目标试验方案,我们建议针对特定的行动查询(例如治疗方案或风险修正因素)评估模型的可迁移性。对于需要识别或阐明因果结构的更广泛的探索性分析,则可采用预测不变性。可迁移性与预测不变性有望成为干预模型报告规范的核心工具,与当前预后模型和诊断模型的标准保持一致69。具有可迁移性的模型可整合到临床指南中,通过具备行动洞察力的预测来增强医疗服务水平,助力更优质的精准医疗实现。
如果您对真实世界研究/因果推断/生信分析/影像组学/人工智能算法感兴趣可以通过下方的微信加我的交流群
助教微信-程老师
助教微信-金老师欢迎关注我的视频号-定期直播免费文献分享会
扫一扫,添加我的视频号我的小红书

我的抖音平台

欢迎关注我的B站账号-公开课及文献分享视频会更新至此
我的B站