Py学习  »  机器学习算法

双重机器学习与健康研究,这种因果推断新范式论文你见过吗?

学术严选 • 5 月前 • 404 次点击  

浙江大学医学院公共卫生学院宋培歌研究员团队在《Child Abuse & Neglect》发表了一项因果推断研究论文。研究思路如下:

  • 采用双重机器学习,量化了不良童年经历(ACE)对流产、抑郁、焦虑及共病(同时发生焦虑和抑郁)的潜在因果效应

  • 为了检验治疗效果的异质性,进行了亚组和异质性分析。

  • 使用因果森林方法估计条件平均治疗效应(CATE),以捕获ACE效应的个体水平变化。

  • 进行了因果中介分析以评估妊娠流产的中介作用。

用双重机器学习+因果森林+因果中介分析开展研究,值得一学,我们详细解读一下!

双重机器学习开展因果推断

研究旨在探讨不良童年经历对流产、抑郁、焦虑和共病的潜在因果关系,并评估妊娠流产的中介作用。

为了估计与ACE对妊娠流产数量和心理健康结果的因果解释一致的影响,研究者采用了Chernozhukov等人(Chernozhukov等人,2018)提出的双重机器学习(DML)框架。该分析使用R软件包“DoubleML”(Bach等人,2024)进行。



双重机器学习DML

DML是一种因果推断方法,但并非一个单一的算法,而是一个理论框架。

其核心思想是:利用机器学习模型来估计并剔除“滋扰参数”(Nuisance Parameters)的影响,从而使对目标因果参数的估计对滋扰模型的估计误差不敏感。

它将机器学习算法与奈曼正交化(Neyman Orthogonality)和交叉拟合相结合,以减少估计偏差并提高在处理复杂和潜在非线性混淆结构时的稳健性。

通俗来讲,DML可以通过正交化和交叉拟合技术,利用任意机器学习模型来处理高维混杂变量,从而获得稳健的因果效应估计。

研究的主要参数是平均治疗效果(ATE),它量化了ACE对流产、抑郁、焦虑及其合并症的潜在因果影响。

另外,研究者实施了一个五折交叉拟合程序,以确保正交性和最小化过拟合。对包括Lasso、随机森林和XGBoost在内的机器学习算法进行了评估,用于评估滋扰函数,并选择了性能最佳的模型进行主要分析。

结果显示,随机森林模型始终表现出优越的预测性能,通常产生最高的AUC和最低的MSE。因此,我们选择使用随机森林算法从DML框架导出的结果作为我们的主要发现。

每个模型在所有处理变量和结局变量上的 out-of-sample AUC和MSE

ACE暴露显著增加流产,以及抑郁、焦虑和共病的概率。
使用随机森林算法从DML中得出的ACE对流产、抑郁、焦虑以及共病的估计ATE

另外,为了评估估计的因果效应的稳健性,将原始随机森林模型的ATEs与使用Lasso和XGBoost算法获得的ATEs进行了比较。

结果显示,ACE与所有四种结果之间关联的方向、幅度和显著性在三种机器学习模型中基本一致。这种跨算法发现的趋同强化了主要结果的稳健性。

比较三种机器学习算法(Random Forest、Lasso、XGBoost)ATE 估计值

处理效应异质性分析

为了检验处理效应的异质性(HTE),研究者按年龄和教育程度进行了亚组分析。

此外,使用因果森林方法估计条件平均治疗效应(CATE),以捕获ACE效应的个体水平变化(Wager & Athey, 2018)。

异质性分析显示:

  • 对于流产,受教育程度较低的女性的相关性更强。例如,暴露于任何ACE显著增加初等教育组的流产数量,而高学历组的影响较弱且不显著。

  • 对流产次数的影响也集中在45岁以上的女性中,而在≤45岁的女性中无统计学意义。

  • 就心理健康结果而言,受过初等教育的妇女的影响始终更大。

  • 然而,与流产不同的是,对年轻妇女(≤45岁)心理健康的不利影响更为明显。

热力图展示了基于随机森林的双重机器学习模型中,按年龄和教育水平定义的亚组估计的 ATE

因果森林模型证实了所有结果存在显著的个体水平异质性。

在参与者中,有很大比例的流产CATEs呈阳性,这表明对有意义的个体子集而言,风险直接增加。在心理健康方面,CATEs也有很大差异,突出了个体对ACEs的不同易感性。

这些异质性模式在ACE评分和所有ACE亚型中是一致的。

任何不良童年经历对流产次数和心理健康结果影响的个体水平异质性

因果中介分析

为了评估妊娠流产是否在ACEs与心理健康结果之间起中介作用,采用“ mediation ” R包进行因果中介分析(Tingley et al., 2014)。估计了直接和间接效应,以及通过妊娠流产介导的总效应的比例。

研究发现,妊娠流产数与抑郁、焦虑以及共病显著相关,随机森林、Lasso和XGBoost模型的ATE估计值一致。

基于这些结果,以流产次数为中介,对每个结局进行因果中介分析。

在所有结果中,间接中介效应具有统计学意义,但幅度较小。

具体而言,流产的数量只占整个ACE-心理健康关联的一小部分:抑郁为2.37%,抑郁和焦虑共病为2.43%,焦虑占比最大4.96%,但仍然有限。

本研究的一个显著优势在于它使用了先进的因果推理技术,特别是DML框架,来估计ace对流产和心理健康结果的治疗效果。该方法针对高维混杂因素进行灵活调整,从而能够对因果效应进行更稳健的估计,从而细致地了解将早年逆境与日后健康结局联系起来的路径。
因果推断方法现在已然成熟,在越来越卷的科研时代, 因果推断可能是破局之道,也是未来的大势所趋,诸位得抓紧学起来了!


🔥 解锁因果推断新维度|「基于双重机器学习的前沿因果推断」开启报名!
——用前沿方法解决反事实问题,让机器学习真正读懂“因果关系”


为什么你需要学习双重机器学习(DML)?


在政策评估、金融风控、医疗效果分析等场景中,传统机器学习常陷入相关性陷阱 ,而计量经济学的严谨方法,如倾向匹配、双重差分、断点回归等,都有依赖严格的前提条件又难以处理高维数据——双重机器学习为这个问题提供了解决的思路。
✅ DML 融合机器学习预测力与计量经济学因果框架
✅ 突破内生性难题,实现更可靠的因果效应估计
✅ 社科顶刊的DML采用率暴增




课程内容

第一天:软件基础与核心方法

 

上午:软件入门与双重机器学习基础

 

1. **PythonStata因果推断分析入门**

- Python科学计算环境配置

关键Python库介绍(参考:Microsoft Research, 2023, EconML文档)

- Stata基础因果分析命令回顾(参考:StataCorp, 2023, dml命令手册)

两种软件的数据交互方法

实操练习:用两种软件运行相同的OLS回归

 

2. **双重机器学习介绍**

传统计量方法的局限(参考:Angrist & Pischke, 2009

机器学习在因果推断中的潜力(参考:Hastie et al., 2017

双重机器学习基本框架(参考:Chernozhukov et al., 2018

- Neyman正交性与去偏机制

- PythonStata实现对比

 

3. **双重机器学习的软件实现框架**

- Python实现:EconMLDoubleML库(参考:Bach et al., 2022

- Stata 实现:dml命令与插件

数据预处理最佳实践

交互演示:两种软件实现同一DML模型

 

下午:方法比较与代码复现

 

1. **基于机器学习的因果推断方法比较 **

双重机器学习vs传统方法(参考:Knaus et al., 2021

不同机器学习方法比较

- Python vs Stata实现效率对比

可视化与结果报告

 

2. ** 代码复现(1):跨软件实现**

- Python复现:EconML实现基础DML(参考:Chernozhukov et al., 2018代码库)

- Stata复现:dml命令实现相同分析

结果对比与诊断

交互练习:软件选择实践

 

第二天:案例研究与高级应用

 

第二天:案例研究与高级应用(新增中文案例)

上午:案例研究I - 政策与企业行为

1. 跨境电商综合试验区政策对绿色技术创新的影响

o研究问题与数据介绍(参考:蒋金荷 & 黄珊, 2024

o双重机器学习实现步骤

o结果分析与政策启示

oPython Stata实现对比

2.银行监管处罚对企业创新的影响

o研究设计回顾(参考:魏建等, 2024

o异质性处理效应分析

o稳健性检验与机制讨论

 

下午:案例研究II - 区域发展与数据要素

1.公共数据开放对城市创业活力的影响

o研究问题与数据介绍(参考:蔡运坤等, 2024

o双重机器学习应用

o 结果可视化与政策建议

2.网络基础设施对包容性绿色增长的影响

o复现分析(参考:张涛 & 李均超, 2023

o因果效应估计与地区差距讨论

o双重机器学习的优势总结

3.综合实践与未来方向

o完整分析流程演练

o分组讨论:中文案例的扩展应用

o开放问题与最新研究进展

 

部分参考文献【中文顶刊】


[11]蒋金荷,黄珊.贸易新业态对绿色技术创新的影响研究——来自跨境电商综合试验区政策的证据[J].数量经济技术经济研究,2024,41(12):133-154

[12]张科,熊子怡.法律制度完善、跨区域合作与省际边界地区绿色发展——来自《旅游法》实施的准自然实验 [J].数量经济技术经济研究,2024,41(12):47-67

[13]魏建,薛启航,王慧敏,姚笛.银行监管处罚如何影响企业创新[J].中国工业经济,2024(7):105-123

[14]蔡运坤, 周京奎,袁旺平.数据要素共享与城市创业活力——来自公共数据开放的经验证据[J].数量经济技术经济研究,2024,41(8):5-25

[15]张涛,李均超.网络基础设施、包容性绿色增长与地区差距——基于双重机器学习的因果推断[J].数量经济技术经济研究,2023,40(4):113-135



讲授/答疑老师:
Austin老师,香港经济学博士,211高校副教授。主要从事评价理论与方法、生产效率分析、资源与环境管理等方向的研究;主讲《高级微观经济学》《高级计量经济学》《农业经济与政策》《经济学原理》等课程;在《Operations Research》《Energy Economics》《China Economic Review》《Transport Policy》《Growth and Change》《计量经济学报》《产业经济评论》等期刊发表论文十多篇。主持国家自然科学基金1项。教育部学位中心评审专家;“双法”气候金融研究分会理事。曾获“黄山优秀青年”称号、论文获得《产业经济评论》2023年度优秀论文。

目标受众:
Stata零基础可学,适用于经济学、管理学、金融学以及卫生管理等领域的本科生、硕博研究生和青年教师,尤其是基础薄弱但是希望能够完成双重机器学习开展实证研究的同学。


课程特色:

课程直播+视频长期回放+答疑+实操联系

提供讲义+案例+数据+代码 

课程价格:799元

学术严选会员及老学员有优惠,具体请联系陈老师(微信 xsyxkf001)
多门课程联买也有优惠,其他课程介绍请点击下方链接

《学术严选》科研系列课程



报名:倘若您对课程感兴趣,扫描下方右侧二维码可直接购买,扫描下方左侧二维码可添加陈老师微信询问课程详情及发票事宜。

 图片      图片
    陈老师二维码,联系咨询               购课二维码,直接购买



Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/190619