双重机器学习(Double machine learning,DML)自Chernozhukov等2018年在The Econometrics Journal发表奠基之作以来,迅速地渗透到了国内的实证经济学研究。
CSSCI期刊中涉及DML的论文从2021年开始呈现出爆发式的增长,到2025年同比增速已达100%。
然而,DML热度背后的隐患却不小,毕竟计量方法的误用其实比不用要更危险。
当前存在一种常见的误解,即将DML视为一种全新的识别策略(类似于工具变量IV或双重差分DID),认为引入机器学习便能自动地解决内生性问题。然而,事实上,DML是估计工具而非识别策略。
本文的目标在在于澄清此类误解,厘清DML的方法论边界,引导学者在正确的识别框架下规范地使用DML。
DML是提升估计精度和稳健性的工具箱,始终替代不了严谨的研究设计。只是说,在既有的识别框架内,借助机器学习灵活地控制高维、非线性的混淆因素,确实能得到更可可靠的因果推断。
胡诗蕴、江洪翊、谢海天,双重机器学习的理论与应用——从“黑箱”到“工具箱”的实践指南,《数量经济技术经济研究》2026年第3期
先看看原文文章做的简要介绍:
识别、估计因果效应并给出推断,是计量经济学的核心任务之一。传统的计量经济学方法发展了控制变量、工具变量、双重差分以及断点回归等识别策略,为因果推断提供了严谨而有效的理论框架。然而,在估计过程中,研究者往往需要额外施加对函数形式的线性假定。
随着大数据时代的到来,研究者能够获取的微观数据日益丰富,控制变量(协变量)的维度急剧增加,变量间潜在的非线性与交互关系也变得愈发复杂。
在此背景下,传统线性模型不仅面临着模型误设风险,还可能在处理高维协变量时陷入多重共线性,,导致因果效应的估计量不稳定甚至不一致,影响研究结论的可靠性。
面对这一挑战,双重机器学习(Double Machine Learning, DML)应运而生,为在高维、非线性世界中进行稳健的因果推断提供了解决方案。自从Chernozhukov 等(2018)的开创性论文以来,越来越多的实证研究开始采用双重机器学习。
在中文社会科学引文索引(Chinese Social Sciences Citation Index,CSSCI)期刊上,使用双重机器学习的文献数量自2021年起以接近年均100%的速度增加。
此外,随着中国研究者越来越多地关注这一方法,陈茁和陈云松(2025)对其在社会科学中的应用做了初步的概述。这一新方法的引入,一方面为研究中国问题提供了更多高质量证据,另一方面也引发了盲目崇拜、误解和误用。
如何正确地理解和使用双重机器学习,如何更好地将双重机器学习与已有数据和实证策略结合,以及如何认识双重机器学习在因果推断中扮演的角色,这些问题都亟待澄清。
本文旨在系统性地回答上述问题,为实证研究者提供一份关于双重机器学习的理论指引与实践指南,核心观点是:双重机器学习并非一种与工具变量、双重差分等相提并论的新型因果识别策略,而是一种服务于既有识别策略的、强大的高维非线性统计工具。
在潜在结果(Potential Outcome)框架中,因果效应是不同处理状态下的潜在结果之差(Rubin, 2005)。
定义Y为个体的可观测结果,D为个体的处理变量,D = 1表示个体接受处理,属于处理组;D = 0表示个体未接受处理,属于控制组。Y (1)和Y (0)分别为个体接受处理或不接受处理对应的潜在结果,从而有Y =DY (1) + (1 - D)Y (0),Y (1) - Y (0)为个体的异质性因果效应。
识别(Identification)是指通过对反事实的数据生成过程进行一定的假设(“识别假设”),找到从可观测总体分布唯一地还原出因果效应的方法。随后的估计(Estimation)则是给定从总体分布中获得的样本,通过统计分析得到因果效应的估计量。
双重机器学习可以在存在高维、非线性以及非结构化数据时,构造表现更好的统计量,而非通过改变或弱化识别假设。
它在保留机器学习的灵活性、降低估计波动的同时,通过额外的去偏手段避免了机器学习的偏误向因果系数估计量的传导,从而将机器学习这一强大的预测“黑箱”转化为估计因果效应过程中的有力“工具箱”。
本文首先在第二部分系统回顾了双重机器学习的理论脉络,从部分线性模型(Partial Linear Model, PLM)拓展至更灵活的交互回归模型(Interactive Regression Model, IRM),最终在矩估计的框架下讨论其一般性质。
在第三部分,本文探讨了双重机器学习如何与工具变量(Instrumental Variable,IV)、双重差分(Difference-in-differences, DID)、断点回归(Regression Discontinuity Design, RDD)等经典识别策略结合,在不改变核心识别假设的前提下,增强模型的灵活性与稳健性。
第四部分总结已有实证文献中的常见操作。第五部分通过数值模拟和“ 精准扶贫”政策评估的实证案例,演示双重机器学习的适用边界和实施流程。附录详细说明了具体算法以及在模型选择、诊断性检验中的注意事项,并提供可复制的代码。
本文的主要贡献在于:第一,厘清定位与祛除误用。在双重机器学习方法日益普及但易被误解的背景下,本文系统梳理其理论基础,明确其核心作用在于改善估计而非提供识别,旨在帮助研究者建立“先识别、后估计”的严谨范式,避免将其误用为解决内生性问题的“万能钥匙”。
第二,搭建理论与实践的桥梁。本文不仅介绍了双重机器学习的理论框架,更通过数值模拟和完整的实证案例,提供了一套具有可操作性的实践指南,覆盖了从模型选择、软件实现到结果解读的全过程,为研究者在复杂的中国情境下正确、高效地应用这一方法提供了参考。
下面做一个全面的介绍,想要更为细致的介绍可以阅读原文。
其理论基础是如下两大支柱
1.第一支柱是Neyman正交性;
DML之所以有效,在于其得分函数满足Neyman正交性条件,对扰动参数(Nuisance parameters,比如E(Y|X)、E(D|X))的一阶估计误差不敏感。
换句话说,即便机器学习在估计扰动参数时有些误差,但因果参数θ的估计量在渐近性质上依然具有一致性和正态性。
2.第二支柱是交叉拟合。
Cross-fitting是把样本分成K折(通常K=4或5),分三步执行。
1.用K-1折数据训练机器学习模型,估计E(Y|X)和E(D|X)。
2.用剩余1折计算去均值残差,即Ỹ = Y - m̂(X),D̃ = D - l̂(X)。
3.对全部残差做OLS回归Ỹ = θD̃ + ũ,得到θ的估计值。
这样做的核心目的是避免过拟合偏差,训练扰动参数和推断因果参数所用的数据来自于不同的子样本。
这种样本隔离机制有效地避免了过拟合偏差和数据泄露,保证了估计量的一致性和渐近正态性。
PLM与IRM是其两大基本模型
1.部分线性模型(PLM);
适用于假设处理效应具有同质性,或研究目标仅为估计总体平均处理效应的情形。
模型设定如下,
Y = θD + g(X) + u,E(u|X,D) = 0
其中,为目标因果参数,为任意形式的非线性混淆函数,可利用机器学习算法进行灵活地拟合。
需要特别注意的是,若真实的处理效应存在异质性,PLM估计的实质上是重叠加权的平均处理效应(ATO),与总体平均处理效应(ATE)有所区别。
这意味着,当两组样本的可比性较差时,PLM会自动地聚焦于那些特征相似、可相互比较的样本,降低极端样本的影响力。
这样做能让核心的估计结果更稳健、更可信。但研究者必须清楚,该结果主要适用于可比样本群体,在将其推广到整体人群(尤其是那些特征极端的个体)时,需要格外谨慎。
2.交互回归模型(IRM)。
适用于处理效应存在异质性,且需要灵活地估计平均处理效应(ATE)、处理组平均处理效应(ATT)或条件平均处理效应(CATE)的研究场景。
IRM采用的是双重稳健估计量(doubly robust estimator),公式如下,
ψ_DR1 = m₁(X) + D/p(X) · [Y - m₁(X)]
ψ_DR0 = m₀(X) + (1-D)/(1-p(X)) · [Y - m₀(X)]
ATE = E[ψ_DR1 - ψ_DR0]
其中m₁(X)=E(Y|D=1,X),m₀(X)=E(Y|D=0,X),p(X)=P(D=1|X)均由机器学习估计。
双重稳健估计的优势在于,只要结果模型()或倾向得分模型(
)中任意一个设定正确,ATE估计量即可具有一致性,显著降低了模型设定错误的风险。
再结合交叉拟合(cross-fitting)技术,这消除了正则化偏差,使估计量具备收敛速度及渐近正态性,便于构建置信区间并进行假设检验。
PLM与IRM核心对比(向左右拉),
| | |
|---|
| | |
| | 分组条件均值E(Y|D=1,X)、E(Y|D=0,X)、倾向得分P(D=1|X) |
| | ATE、ATT、CATE(支持多种因果参数的估计) |
| | 均方误差膨胀(依赖逆概率加权,对极端倾向得分敏感) |
与经典计量方法的结合
DML真正强大的地方,在于其高度的兼容性,能够灵活地嵌入各类经典的因果识别框架中。
通过机器学习算法估计高维扰动参数,DML可以在保持识别策略有效性的同时,显著地提升估计的精度。
具体的整合方式如下表所示(向左右拉),
| | |
|---|
| 估计局部平均处理效应 (LATE),处理高维控制变量 | |
| 估计处理组平均效应 (ATT),放松平行趋势对控制变量的线性限制 | |
|
| |
| 结合Callaway & Sant'Anna (2021) 估计量,处理异质性的政策处理时间 | |
什么情形下该用DML?Monte Carlo模拟
文章通过精心设计的模拟实验(1000次重复,涵盖多种数据的生成过程),系统地比较了DML与双向固定效应(TWFE)的表现。
结论整理如下(向左右拉),
| |
|---|
| DML方法(尤其是IRM变体)的估计精度显著优于传统的TWFE,能有效地捕捉复杂的非线性关系并降低偏误。 |
| IRM的均方误差(RMSE)显著上升,而PLM因正则化约束表现出相对的稳健性。 |
| DML与TWFE的估计表现相近,DML未展现出额外的效率增益,符合简单模型优先的简约原则。 |
因此,千万别为了用机器学习而强行选择IRM。先检查倾向得分的分布,若存在大量的极端值(接近0或1),则优先考虑PLM,或对样本做修剪(Trimming)。
实证的应用(精准扶贫政策评估)
文章将中国的精准扶贫政策对农村家庭收入的影响作为切入点,在复现Li et al.(2025,AEJ: Economic Policy)研究的基础上进行了拓展。
研究构建了一个涵盖7个省、2300个县的县级面板数据集,设定2014年为政策实施的基准年,并采用随机森林(random forests)算法对模型中的扰动参数进行估计。
主要估计结果见下表(向左右拉),
DML的估计系数为0.076,表明政策具有显著的正效应。
与传统DID得出的0.137估计值相比,DML的估计结果更为保守,原因是DML方法能够有效地控制非线性的混淆趋势,从而缓解了潜在的模型设定偏误。
同时,DML的均方根误差(RMSE)明显要低于传统的方法,体现了其在提升模型的估计精度方面的优势。
异质性分析还发现,政策效应存在明显的区域差异:在拥有革命历史遗产的县以及山区县,精准扶贫政策的增收效果更为显著。
六条实践指南
文章结尾给出了6条极具操作价值的建议,值得每位实证研究者收藏。
1.识别优先,估计其次。研究应首先基于传统的计量思路建立可信的识别假设,随后再利用DML提升估计的稳健性与精度。
需要明确的是,DML仅是一种估计工具,它无法替代工具变量去解决内生性问题,也不能免除对平行趋势假设的检验。
2.依据样本特征与共同支撑条件选择模型。模型的选择应取决于数据的具体情况,避免去盲目地追求模型的复杂性。
具体推荐策略如下表所示(向左右拉),
| |
|---|
| PLM(参数较少,能有效地避免过拟合,估计结果更稳健。) |
| IRM(允许处理效应的异质性,能更灵活地捕捉非线性关系。) |
| |
3.机器学习算法的选择。根据数据特征选择合适的算法,可参考下表(向左右拉),
4.认真地诊断扰动参数。需要仔细检查倾向得分的分布情况,警惕接近0或1的极端预测值。
若存在共同支撑假设不足的问题,应参考Crump et al. (2009) 的方法对样本进行修剪(Trimming),以确保估计的可靠性。
5.实施全面的规范性检验。务必进行协变量的平衡性检验,并通过多种模型的设定进行稳健性对比。应避免选择性汇报(cherry-picking),确保结果在不同方程设定下的一致性。
6.保持报告的透明度。详细记录机器学习模型的选择依据,以及扰动参数的拟合质量(比如 outcome和treatment 方程的交叉拟合RMSE)。
正文中应精简对DML的理论介绍,避免汇报对因果推断具有误导性的总体R²。
如何用软件实现DML
本文来源:计量经济圈,仅用于学术分享,如有侵权请联系删除!

第一天:软件基础与核心方法
上午:软件入门与双重机器学习基础
1. **Python与Stata因果推断分析入门** - Python科学计算环境配置 - 关键Python库介绍(参考:Microsoft Research, 2023, EconML文档)
- Stata基础因果分析命令回顾(参考:StataCorp, 2023, dml命令手册) - 两种软件的数据交互方法 - 实操练习:用两种软件运行相同的OLS回归
2. **双重机器学习介绍** - 传统计量方法的局限(参考:Angrist & Pischke, 2009)
- 机器学习在因果推断中的潜力(参考:Hastie et al., 2017) - 双重机器学习基本框架(参考:Chernozhukov et al., 2018) - Neyman正交性与去偏机制 - Python与Stata实现对比
3. **
双重机器学习的软件实现框架** - Python实现:EconML和DoubleML库(参考:Bach et al., 2022) - Stata实现:dml命令与插件 - 数据预处理最佳实践 - 交互演示:两种软件实现同一
DML模型
下午:方法比较与代码复现
1. **基于机器学习的因果推断方法比较** - 双重机器学习vs传统方法(参考:Knaus et al., 2021) -
不同机器学习方法比较 - Python vs Stata实现效率对比 - 可视化与结果报告
2. **代码复现(1):跨软件实现** - Python复现:EconML实现基础DML(参考:
Chernozhukov et al., 2018代码库) - Stata复现:dml命令实现相同分析 - 结果对比与诊断 - 交互练习:软件选择实践
第二天:案例研究与高级应用
第二天:案例研究与高级应用(新增中文案例) 上午:案例研究I - 政策与企业行为 1.跨境电商综合试验区政策对绿色技术创新的影响 o研究问题与数据介绍(参考:蒋金荷 & 黄珊, 2024) o双重机器学习实现步骤
o结果分析与政策启示 oPython与Stata实现对比 2.银行监管处罚对企业创新的影响 o研究设计回顾(参考:魏建等, 2024) o
异质性处理效应分析 o稳健性检验与机制讨论
下午:案例研究II - 区域发展与数据要素 1.公共数据开放对城市创业活力的影响 o研究问题与数据介绍(参考:蔡运坤等, 2024)
o双重机器学习应用 o结果可视化与政策建议 2.网络基础设施对包容性绿色增长的影响 o复现分析(参考:张涛 & 李均超, 2023) o
因果效应估计与地区差距讨论 o双重机器学习的优势总结 3.综合实践与未来方向 o完整分析流程演练 o分组讨论:中文案例的扩展应用 o开放问题与最新研究进展
部分参考文献【中文顶刊】:
[11]蒋金荷,黄珊.贸易新业态对绿色技术创新的影响研究——来自跨境电商综合试验区政策的证据[J].数量经济技术经济研究,2024,41(12):133-154 [12]
张科,熊子怡.法律制度完善、跨区域合作与省际边界地区绿色发展——来自《旅游法》实施的准自然实验[J].数量经济技术经济研究,2024,41(12):47-67 [13]魏建,薛启航,王慧敏,姚笛.银行监管处罚如何影响企业创新[J].中国工业经济,2024(7):105-123
[14]蔡运坤,周京奎,袁旺平.数据要素共享与城市创业活力——来自公共数据开放的经验证据[J].数量经济技术经济研究,2024,41(8):5-25 [15]张涛,李均超.网络基础设施、包容性绿色增长与地区差距——基于双重机器学习的因果推断[J].数量经济技术经济研究,2023,40(4):113-135
|
Austin老师,香港经济学博士,211高校副教授。主要从事评价理论与方法、生产效率分析、资源与环境管理等方向的研究;主讲《高级微观经济学》《高级计量经济学》《农业经济与政策》《经济学原理》等课程;在《Operations Research》《Energy Economics》《China Economic Review》《Transport Policy》《Growth and Change》《计量经济学报》《产业经济评论》等期刊发表论文十多篇。主持国家自然科学基金1项。教育部学位中心评审专家;“双法”气候金融研究分会理事。曾获“黄山优秀青年”称号、论文获得《产业经济评论》2023年度优秀论文。Stata零基础可学,适用于经济学、管理学、金融学以及卫生管理等领域的本科生、硕博研究生和青年教师,尤其是基础薄弱但是希望能够完成双重机器学习开展实证研究的同学。课程特色:
课程直播+视频长期回放+答疑+实操联系
提供讲义+案例+数据+代码
学术严选会员及老学员有优惠,具体请联系陈老师(微信 xsyxkf001)
报名:倘若您对课程感兴趣,扫描下方右侧二维码可直接购买,扫描下方左侧二维码可添加陈老师微信询问课程详情及发票事宜。