现在本科研究生上来就"双重机器学习", 这玩意黑箱太多了, 看看写给实证研究者的操作手册.

凡是搞计量经济的，都关注这个号了

邮箱：econometrics666@126.com

所有计量经济圈方法论 丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

前些日“1.天塌了! 不到1小时,斯坦福教授用AI独立,自动完成1篇实证论文, 并且过程和结论都相当精准. 2.太强悍! 6小时全自动完成一篇QJE级顶尖论文, AI的论文生成速度已碾压人类的验证速度. 3.喜欢用DID的, 遇到麻烦了, 一智能体1个月完成了340篇DID论文, 具备经济学顶刊的水准. 4.DID大牛Sant’Anna发布了一份超强工作流指南: 我的Claude Code配置. 5.经济学研究的34个神器! 当AI能自动生成顶刊论文, 经济学者靠什么立足? 该如何不被时代抛下?

前面介绍了“用10分钟写篇《经济研究》水准的论文, 让Claude code挑战中文顶刊, 你看写得如何?”

双重机器学习（Double machine learning，DML）自Chernozhukov等2018年在The Econometrics Journal发表奠基之作以来，迅速地渗透到了国内的实证经济学研究。

CSSCI期刊中涉及DML的论文从2021年开始呈现出爆发式的增长，到2025年同比增速已达100%。

然而，DML热度背后的隐患却不小，毕竟计量方法的误用其实比不用要更危险。

当前存在一种常见的误解，即将DML视为一种全新的识别策略（类似于工具变量IV或双重差分DID），认为引入机器学习便能自动地解决内生性问题。然而，事实上，DML是估计工具而非识别策略。

本文的目标在在于澄清此类误解，厘清DML的方法论边界，引导学者在正确的识别框架下规范地使用DML。

DML是提升估计精度和稳健性的工具箱，始终替代不了严谨的研究设计。只是说，在既有的识别框架内，借助机器学习灵活地控制高维、非线性的混淆因素，确实能得到更可可靠的因果推断。

胡诗蕴、江洪翊、谢海天，双重机器学习的理论与应用——从“黑箱”到“工具箱”的实践指南，《数量经济技术经济研究》2026年第3期

1.前沿, 双重机器学习方法DML用于因果推断, 实现它的code是什么？2.使用双重机器学习DML方法进行因果推断和政策评估的案例, 数据和代码分享，3. 双重机器学习DML用途, 步骤, 优势, 示例和代码等完整方法, 不信你还不懂, 附code. 4.更精准地分析政策效果的“秘密武器”: 机器学习双重差分法(MLDID)，6.1+1>2: 因果机器学习解锁预测与解释的双重力量, 最新书籍, 软件代码及示例等. 7.最全! 国内哪些政策适合用队列DID, 模糊断点RDD, 双重机器学习DML进行评估？

先看看原文文章做的简要介绍：

识别、估计因果效应并给出推断，是计量经济学的核心任务之一。传统的计量经济学方法发展了控制变量、工具变量、双重差分以及断点回归等识别策略，为因果推断提供了严谨而有效的理论框架。然而，在估计过程中，研究者往往需要额外施加对函数形式的线性假定。

随着大数据时代的到来，研究者能够获取的微观数据日益丰富，控制变量（协变量）的维度急剧增加，变量间潜在的非线性与交互关系也变得愈发复杂。

在此背景下，传统线性模型不仅面临着模型误设风险，还可能在处理高维协变量时陷入多重共线性，，导致因果效应的估计量不稳定甚至不一致，影响研究结论的可靠性。

面对这一挑战，双重机器学习（Double Machine Learning， DML）应运而生，为在高维、非线性世界中进行稳健的因果推断提供了解决方案。自从Chernozhukov 等（2018）的开创性论文以来，越来越多的实证研究开始采用双重机器学习。

在中文社会科学引文索引（Chinese Social Sciences Citation Index，CSSCI）期刊上，使用双重机器学习的文献数量自2021年起以接近年均100%的速度增加。

此外，随着中国研究者越来越多地关注这一方法，陈茁和陈云松（2025）对其在社会科学中的应用做了初步的概述。这一新方法的引入，一方面为研究中国问题提供了更多高质量证据，另一方面也引发了盲目崇拜、误解和误用。

如何正确地理解和使用双重机器学习，如何更好地将双重机器学习与已有数据和实证策略结合，以及如何认识双重机器学习在因果推断中扮演的角色，这些问题都亟待澄清。

本文旨在系统性地回答上述问题，为实证研究者提供一份关于双重机器学习的理论指引与实践指南，核心观点是：双重机器学习并非一种与工具变量、双重差分等相提并论的新型因果识别策略，而是一种服务于既有识别策略的、强大的高维非线性统计工具。

在潜在结果（Potential Outcome）框架中，因果效应是不同处理状态下的潜在结果之差（Rubin， 2005）。

定义Y为个体的可观测结果，D为个体的处理变量，D = 1表示个体接受处理，属于处理组；D = 0表示个体未接受处理，属于控制组。Y (1)和Y (0)分别为个体接受处理或不接受处理对应的潜在结果，从而有Y =DY (1) + (1 - D)Y (0)，Y (1) - Y (0)为个体的异质性因果效应。

识别（Identification）是指通过对反事实的数据生成过程进行一定的假设（“识别假设”），找到从可观测总体分布唯一地还原出因果效应的方法。随后的估计（Estimation）则是给定从总体分布中获得的样本，通过统计分析得到因果效应的估计量。

双重机器学习可以在存在高维、非线性以及非结构化数据时，构造表现更好的统计量，而非通过改变或弱化识别假设。

它在保留机器学习的灵活性、降低估计波动的同时，通过额外的去偏手段避免了机器学习的偏误向因果系数估计量的传导，从而将机器学习这一强大的预测“黑箱”转化为估计因果效应过程中的有力“工具箱”。

本文首先在第二部分系统回顾了双重机器学习的理论脉络，从部分线性模型（Partial Linear Model， PLM）拓展至更灵活的交互回归模型（Interactive Regression Model， IRM），最终在矩估计的框架下讨论其一般性质。

在第三部分，本文探讨了双重机器学习如何与工具变量（Instrumental Variable，IV）、双重差分（Difference-in-differences， DID）、断点回归（Regression Discontinuity Design， RDD）等经典识别策略结合，在不改变核心识别假设的前提下，增强模型的灵活性与稳健性。

第四部分总结已有实证文献中的常见操作。第五部分通过数值模拟和“ 精准扶贫”政策评估的实证案例，演示双重机器学习的适用边界和实施流程。附录详细说明了具体算法以及在模型选择、诊断性检验中的注意事项，并提供可复制的代码。

本文的主要贡献在于：第一，厘清定位与祛除误用。在双重机器学习方法日益普及但易被误解的背景下，本文系统梳理其理论基础，明确其核心作用在于改善估计而非提供识别，旨在帮助研究者建立“先识别、后估计”的严谨范式，避免将其误用为解决内生性问题的“万能钥匙”。

第二，搭建理论与实践的桥梁。本文不仅介绍了双重机器学习的理论框架，更通过数值模拟和完整的实证案例，提供了一套具有可操作性的实践指南，覆盖了从模型选择、软件实现到结果解读的全过程，为研究者在复杂的中国情境下正确、高效地应用这一方法提供了参考。

下面做一个全面的介绍，想要更为细致的介绍可以阅读原文。

其理论基础是如下两大支柱

1.第一支柱是Neyman正交性；

DML之所以有效，在于其得分函数满足Neyman正交性条件，对扰动参数（Nuisance parameters，比如E(Y|X)、E(D|X)）的一阶估计误差不敏感。

换句话说，即便机器学习在估计扰动参数时有些误差，但因果参数θ的估计量在渐近性质上依然具有一致性和正态性。

2.第二支柱是交叉拟合。

Cross-fitting是把样本分成K折（通常K=4或5），分三步执行。

1.用K-1折数据训练机器学习模型，估计E(Y|X)和E(D|X)。

2.用剩余1折计算去均值残差，即Ỹ = Y - m̂(X)，D̃ = D - l̂(X)。

3.对全部残差做OLS回归Ỹ = θD̃ + ũ，得到θ的估计值。

这样做的核心目的是避免过拟合偏差，训练扰动参数和推断因果参数所用的数据来自于不同的子样本。

这种样本隔离机制有效地避免了过拟合偏差和数据泄露，保证了估计量的一致性和渐近正态性。

PLM与IRM是其两大基本模型

1.部分线性模型（PLM）；

适用于假设处理效应具有同质性，或研究目标仅为估计总体平均处理效应的情形。

模型设定如下，

Y = θD + g(X) + u，E(u|X,D) = 0

其中，为目标因果参数，为任意形式的非线性混淆函数，可利用机器学习算法进行灵活地拟合。

需要特别注意的是，若真实的处理效应存在异质性，PLM估计的实质上是重叠加权的平均处理效应（ATO），与总体平均处理效应（ATE）有所区别。

这意味着，当两组样本的可比性较差时，PLM会自动地聚焦于那些特征相似、可相互比较的样本，降低极端样本的影响力。

这样做能让核心的估计结果更稳健、更可信。但研究者必须清楚，该结果主要适用于可比样本群体，在将其推广到整体人群（尤其是那些特征极端的个体）时，需要格外谨慎。

2.交互回归模型（IRM）。

适用于处理效应存在异质性，且需要灵活地估计平均处理效应（ATE）、处理组平均处理效应（ATT）或条件平均处理效应（CATE）的研究场景。

IRM采用的是双重稳健估计量（doubly robust estimator），公式如下，

ψ_DR1 = m₁(X) + D/p(X) · [Y - m₁(X)]
ψ_DR0 = m₀(X) + (1-D)/(1-p(X)) · [Y - m₀(X)]
ATE = E[ψ_DR1 - ψ_DR0]

其中m₁(X)=E(Y|D=1,X)，m₀(X)=E(Y|D=0,X)，p(X)=P(D=1|X)均由机器学习估计。

双重稳健估计的优势在于，只要结果模型（）或倾向得分模型（）中任意一个设定正确，ATE估计量即可具有一致性，显著降低了模型设定错误的风险。

再结合交叉拟合（cross-fitting）技术，这消除了正则化偏差，使估计量具备收敛速度及渐近正态性，便于构建置信区间并进行假设检验。

PLM与IRM核心对比（向左右拉），

维度	PLM	IRM
适用的效应类型	同质性处理效应（假设政策效果对所有个体相同）	异质性处理效应（允许政策效果随个体的特征变化）
扰动参数构成	整体条件均值E(Y\|X)、E(D\|X)	分组条件均值E(Y\|D=1,X)、E(Y\|D=0,X)、倾向得分P(D=1\|X)
估计目标	ATE或ATO（若存在异质性，收敛于ATO）	ATE、ATT、CATE（支持多种因果参数的估计）
共同支撑不足时的表现	相对稳健（不依赖逆概率加权，受极端值影响小）	均方误差膨胀（依赖逆概率加权，对极端倾向得分敏感）

与经典计量方法的结合

DML真正强大的地方，在于其高度的兼容性，能够灵活地嵌入各类经典的因果识别框架中。

通过机器学习算法估计高维扰动参数，DML可以在保持识别策略有效性的同时，显著地提升估计的精度。

具体的整合方式如下表所示（向左右拉），

经典识别框架	DML的角色	关键扰动参数
工具变量法 (IV)	估计局部平均处理效应 (LATE)，处理高维控制变量	、、
双重差分法 (DID)	估计处理组平均效应 (ATT)，放松平行趋势对控制变量的线性限制	倾向得分、控制组结果均值
断点回归 (RDD)	在断点邻域内灵活地控制协变量，减少局部偏差	协变量的条件期望函数
多期双重差分 (Staggered DID)	结合Callaway & Sant'Anna (2021) 估计量，处理异质性的政策处理时间	各处理组 - 时期的逆概率权重及结果均值

什么情形下该用DML？Monte Carlo模拟

文章通过精心设计的模拟实验（1000次重复，涵盖多种数据的生成过程），系统地比较了DML与双向固定效应（TWFE）的表现。

结论整理如下（向左右拉），

数据生成特征（DGP）	核心发现与方法比较
混淆关系非线性、处理效应异质	DML方法（尤其是IRM变体）的估计精度显著优于传统的TWFE，能有效地捕捉复杂的非线性关系并降低偏误。
共同支撑假设较弱	IRM的均方误差（RMSE）显著上升，而PLM因正则化约束表现出相对的稳健性。
混淆关系线性、处理效应同质	DML与TWFE的估计表现相近，DML未展现出额外的效率增益，符合简单模型优先的简约原则。

因此，千万别为了用机器学习而强行选择IRM。先检查倾向得分的分布，若存在大量的极端值（接近0或1），则优先考虑PLM，或对样本做修剪（Trimming）。

实证的应用(精准扶贫政策评估)

文章将中国的精准扶贫政策对农村家庭收入的影响作为切入点，在复现Li et al.（2025，AEJ: Economic Policy）研究的基础上进行了拓展。

研究构建了一个涵盖7个省、2300个县的县级面板数据集，设定2014年为政策实施的基准年，并采用随机森林（random forests）算法对模型中的扰动参数进行估计。

主要估计结果见下表（向左右拉），

方法	估计系数	标准误	RMSE（结果方程）	RMSE（处理方程）
传统DID（TWFE）	0.137	0.008	0.100	—
DML-PLM	0.121	0.012	0.085	0.296
DML-IRM	0.099	0.020	0.087	0.328
DML（精准扶贫的最终估计量）	0.076	0.011	—	0.269

DML的估计系数为0.076，表明政策具有显著的正效应。

与传统DID得出的0.137估计值相比，DML的估计结果更为保守，原因是DML方法能够有效地控制非线性的混淆趋势，从而缓解了潜在的模型设定偏误。

同时，DML的均方根误差（RMSE）明显要低于传统的方法，体现了其在提升模型的估计精度方面的优势。

异质性分析还发现，政策效应存在明显的区域差异：在拥有革命历史遗产的县以及山区县，精准扶贫政策的增收效果更为显著。

六条实践指南

文章结尾给出了6条极具操作价值的建议，值得每位实证研究者收藏。

1.识别优先，估计其次。研究应首先基于传统的计量思路建立可信的识别假设，随后再利用DML提升估计的稳健性与精度。

需要明确的是，DML仅是一种估计工具，它无法替代工具变量去解决内生性问题，也不能免除对平行趋势假设的检验。

2.依据样本特征与共同支撑条件选择模型。模型的选择应取决于数据的具体情况，避免去盲目地追求模型的复杂性。

具体推荐策略如下表所示（向左右拉），

情形	推荐模型
样本量较小	PLM（参数较少，能有效地避免过拟合，估计结果更稳健。）
样本量较大且共同支撑充分	IRM（允许处理效应的异质性，能更灵活地捕捉非线性关系。）
共同支撑不足	必须用PLM，或先修剪样本再估计

3.机器学习算法的选择。根据数据特征选择合适的算法，可参考下表（向左右拉），

数据特点	推荐算法
特征维度远超样本量	LASSO（适合高维稀疏场景）
非线性关系强、样本量大	随机森林、深度神经网络
一般情形	遵循交叉验证选超参数的流程

4.认真地诊断扰动参数。需要仔细检查倾向得分的分布情况，警惕接近0或1的极端预测值。

若存在共同支撑假设不足的问题，应参考Crump et al. (2009) 的方法对样本进行修剪（Trimming），以确保估计的可靠性。

5.实施全面的规范性检验。务必进行协变量的平衡性检验，并通过多种模型的设定进行稳健性对比。应避免选择性汇报（cherry-picking），确保结果在不同方程设定下的一致性。

6.保持报告的透明度。详细记录机器学习模型的选择依据，以及扰动参数的拟合质量（比如 outcome和treatment 方程的交叉拟合RMSE）。

正文中应精简对DML的理论介绍，避免汇报对因果推断具有误导性的总体R²。

如何用软件实现DML

软件	包	支持的方法
Python	`DoubleML` （基于Scikit-learn）	PLM、IRM、IV-DML、DID-DML
Stata	`ddml`	PLM、IRM、IV-DML、DID
R	`DoubleML` （基于`mlr3`）	PLM、IRM、IV-DML、DID

*各位群友可以到计量社群一起交流探讨Claude code或Codex的应用，从怎么下载安装、怎么调试，到怎么搞定各种高阶的Skills；也可以在社群微信群里学习其他前沿的东西，看看如何用Claude code或Codex更好地帮助咱们写中英文学术论文。

*群友可到社群交流agent skills相关技能在经管中的应用。
1.最全! 我国适合"断点回归"的政策都整理出来了, 让你有做不完的RDD断点政策评 2. 最全! 我国适合"合成控制法"的政策都整理出来了, 让你有做不完的SCM政策评估3.最全106页! 我国适合DID双重差分的政策都整理出来了, 让你有做不完的DID政策 4.最全! 我国适合DDD三重差分的政策都整理出来了, 让你有做不完的DDD政策论

7.最全! 我国各种X的工具变量IV都整理出来了, 8.最全! 把CFPS研究过的全部自变量X与因变量Y做成数据库了, 全网第一份CFPS选题数据库. 9.最全! 把CHFS研究过的全部自变量X与因变量Y做成数据库了, 第一份CHFS金融选题数据库.10.中国健康与养老CHARLS选题库, X与Y的研究组合助你研究老年人问题.11.把CSMAR研究过的自变量X与因变量Y做成数据库了, 第一份公司与金融微观选题数据库.12.三农微观数据选题库, 从此AI轻易助你选择经过检验了的X与Y的不同组合选题.13.CHIP和CEPS选题数据库, 轻松助你选择经过检验了的X与Y的不同组合家庭收入和教育选题.

下面这些短链接文章属于合集，可以收藏起来阅读，不然以后都找不到了。

8年，计量经济圈近2500篇不重类计量文章，

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle

计量经济圈组织了一个计量社群，有如下特征：热情互助最多、前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此，建议积极进取和有强烈研习激情的中青年学者到社群交流探讨，始终坚信优秀是通过感染优秀而互相成就彼此的。