更精准地分析政策效果的“秘密武器”: 机器学习双重差分法(MLDID)

凡是搞计量经济的，都关注这个号了

邮箱：econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

接着“1.双重机器学习DML用途, 步骤, 优势, 示例和代码等完整方法, 不信你还不懂, 附code. 2.一次性讲清楚! HonestDiD, 相对幅度约束和平滑性限制的区别与联系, 示例和代码都有.”

计量经济学方法真的是层出不穷，进展非常快。当你还没有了解清楚机器学习和DID时，更精准地分析政策效果的“秘密武器”：机器学习双重差分法(MLDID)已经出现了。

为了更深入地了解政策实施效果，这篇文章“Machine Learning for Staggered Difference-in-Differences and Dynamic Treatment Effect Heterogeneity”结合并扩展了两种最新的“非参数双重差分法(DID)”。作者还引入了强大的机器学习技术，目的是更精细地研究在政策分阶段推广的情况下，政策效果可能存在的“因人而异”的现象，也就是所谓的“处理效应异质性”。

作者提出的新方法，名为“机器学习双重差分法(MLDID)”。这个方法就像一个“智能分析工具”，能够帮我们追踪政策效果随时间的变化，并且针对不同特征的群体，分别估算政策的平均效应，也就是所谓的“随时间变化的条件平均处理效应(CATT)”。更厉害的是，MLDID还能帮助我们深入挖掘，找到哪些因素是导致政策效果“因人而异”的关键原因。

为了检验MLDID这个“秘密武器”是否真的好用，作者做了“模拟实验”。实验结果表明，MLDID表现出色，能够准确地找出哪些因素真正影响了政策效果的差异性。更进一步，作者将MLDID应用到一项真实的政策评估中：巴西的家庭健康计划。他们想知道，这项计划对降低婴儿死亡率是否有效，以及效果在不同地区之间是否存在差异。通过MLDID分析，他们发现，巴西家庭健康计划在贫困地区和城市地区的实施效果，要明显好于在其他类型地区的效果。这说明，这项政策在更需要帮助的地区，发挥了更大的作用。

简要介绍一下该文：

双重差分法(DID)分阶段实施方法：计量经济学中评估动态处理效应的利器

双重差分法(DID)的分阶段实施方法，是计量经济学中一种被广泛应用的技术，主要用于评估政策或项目随着时间推移产生的动态效果，也就是所谓的“动态处理效应”。在现实应用中，这种方法是评估政策或项目因果效应的强大工具。通过研究那些分阶段逐步推开的政策或项目，研究人员能够有效地控制那些随着时间变化但又可能干扰研究结果的各种因素（即混杂因素），从而更精准地估算出政策的真正因果效应。

然而，分阶段DID设计方法有一个关键的假设前提，那就是政策或项目的实施时间，与可能影响结果的因素，以及其他相关变量的分布，两者之间应该是相互独立的（Callaway&Sant’Anna,2021）。简单来说，就是政策的实施时间不应该因为其他会影响结果的因素而有所选择或偏向。但在许多实际的观察性研究中，特别是在那些政策倾向于优先在经济相对落后地区实施的情况下，这个假设往往难以成立。

机器学习双重差分法(MLDID)：应对传统DID方法的挑战

为了解决上述问题，本文创新性地将Lu、Nie和Wager(2019)提出的基于机器学习的非参数DID估计方法，与Callaway和Sant’Anna(2021)的分阶段实施框架巧妙地结合起来，构建出一种全新的动态处理效应估计方法，我们将其命名为“机器学习双重差分法”（MLDID）。MLDID方法的核心优势在于，它允许政策或项目的实施时间与一些因素之间存在关联，打破了传统方法的严格假设。之所以能做到这一点，是因为MLDID巧妙地运用机器学习技术，来更准确地估计各种干扰模型，例如结果模型和倾向评分模型等等，从而更有效地排除干扰因素的影响。

MLDID的另一项重要优势是，它能够更灵活、更深入地分析处理效应的差异性（即异质性）。相比于传统方法，例如通过简单地添加交互项或者根据某些变量值对数据进行分组分析，MLDID可以处理更多更复杂的变量，并且展现出更高的灵活性。通过有效地整合机器学习对干扰模型的估计结果，MLDID能够预测每个研究对象（观察单元）的动态条件平均处理效应(CATT)。这使得研究人员能够以数据驱动的方式，更精细地分析动态处理效应的异质性，例如，可以利用研究人员感兴趣的各种变量，进行更深入的回归分析，从而了解处理效应会如何随着这些变量的不同而变化。

模拟与实证结果：MLDID方法的有效性与应用

模拟实验的结果清晰地表明，MLDID方法能够以更小的误差估计动态平均处理效应，并且能够准确地识别出哪些变量可以预测处理效应，以及这些变量对CATT的影响是如何随着时间演变的。尤其值得强调的是，本文是首次通过实证研究，展示了机器学习在分阶段DID框架中的有效应用。尽管此前Chang(2020)和Zimmert(2020)等研究已经探索了机器学习在单一处理时间DID中的应用，但目前为止，还没有其他方法能够像MLDID这样有效地估计分阶段DID的动态CATT。

为了充分展现MLDID方法在实际研究中的价值，本文将其应用于评估巴西家庭健康计划(FHP)对婴儿死亡率的影响。研究结果与先前已有的非参数方法（Callaway&Sant’Anna,2021）的结果高度一致，都表明FHP实施后的数年内，婴儿死亡率出现了显著的下降。进一步对处理效应异质性的分析还揭示，影响婴儿死亡率下降的关键因素是会随着时间而变化的。研究发现，后期婴儿死亡率的下降，可能与不平等、贫困以及民族多样性等因素的处理效应异质性密切相关。这暗示着，FHP对经济欠发达地区的预期积极影响可能需要更长的时间才能充分显现，但最终，该项目对实施地区的婴儿死亡率的整体下降做出了显著的贡献。

看一看该方法提出的背景

面板数据事件研究中的分阶段处理时机方法：逐步揭示政策的真实效果

想象一下，政府推出一项惠民政策，但不是一下子在全国所有地方同时实施，而是像“滴灌”一样，先在部分地区试点，效果好的话再逐步推广到其他地方。这种分阶段实施的政策在现实生活中非常常见。为了评估这类政策的实际效果，经济学家们常用一种叫做“分阶段双重差分法(DID)”的研究方法(Bertrand,Duflo,和Mullainathan2004；Wooldridge2010)。这种方法特别适合研究那些最终会覆盖所有地区或单位的政策。

分阶段DID设计的巧妙之处在于，它能帮助我们更精准地识别政策的“净效果”，排除其他干扰因素的“噪音”。这是因为，不同地区开始实施政策的时间点不一样，就像“先试点”和“后推广”的地区，它们本身可能就存在差异，比如经济发展水平、地理位置、居民素质等等。这些差异本身就可能影响结果，而分阶段DID方法能够较好地消除这些地区自身差异造成的干扰，让我们更专注于观察政策本身带来的变化。

为了应用分阶段DID设计，研究者们常用一种叫做“传统双向固定效应回归(TWFE)”的分析工具。这种方法就像一个“多面手”，它既能考虑到不同地区之间固有的差异（横截面固定效应），又能捕捉到随着时间推移发生的共同趋势（时间固定效应）。更重要的是，TWFE方法还能通过引入一个特殊的“政策指示变量”（通常带有“滞后”和“超前”项），来量化政策在不同时间段产生的效果，经济学家们通常把这种分析方法称为“事件研究法”。简单来说，TWFE方法就像是在比较：政策实施后，地区发生了哪些变化？而这些变化，是不是真的由政策带来的？

然而，近年来，不少研究开始对传统TWFE方法提出质疑(A.Baker,Larcker,和Wang2021；DeChaisemartin和d’Haultfoeuille2020；Goodman-Bacon2018；Sun和Abraham2020)。问题主要在于，TWFE方法可能存在“计算偏差”，导致我们对政策效果的评估出现偏差。这是因为，TWFE方法在计算平均政策效果时，可能会给不同“组”（这里“组”指的是根据政策开始实施时间划分的地区群体，比如第一批试点的城市、第二批推广的城市等等）的效应赋予不同的权重。如果权重分配不合理，最终算出来的平均值就可能失真，无法准确反映政策的真实因果效应。

Goodman-Bacon（2018）的研究就揭示了，TWFE估计器本质上是多个“小型2x2DID估计量”的加权平均。这些权重的分配，取决于每个“组”的规模大小，以及政策变量本身的变化幅度。问题就出在这个权重分配机制上。在研究的时间范围内，那些较晚才开始实施政策的“组”，在更早实施政策的“组”已经受到政策影响之前，实际上扮演了“控制组”的角色。当政策的实际效果随时间发生变化时，简单地比较这些早、晚实施政策的“组”，就可能导致平均政策效果被错误地赋予负权重。这就好比，我们想计算一个班级的平均身高，但计算方法出了问题，反而让个子矮的同学在平均值中占了更大的比重，最终导致平均身高被低估了。

为了解决TWFE方法的“加权偏差”问题，Callaway和Sant’Anna（2020）提出了一种更先进的方法。他们不再简单地“一锅烩”求平均，而是针对每个“组”（按政策开始实施时间划分），分别计算该组的平均政策效果(ATT)。与传统的基于参数回归的TWFE方法不同，Callaway和Sant’Anna的方法允许研究者使用“双重稳健估计”，例如Sant’Anna和Zhao（2020）提出的DRDiD方法。“双重稳健”的好处在于，即使我们对模型的某些设定不够精确，只要我们对问题的理解方向大致正确（结果回归模型或处理倾向得分模型至少有一个设定是合理的），我们仍然能够比较可靠地估计出每个组的政策效果，降低模型设定偏差带来的风险。

将机器学习方法应用到分阶段DID的研究框架中，是一种自然而然的思路拓展。因为机器学习方法拥有强大的非参数建模能力，就像一个“智能橡皮泥”，可以更灵活地“捏合”各种复杂的数据关系，帮助我们更精准地拟合各种模型，从而减少因模型设定不当而产生的偏差，提高政策评估的准确性。

当然，除了Callaway和Sant’Anna的方法，还有其他学者也在积极探索修正TWFE估计偏差的路径。DeChaisemartin和D’Haultfoeuille（2020）的研究，主要关注政策实施后“立竿见影”的瞬时效应，但这在评估一些具有长期影响的政策时可能不太适用，比如健康政策，其效果往往是धीरे-धीरे逐步显现的。Sun和Abraham（2020）也提出了一种回归估计方法，用于估计各组的平均政策效果，他们的思路与Callaway和Sant’Anna（2020）的方法有相似之处。然而，Sun和Abraham的方法，需要一个更强的假设前提，即“平行趋势假设”需要无条件成立。所谓“平行趋势假设”，简单来说就是指，在政策实施之前，处理组和控制组的结果变量变化趋势应该是相似的。相比之下，Callaway和Sant’Anna的方法则相对宽松，允许在特定条件下，对一些与政策实施时间相关的“协变量”进行控制，即允许在控制某些因素之后，“平行趋势假设”仍然成立。在像本文研究的这种政策评估背景下，如果政策初期优先在相对贫困地区实施，那么Callaway和Sant’Anna的“条件平行趋势假设”可能更容易被满足，也更符合现实情况。

Sun和Abraham（2020）提出的“交互加权组处理效应估计方法”的一个优点是，他们的参数化方法更加灵活，允许在回归模型中更方便地加入随时间变化的协变量。而Callaway和Sant’Anna（2020）的方法，则为了避免“内生性”问题，限制了使用（随时间变化的）政策实施后产生的协变量。正如Callaway和Sant’Anna指出的，这些政策后产生的协变量，可能会受到政策本身的影响(Wooldridge2005)，从而引入新的偏差。但在实际的政策评估应用中，完全排除这些变量可能并不现实。因为可能存在一些协变量，比如地区的人口年龄结构，虽然在合理的分析时间范围内不太可能直接受到政策的影响，但它们可能与政策的实施时机存在关联，并且对政策效果的评估至关重要，因此我们需要对其进行控制。因此，在方法选择上，我们需要根据具体的研究问题和数据特点，做出权衡和取舍，选择最合适的分析工具。

非参数双重差分法(DID)：更灵活可靠的政策评估工具

在政策评估的研究领域，与我们之前讨论的分阶段DID方法几乎同时，一些学者也在独立地探索非参数双重差分法(DID)。这种方法的目标也是为了更准确地估计政策的平均处理效应(ATT)，也就是政策的平均效果。其中，Zimmert（2018,2020）和Chang（2020）是两位重要的先驱，他们各自提出了双重稳健的DID方法。

Zimmert(2018)提出了一个双重稳健DID估计方法，并在后续研究(Zimmert2020)中进一步推导出了更高效的“影响函数”。这项工作意义重大，因为它使得研究人员可以使用更加灵活的“第一阶段估计”，简单来说，就是模型的前半部分，用来初步处理数据。更重要的是，Zimmert的方法允许研究人员应用机器学习等先进技术来完成这个“第一阶段估计”，并且可以通过交叉验证等程序来选择最优的模型。Zimmert(2020)提出的DR分数（DRscore），既保持了双重稳健性——即使模型设定不完全准确，结果依然可靠，又避免了像Chernozhukov等人(2018)那样，需要使用复杂的数学工具（如Gateaux微分原理）。他的方法更注重于一系列易于验证速率的分数函数，使得实际应用更为方便。此外，Zimmert的研究还暗示，在满足基本识别假设的前提下，加入更多的协变量，并且允许这些协变量随时间变化，反而有可能提高某些估计结果的精度。换句话说，考虑更多可能影响政策效果的因素，也许能让我们的分析更准确。

Chang(2020)提出的DID双重稳健正交方法，则更直接地借鉴了Chernozhukov等人(2018)的研究成果。Chang的方法也需要强平稳性假设，这个假设比较严格，意味着处理变量和协变量的联合分布在时间上需要保持不变，也就是说，政策实施与相关因素之间的关系在不同时间段要保持稳定。虽然Chang的方法在理论上很扎实，但其估计效率尚未达到半参数效率边界，这意味着可能还有提升空间。值得注意的是，Chang和Zimmert的研究，虽然都推导了面板数据的估计方法，但在实际验证部分，他们都选择使用横截面数据来检验方法的有效性，而没有直接应用于面板数据。

最近，Gavrilova、Langørgen和Zoutman(2023)又向前迈进了一步，他们将Wager和Athey(2018)提出的因果森林方法，扩展应用到了单一处理时机的DID设定中。他们的创新之处在于，首先对结果变量进行“基准年差分”和“正交化”处理，相当于预先对数据进行一些调整和优化，然后再对处理后的结果变量进行因果森林估计。通过这种方式，他们最终能够得到每个时间段的平均处理效应(ATT)和异质性处理效应（即组ATT和CATT）。该方法的一个重要优点是，它仅依赖于平行趋势假设，而不需要假设处理分配与潜在结果独立，也就是放宽了“条件独立假设”。这意味着，我们不再需要严格假设政策的实施是完全随机的，只需要假设在政策实施前，处理组和控制组的结果变量趋势是平行的即可，这在实际应用中更易于满足。Gavrilova等人也描述了如何将他们的方法扩展到分阶段处理时机的设定，但目前还没有看到实际应用案例。

最后，Lu等人(2019)提出了另一种非参数DID方法，该方法更加简洁，除了条件平行趋势假设之外，不需要任何其他假设(Lu、Nie和Wager2019)。这相比之前的方法，又进一步放宽了假设条件，特别是避免了“强平稳性假设”的限制，使得方法更加灵活和通用。他们还提出了一种异质性处理效应估计方法，用于估计特定类型的条件处理效应(CATT)，也就是针对具有特定特征群体的政策效果。虽然Lu等人在实证研究中仅使用了重复横截面数据，但他们提出的方法可以很容易地扩展到面板数据的情形，并且不需要像Zimmert的方法那样，进行复杂的速率属性或方差公式推导。通过放宽强平稳性假设，Lu等人的方法能够更好地处理处理变量和协变量与时间之间可能存在的复杂关系。正是考虑到这一点，并且为了更好地探索处理效应的异质性，本文的研究最终选择了Lu等人(2019)提出的ATT估计方法，作为研究方法的基础。他们的方法还依赖于“稳健分数”(Robust Score)，这在一定程度上提升了估计效率，减少了偏差，同时对用于获得干扰函数的机器学习方法选择保持开放和兼容。

本文提出的MLDID方法，正是对上述文献的进一步扩展，其研究思路与Lu、Nie和Wager (2019)以及Callaway和Sant’Anna(2021)的方法最为接近。本文的目标是，以一种稳健的方式估计各组的平均处理效应(ATT)，并预测单位层面的条件平均处理效应(CATT)。同时，结合机器学习方法在估计各种干扰模型中的应用，使得我们能够更深入地研究处理效应的动态异质性，也就是政策效果如何随着时间和不同群体而变化。

*群友可在社群下载该文PDF。
关于多期DID或交叠DID: 1.DID相关前沿问题“政策交错执行+堆叠DID+事件研究”, 附完整slides，2.交错(渐进)DID中, 用TWFE估计处理效应的问题, 及Bacon分解识别估计偏误，3.典范! 这篇AER在一图表里用了所有DID最新进展方法, 审稿人直接服了！4.最新Sun和Abraham(2020)和TWFE估计多期或交错DID并绘图展示结果！详细解读code！5.多期DID或渐进DID或交叠DID, 最新Stata执行命令整理如下供大家学习，6.多期DID前沿方法大讨论, e.g., 进入-退出型DID, 异质性和动态性处理效应DID, 基期选择问题等，7.交叠DID中平行趋势检验, 事件研究图绘制, 安慰剂检验的保姆级程序指南！8.欣慰! 营养午餐计划终于登上TOP5! 交叠DID+异质性稳健DID！9.用事件研究法开展政策评估的过程, 手把手教学文章！10.从双重差分法到事件研究法, 双重差分滥用与需要注意的问题，11.系统梳理DID最新进展: 从多期DID的潜在问题到当前主流解决方法和代码! 12.标准DID中的平行趋势检验,动态效应, 安慰剂检验, 预期效应教程，13.DID从经典到前沿方法的保姆级教程, 释放最完整数据和代码！

8年，计量经济圈近2500篇不重类计量文章，

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle

计量经济圈组织了一个计量社群，有如下特征：热情互助最多、前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此，建议积极进取和有强烈研习激情的中青年学者到社群交流探讨，始终坚信优秀是通过感染优秀而互相成就彼此的。