因果随机森林、双重机器学习、SCM、DID、PSM、PSM-DID、IV方法原理、适用条件、优缺点大比拼
SCM
原理
- 基于Rubin反事实框架,通过虚拟构造一个“控制组”,即在各方面都与受到干预的处理组一致但未受到干预的组,与处理组进行对比,二者之差即为“处理效应”。
适用条件:
优势
- 可以反映每个控制对象对“反事实”事件的贡献,避免过分外推。
- 通过数据驱动确定权重,减少了主观选择的误差,避免了政策内生性问题。
- 通过对多个控制对象加权来模拟目标对象政策实施前的情况,不仅可以清晰地反映每个控制对象对“反事实”事件的贡献,同时也避免了过分外推。
- 可以对每一个研究个体提供与之对应的合成控制对象,避免平均化的评价,不至于因政策实施时间不同而影响政策评估结果,避免了主观选择造成的偏差。
不足
参考资料
DID
原理:
- 假定实验(暴露)组和对照组在未受到干预前有相同的变化趋势,先计算实验组和对照组在干预前的差值D0。,然后计算于预后实验组与对照组的差值D1,最后计算D1-D0,即为“处理效应”。
适用条件:
优点:
不足:
参考资料:
PSM
原理:
- 将控制组的个体按照各特性(协变量集中的变量)“距离”相近的方法与处理组中的个体进行匹配, 缓解或消除选择偏倚,之后通过计算处理组与对照组的差异,即为“处理效应”。
适用条件:
优点:
- 适合观察性数据的“类随机化”;可以同时调整大量的混杂因素。
不足:
参考资料:
RDD
原理:
- 构造“断点”,使得个体在该断点之上接受干预(暴露),小于该断点时不接受干预(暴露),以此来构造实验(试验)组和对照组,特别是在连续型变量下, 断点附近样本的差别可以很好地反映干预和政策的因果关系。
适用条件:
优点:
不足:
参考资料:
IV
原理:
利用一些与误差项ε无关但与内生性变量高度相关的变量,即工具变量,代替回归模型中的解释变量,以计算“处理效应”。
优点:
不足:
参考资料:
PSM-DID
适用条件:
优点:
不足:
参考资料:
因果随机森林 (Causal Random Forest)
前提假设:
- 条件独立假设 (CIA) / 无遗漏变量偏倚:在模型中控制了所有相关协变量后,干预分配与结果变量相互独立(即不存在未观测的混杂变量)
优势:
- 捕获非线性关系:基于树结构的算法自动识别变量间的非线性关系和复杂交互作用
- 估计异质性效应:可量化处理效应在不同子群体中的差异(个体/子群层面因果效应)
缺陷:
- 可解释性差:模型结构复杂("黑箱"特性),难以解释单一变量的贡献
- 参数敏感性:结果易受参数设置影响(树数量/深度/分裂规则等)
- 置信区间问题:效应估计的不确定性量化不如传统参数模型稳健
双重机器学习 (Double Machine Learning, DML)
前提假设:
- 条件独立假设 (CIA) / 无遗漏变量偏倚:模型中所有相关协变量被控制后,干预与结果变量独立
优势:
- 灵活建模能力:支持任意机器学习基模型(随机森林/Lasso/神经网络等)
- 高维数据处理:专为大数据场景设计,可处理超高维特征
- 异质性效应估计:兼容异质性处理效应(CATE)的估计框架
- 偏差校正机制:通过正交化步骤降低正则化偏差(Neyman正交得分)
- 广泛适用性:统一框架适用于ATE/CATE/IV等多种因果问题
缺陷:
- 实现复杂度:需要谨慎设计两个机器学习阶段的协作流程

