Py学习  »  机器学习算法

因果随机森林、双重机器学习、SCM、DID、PSM、IV方法等原理、适用条件、优缺点大比拼

数量经济学 • 4 月前 • 682 次点击  

因果随机森林、双重机器学习、SCM、DID、PSM、PSM-DID、IV方法原理、适用条件、优缺点大比拼

SCM

原理

  • 基于Rubin反事实框架,通过虚拟构造一个“控制组”,即在各方面都与受到干预的处理组一致但未受到干预的组,与处理组进行对比,二者之差即为“处理效应”。

适用条件:

  • 存在最优权重能够构造与处理个体相似的合成控制个体

优势

  • 避免政策内生性问题;
  • 避免主观选择带来的误差;
  • 可以反映每个控制对象对“反事实”事件的贡献,避免过分外推。
  • 作为一种非参数的方法,扩展了传统的双重差分法。
  • 通过数据驱动确定权重,减少了主观选择的误差,避免了政策内生性问题。
  • 通过对多个控制对象加权来模拟目标对象政策实施前的情况,不仅可以清晰地反映每个控制对象对“反事实”事件的贡献,同时也避免了过分外推。
  • 可以对每一个研究个体提供与之对应的合成控制对象,避免平均化的评价,不至于因政策实施时间不同而影响政策评估结果,避免了主观选择造成的偏差。
  • 控制可观测与不可观测特征
  • 根据数据来选择线性组合的最优权重
  • 可以避免模型设定错误

不足

  • 控制组的构造条件较高;
  • 要求干预的期数较大,否则信度较低
  • 最优权重可能不存在
  • 无法得到标准误与P值

参考资料


DID

原理:

  • 假定实验(暴露)组和对照组在未受到干预前有相同的变化趋势,先计算实验组和对照组在干预前的差值D0。,然后计算于预后实验组与对照组的差值D1,最后计算D1-D0,即为“处理效应”。

适用条件:

  • 平行趋势假设

优点:

  • 可以很大程度上避免内生性问题
  • 模型设置科学,能较为准确地估计出政策效应。
  • 1.比传统方法能更加准确地估计因果效应
  • 2.可以控制不随着时间改变的不可观测的特征

不足:

  • 仅适用于重复测量数据
  • 要满足其前提假设,应用范围有限。
  • 1.平行趋势假定本质上不能检验
  • 2.不能控制随时间改变的不可观测的特征

参考资料:


PSM

原理:

  • 将控制组的个体按照各特性(协变量集中的变量)“距离”相近的方法与处理组中的个体进行匹配, 缓解或消除选择偏倚,之后通过计算处理组与对照组的差异,即为“处理效应”。

适用条件:

  • 1.条件独立性假设
  • 2.共同支撑假定

优点:

  • 适合观察性数据的“类随机化”;可以同时调整大量的混杂因素。
  • 1.可以控制可观测的特征
  • 2.可以避免模型设定错误

不足:

  • 要求样本量较大;只能均衡已观测的指标变量。
  • 1.无法控制不可观测的特征
  • 2.条件独立假设是个很强且不能检验的假设
  • 3.结论只适用于共同支撑域样本
  • 4.数据量要求较高

参考资料:

RDD

原理:

  • 构造“断点”,使得个体在该断点之上接受干预(暴露),小于该断点时不接受干预(暴露),以此来构造实验(试验)组和对照组,特别是在连续型变量下, 断点附近样本的差别可以很好地反映干预和政策的因果关系。

适用条件:

  • 1.断点假设
  • 2.局部随机化假设
  • 3.连续假设

优点:

  • 最接近随机实验(试验)的因果推断方法;
  • 能够缓解参数估计的内生性问题。
  • 1.最接近随机化实验
  • 2.控制可观测与不可观测特征
  • 3.实验设计只需考虑驱动变量

不足:

  • 断点附近的数据要求较高;
  • 无法计算平均治疗效应。
  • 1.只能估计断点附近的局部因果效应
  • 2.对数据要求高
  • 3.断点附近的个体可能存在差异

参考资料:

IV

原理:

利用一些与误差项ε无关但与内生性变量高度相关的变量,即工具变量,代替回归模型中的解释变量,以计算“处理效应”。

优点:

  • 能够有效地解决内生性问题。

不足:

  • 排他性条件难以满足。

参考资料:


PSM-DID

适用条件:

  • 条件平行趋势假设

优点:

  • 1.条件平行趋势假设相对平行趋势假设更容易成立
  • 2.可以控制不随着时间改变的不可观测特征

不足:

  • 1.条件平行趋势假设本质上也无法检验
  • 2.不能控制随着时间变化的不可观测特征
  • 3.PSM与DID结合存在一定困难

参考资料:

因果随机森林 (Causal Random Forest)

前提假设:

  • 条件独立假设 (CIA) / 无遗漏变量偏倚:在模型中控制了所有相关协变量后,干预分配与结果变量相互独立(即不存在未观测的混杂变量)

优势:

  1. 捕获非线性关系:基于树结构的算法自动识别变量间的非线性关系和复杂交互作用
  2. 处理高维数据:有效应对大量预测变量和特征的情形
  3. 估计异质性效应:可量化处理效应在不同子群体中的差异(个体/子群层面因果效应)
  4. 非参数特性:不预设函数形式,数据适应性更强

缺陷:

  1. 可解释性差:模型结构复杂("黑箱"特性),难以解释单一变量的贡献
  2. 参数敏感性:结果易受参数设置影响(树数量/深度/分裂规则等)
  3. 置信区间问题:效应估计的不确定性量化不如传统参数模型稳健
  4. 计算成本高:构建大量决策树需要较高算力资源

双重机器学习 (Double Machine Learning, DML)

前提假设:

  • 条件独立假设 (CIA) / 无遗漏变量偏倚:模型中所有相关协变量被控制后,干预与结果变量独立

优势:

  1. 灵活建模能力:支持任意机器学习基模型(随机森林/Lasso/神经网络等)
  2. 高维数据处理:专为大数据场景设计,可处理超高维特征
  3. 异质性效应估计:兼容异质性处理效应(CATE)的估计框架
  4. 偏差校正机制:通过正交化步骤降低正则化偏差(Neyman正交得分)
  5. 广泛适用性:统一框架适用于ATE/CATE/IV等多种因果问题

缺陷:

  1. 可解释性受限:嵌套机器学习模型加剧"黑箱"问题
  2. 算法依赖性:结果质量高度依赖基模型选择和调参效果
  3. 实现复杂度:需要谨慎设计两个机器学习阶段的协作流程
  4. 收敛性要求:需要足够样本保证双重估计的渐进性质

图片


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/184410