专题一因果推断基础与OLS因果推断
一、因果推断基础:潜在结果框架、因果图与随机化实验
1、顶刊因果推断模型方法及情况梳理
2、潜在结果框架:辛普森悖论、潜在结果、稳定性假设、ATT/ATU/ATE估计
3、条件期望函数与随机化实验:迭代期望函数;条件期望函数的基本性质;为什么要使用条件期望函数?完全随机化实验与分层随机化实验;独立性与条件独立性假设
二、OLS核心推断问题
1、模型有效设定:稳健标准误(聚类、Bootstrap);聚类层级选择;样本剔除标准
2、多元线性回归与FWL定理;固定效应模型;OLS与FE选择;联合固定效应与时间趋势项
3、遗漏变量偏误方向:低估还是高估
三、机制分析:调节、分组、作用机制
1、调节效应专题:含交互项的调节模型(含变量中心化逻辑);如何将交互项表述转化为机制表述;单独项的解释问题
2、分组效应专题:分组的标准确定;组间系数差异检验
3、《经济研究》等最新机制检验方法:打破规矩,追求本质,X→M
专题二因果推断:准自然实验思路
一、双重差分法
1、标准DID与Stata实操
2、三重差分模型(DDD)与Stata实操
例文精读:[1] Mian, A., & Sufi, A. (2022). Credit supply and housing speculation. The Review of Financial Studies, 35(2), 680-719.
3、多时点DID拓展
(1)多拓展期DID政策效应动态图(Beck_Levine(2010)经典图、coefplot命令动态图)
(2)多期DID平行趋势检验图形实现:图示法、系数检验法
(3)安慰剂检验的Stata实现:政策实施时间前置、处理组随机化处理
例文精度及复刻
[1]Favara, G., & Imbs, J. (2015). Credit supply and the price of housing. American Economic Review, 105(3), 958-92.
[2]曹清峰.国家级新区对区域经济增长的带动效应——基于70大中城市的经验证据.中国工业经济,2020(07)
二、DID模型变形
1、时变处理时间与持续期的灵活面板DID因果分析: 多时点DID问题/TWFE 在估计静态模型时的潜在问题、Bacon系数分解定理、负权重诊断法
2、异质性处理效应下的双向固定效应估计与模糊DID应用
(1)模糊DID(Fuzzy DID)估计量与Stata实现
(2)异质性处理效应时,双向固定效应估计还稳健吗?
(3)异质性处理效应存在时的解决方法:组别-时期平均处理、插补估计量、堆叠回归估计量、异质性
例文精读:
[1]Chaisemartin, Clément de,and Xavier D’Haultfoeuille. “Two-Way Fixed Effects Estimators withHeterogeneous Treatment Effects.” American Economic Review 110, no. 9(September 2020):2964–96
3、空间DID
(1)忽略空间因素的DID结果可靠吗?
(2)空间DID模型构建
例文精读:
Chagas, André L.S,Azzoni C R , Almeida A N . A spatial difference-in-differences analysis of theimpact of sugarcane production on respiratory diseases. Regional Science and Urban Economics, 2016.
4、群聚双重差分(Bunching-DID)
(1)现实背景及基本原理:非线性政策激励引发行为聚束
(2)忽略群聚结构的后果
(3)群聚DID的识别与估计
(4)AI赋能下的Stata实操(bunchbounds,模型构建、结果解读)
参考文献:
[1]蔡宏波,汤城建,毛健.减税激励与企业异质性创新[J].经济研究,2025,60(02):107-123.
[2]孟元,杨蓉.大数据时代的政府治理:数字政府与企业研发操纵[J].世界经济, 2024, 47(1): 118-149
三、匹配法
(1)主要类型:精确匹配(Exact Matching)、倾向匹配得分(PSM)的假设,匹配方法(最近邻匹配、卡尺匹配等)与优缺点
(2)PSM-DID与Stata实操:选择协变量和匹配方法、估计倾向得分、平衡性检验与共同支撑域、估计
四、断点回归(RDD)
(1)精准断点回归设计(因果图视角、断点回归步骤)
(2)模糊断点回归设计
(3)内生分组与断点操纵
(4)弯折回归设计
(5)断点回归检验:连续性检验、安慰剂检验
五、合成控制方法
(1)合成控制法基本原理
(2)非参数合成控制法
(3)SCM的稳健性检验
(4)合成控制双重差分法(SDID)及安慰剂检验
例文精读:
[1]Cerulli G. A flexible Synthetic Control Method for modeling policy evaluation[J]. Economics Letters, 2019.
六、工具变量法(IV)
(1)识别条件:相关性(Wald估计、弱工具变量检验)与外生性的理论边界
(2)工具来源与异质性:地理、制度、历史等外生变异来源;异质性工具(LATE框架)
(3)主题工具变量:数字经济相关工具变量;环境经济相关工具变量;教育经济学相关工具变量;交通主题相关工具变量
(4)实战案例:数字经济相关工具变量的运用
参考文献:[1]曹希广,邓敏.电子商务政策与企业家创业精神[].世界经济,2024,(04):31-64
专题三因果推断的机器学习基础
一、机器学习基本概念
1、什么是机器学习?监督学习 vs 无监督学习
2、回归(Regression)与分类(Classification)的区别
3、训练集、测试集、验证集
4、常用机器学习模型评价指标
5、回归分析评价指标:MAE、MSE、RMSE、R²等
6、分类模型评价指标:准确率、精确率、召回率、F1值等
二、常见回归模型介绍与实现
1、线性回归(LinearRegression)
(1)带正则化的回归:
(2)LASSO(L1 正则,自动特征选择)
(3)弹性网络(ElasticNet,L1+L2 混合)
2、树模型入门:
(1)决策树
(2)随机森林
(3)梯度提升树GBDT
3、深度学习基础与实现
(1)神经网络基础
(2)卷积神经网络(CNN)
(3)循环神经网络(RNN)
4、因果推断中的特征选择与降维
(1)机器学习优势:非线性建模、高维数据处理(对比传统方法)
案例复刻:正则化回归(LASSO/Ridge)
案例分析:[1]易志高,刘逸飞,潘镇.CEO特质与企业数字化转型——基于机器学习的变量选择[J].系统工程理论与实践,2025,45(05):1462-1484.
专题四机器学习增强因果推断
一、机器学习合成控制法
1、理论讲解:反事实框架、合成控制法原理(Abadie et al.)
2、基于机器学习算法的合成控制评估案例讲解
数据预处理(匹配变量选择、时间窗口设定);参数敏感性分析、安慰剂检验(随机分配处理组)
案例讲解:大小城市合并研究(郭峰,吕斌,熊云军,等.大小城市合并与行政边界地区经济增长
[1]基于机器学习算法的合成控制评估[J].数量经济技术经济研究,2024,41(09):26-48.
二、机器学习增强倾向评分匹配
1、理论讲解:逻辑回归、GBDT、神经网络等在倾向得分匹配中的应用
2、案例讲解
PSM相关模型的改进与应用
[1]谢申祥,范鹏飞,宛圆渊.传统PSM-DID模型的改进与应用[J].统计研究,2021(2):146-160)
三、双重机器学习(Double ML)
1、双重机器学习DML基本框架及优势(Chernozhukov et al., 2018)
(1)核心思路:Neyman正交化与交叉拟合
(2)高维数据下的变量选择与估计;非线性关系建模;缓解机器学习估计中存在的“正则偏误”
2、DID原理及其与DML的区别,何时用DID何时用DML?
3、双重机器学习Stata实现
[1]Ahrens, Achim, et al. "ddml: Double/debiased machine learning in Stata." The Stata Journal 24.1 (2024): 3-45.
4、双重机器学习的稳健性检验及Stata实现
[1]Pedro H.C. Sant’Anna, Jun Zhao,Doubly robust difference-in-differences estimators,Journal of Econometrics,Volume 219, Issue 1,2020,Pages 101-122,ISSN 0304-4076,
[2]Peng, Y., Shi, L., Shi, X., & Tan, S. (2024). Tone or term: Machine-learning text analysis, featured vocabulary extraction, and evidence from bond pricing in China. Journal of Empirical Finance, 78, 101534.
[3]Bianchi, D., Büchner, M., & Tamoni, A. (2021). Bond risk premiums with machine learning. The Review of Financial Studies, 34(2), 1046-1089.
四、因果树与因果森林
1、理论讲解:异质性处理效应(CATE)、广义随机森林(Athey 2019)
2、实操1:因果树构建:解读树结构
[1]Li J, Ma S, Le T, et al. Causal decision trees[J]. IEEE Transactions on Knowledge and Data Engineering, 2016, 29(2): 257-271.
3、实操2:案例复现
(1)广义随机森林
[1]Athey, Susan, Julie Tibshirani, and Stefan Wager. “Generalized random forests.” The Annals of Statistics 47.2.2019: 1148-1178;)
(2)异质性处理效应
[1]Stefan Wager & Susan Athey.2018 Estimation and Inference of Heterogeneous Treatment Effects using Random Forests, Journal of the American Statistical Association, 113:523, 1228-1242)