导言
在实证研究愈发追求精准因果识别的当下，高维数据爆发、非线性关联凸显、异质性处理效应复杂等现实挑战，让传统因果推断方法在建模灵活性、数据处理能力上的局限日益凸显。而机器学习的出现，为因果推断领域带来了突破性解决方案。如今，机器学习与因果推断的深度融合，已成为顶刊论文、政策评估、商业决策中突破研究瓶颈、提升结论可信度的核心路径。
我们特设计《机器学习与因果推断前沿训练营》，内容是目前顶刊中的前沿方法，覆盖OLS因果推断逻辑以及DID、RDD、SCM等准自然实验逻辑，以及最新的聚束分析和群聚双重差分！同时介绍LASSO、随机森林、梯度提升树GBDT、神经网络等机器学习方法，并介绍机器学习合成控制法、倾向评分匹配、双重机器学习（Double ML）、因果树与因果森林异质性处理效应等前沿实操。全程配套 Stata 实操教程、American Economic Review、《经济研究》等顶刊例文精读与真实案例复刻。
1. 课程概览

课程名称：机器学习与因果推断前沿--寒假班

课程时间：2026年3月7-8号、3月21-22日、3月28-29日上午10:00-12:00,下午14:00-18:00，共六次课

授课形式：腾讯会议线上直播＋课后回放＋课程资料

报名方式：

扫码报名

课程特色：

1、聚焦领域最新进展：深度拆解因果推断与机器学习交叉领域的前沿原理，同步顶刊研究范式与领域最新成果。

2、覆盖多场景验证：课程配套AER、RFS等15篇顶刊精读与真实案例分析，实现学术价值与应用价值的双重落地。

3、代码配套可复用性强：每类核心方法均配备全套可复用代码与对应数据，可直接适配自身研究或工作场景，大幅降低实操门槛。

2. 老师介绍

施一宁，211大学副教授、博导，帝国理工大学金融学博士，发表Journal of Financial Markets、Journal of Banking & Finance、European Financial Management、International Review of Financial Analysis等ABS3论文4篇，主持国家自然科学基金1项，主持并参与国家一流课程（金融类）建设，同时担任European Journal of Finance审稿人。

3. 课程大纲

专题一因果推断基础与OLS因果推断

一、因果推断基础：潜在结果框架、因果图与随机化实验

1、顶刊因果推断模型方法及情况梳理

2、潜在结果框架：辛普森悖论、潜在结果、稳定性假设、ATT/ATU/ATE估计

3、条件期望函数与随机化实验：迭代期望函数；条件期望函数的基本性质；为什么要使用条件期望函数？完全随机化实验与分层随机化实验；独立性与条件独立性假设

二、OLS核心推断问题

1、模型有效设定：稳健标准误（聚类、Bootstrap）；聚类层级选择；样本剔除标准

2、多元线性回归与FWL定理；固定效应模型；OLS与FE选择；联合固定效应与时间趋势项

3、遗漏变量偏误方向：低估还是高估

三、机制分析：调节、分组、作用机制

1、调节效应专题：含交互项的调节模型（含变量中心化逻辑）；如何将交互项表述转化为机制表述；单独项的解释问题

2、分组效应专题：分组的标准确定；组间系数差异检验

3、《经济研究》等最新机制检验方法：打破规矩，追求本质，X→M

专题二因果推断：准自然实验思路

一、双重差分法

1、标准DID与Stata实操

2、三重差分模型（DDD）与Stata实操

例文精读：[1] Mian, A., & Sufi, A. (2022). Credit supply and housing speculation. The Review of Financial Studies, 35(2), 680-719.

3、多时点DID拓展

（1）多拓展期DID政策效应动态图（Beck_Levine(2010)经典图、coefplot命令动态图）

（2）多期DID平行趋势检验图形实现：图示法、系数检验法

（3）安慰剂检验的Stata实现：政策实施时间前置、处理组随机化处理

例文精度及复刻

[1]Favara, G., & Imbs, J. (2015). Credit supply and the price of housing. American Economic Review, 105(3), 958-92.

[2]曹清峰.国家级新区对区域经济增长的带动效应——基于70大中城市的经验证据.中国工业经济,2020(07)

二、DID模型变形

1、时变处理时间与持续期的灵活面板DID因果分析: 多时点DID问题/TWFE 在估计静态模型时的潜在问题、Bacon系数分解定理、负权重诊断法

2、异质性处理效应下的双向固定效应估计与模糊DID应用

（1）模糊DID（Fuzzy DID）估计量与Stata实现

（2）异质性处理效应时，双向固定效应估计还稳健吗？

（3）异质性处理效应存在时的解决方法：组别-时期平均处理、插补估计量、堆叠回归估计量、异质性

例文精读：

[1]Chaisemartin, Clément de,and Xavier D’Haultfoeuille. “Two-Way Fixed Effects Estimators withHeterogeneous Treatment Effects.” American Economic Review 110, no. 9(September 2020):2964–96

3、空间DID

（1）忽略空间因素的DID结果可靠吗？

（2）空间DID模型构建

例文精读:

Chagas, André L.S,Azzoni C R , Almeida A N . A spatial difference-in-differences analysis of theimpact of sugarcane production on respiratory diseases. Regional Science and Urban Economics, 2016.

4、群聚双重差分（Bunching-DID）

（1）现实背景及基本原理：非线性政策激励引发行为聚束

（2）忽略群聚结构的后果

（3）群聚DID的识别与估计

（4）AI赋能下的Stata实操（bunchbounds，模型构建、结果解读）

参考文献：

[1]蔡宏波,汤城建,毛健.减税激励与企业异质性创新[J].经济研究,2025,60(02):107-123.

[2]孟元,杨蓉.大数据时代的政府治理：数字政府与企业研发操纵[J].世界经济, 2024, 47(1): 118-149

三、匹配法

（1）主要类型：精确匹配（Exact Matching）、倾向匹配得分（PSM）的假设，匹配方法（最近邻匹配、卡尺匹配等）与优缺点

（2）PSM-DID与Stata实操：选择协变量和匹配方法、估计倾向得分、平衡性检验与共同支撑域、估计

四、断点回归（RDD）

（1）精准断点回归设计（因果图视角、断点回归步骤）

（2）模糊断点回归设计

（3）内生分组与断点操纵

（4）弯折回归设计

（5）断点回归检验：连续性检验、安慰剂检验

五、合成控制方法

（1）合成控制法基本原理

（2）非参数合成控制法

（3）SCM的稳健性检验

（4）合成控制双重差分法（SDID）及安慰剂检验

例文精读:

[1]Cerulli G. A flexible Synthetic Control Method for modeling policy evaluation[J]. Economics Letters, 2019.

六、工具变量法（IV）

（1）识别条件：相关性（Wald估计、弱工具变量检验）与外生性的理论边界

（2）工具来源与异质性：地理、制度、历史等外生变异来源；异质性工具（LATE框架）

（3）主题工具变量：数字经济相关工具变量；环境经济相关工具变量；教育经济学相关工具变量；交通主题相关工具变量

（4）实战案例：数字经济相关工具变量的运用

参考文献：[1]曹希广,邓敏.电子商务政策与企业家创业精神[].世界经济,2024,(04):31-64

专题三因果推断的机器学习基础

一、机器学习基本概念

1、什么是机器学习？监督学习 vs 无监督学习

2、回归（Regression）与分类（Classification）的区别

3、训练集、测试集、验证集

4、常用机器学习模型评价指标

5、回归分析评价指标：MAE、MSE、RMSE、R²等

6、分类模型评价指标：准确率、精确率、召回率、F1值等

二、常见回归模型介绍与实现

1、线性回归（LinearRegression）

（1）带正则化的回归：

（2）LASSO（L1 正则，自动特征选择）

（3）弹性网络（ElasticNet，L1+L2 混合）

2、树模型入门：

（1）决策树

（2）随机森林

（3）梯度提升树GBDT

3、深度学习基础与实现

（1）神经网络基础

（2）卷积神经网络（CNN）

（3）循环神经网络（RNN）

4、因果推断中的特征选择与降维
（1）机器学习优势：非线性建模、高维数据处理（对比传统方法）

案例复刻：正则化回归（LASSO/Ridge）

案例分析:[1]易志高,刘逸飞,潘镇.CEO特质与企业数字化转型——基于机器学习的变量选择[J].系统工程理论与实践,2025,45(05):1462-1484.

专题四机器学习增强因果推断

一、机器学习合成控制法
1、理论讲解：反事实框架、合成控制法原理（Abadie et al.）

2、基于机器学习算法的合成控制评估案例讲解

数据预处理（匹配变量选择、时间窗口设定）；参数敏感性分析、安慰剂检验（随机分配处理组）

案例讲解：大小城市合并研究（郭峰,吕斌,熊云军,等.大小城市合并与行政边界地区经济增长

[1]基于机器学习算法的合成控制评估[J].数量经济技术经济研究,2024,41(09):26-48.

二、机器学习增强倾向评分匹配

1、理论讲解：逻辑回归、GBDT、神经网络等在倾向得分匹配中的应用

2、案例讲解

PSM相关模型的改进与应用

[1]谢申祥,范鹏飞,宛圆渊.传统PSM-DID模型的改进与应用[J].统计研究,2021(2):146-160）

三、双重机器学习（Double ML）

1、双重机器学习DML基本框架及优势（Chernozhukov et al., 2018）

（1）核心思路：Neyman正交化与交叉拟合

（2）高维数据下的变量选择与估计；非线性关系建模；缓解机器学习估计中存在的“正则偏误”

2、DID原理及其与DML的区别，何时用DID何时用DML？

3、双重机器学习Stata实现

[1]Ahrens, Achim, et al. "ddml: Double/debiased machine learning in Stata." The Stata Journal 24.1 (2024): 3-45.

4、双重机器学习的稳健性检验及Stata实现

[1]Pedro H.C. Sant’Anna, Jun Zhao,Doubly robust difference-in-differences estimators,Journal of Econometrics,Volume 219, Issue 1,2020,Pages 101-122,ISSN 0304-4076,

[2]Peng, Y., Shi, L., Shi, X., & Tan, S. (2024). Tone or term: Machine-learning text analysis, featured vocabulary extraction, and evidence from bond pricing in China. Journal of Empirical Finance, 78, 101534.

[3]Bianchi, D., Büchner, M., & Tamoni, A. (2021). Bond risk premiums with machine learning. The Review of Financial Studies, 34(2), 1046-1089.

四、因果树与因果森林
1、理论讲解：异质性处理效应（CATE）、广义随机森林（Athey 2019）

2、实操1：因果树构建：解读树结构

[1]Li J, Ma S, Le T, et al. Causal decision trees[J]. IEEE Transactions on Knowledge and Data Engineering, 2016, 29(2): 257-271.

3、实操2：案例复现

（1）广义随机森林

[1]Athey, Susan, Julie Tibshirani, and Stefan Wager. “Generalized random forests.” The Annals of Statistics 47.2.2019: 1148-1178；）

（2）异质性处理效应

[1]Stefan Wager & Susan Athey.2018 Estimation and Inference of Heterogeneous Treatment Effects using Random Forests, Journal of the American Statistical Association, 113:523, 1228-1242）

4. 课程报名

课程价格

拼团早鸟价：（开课前支付）999元；

原价：1699元

可按照实际支付金额开具电子发票

价格包含：直播课程+录播回放+课程资料+课程答疑（仅开课前支付能进答疑群）

如有以下优惠，购买前找“学知老师”领取优惠券。

优惠一

普通用户转发本推文到朋友圈/皮皮侠数据会员，私聊学知老师可获八折优惠券。

优惠二

尊享版超级课程会员可在直播结束后免费学习此录播课程；如需直播+答疑＋录播，超级课程会员可三折购买该课程；

扫码成为超级课程会员

4. 课程售后

课程发票/课程通知

联系“学知老师”可领取课程开课通知、结课证书、可报销发票等证明。

课程退款

在课程未开始前，接受“7天无理由退款”，由于是知识付费，一旦直播课开始后，不接受退款。退款请联系“学知老师”。

机器学习对计量经济学简直降维打击！