社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

双重机器学习简介

郭老师统计小课堂 • 1 周前 • 54 次点击  

双重机器学习(DML: Double Machine Learning)是因果推断领域的重要方法,主要用于存在高维冗余变量情况下的因果效应估计。考虑因果模型

其中, 是结果变量(outcome variable), 是二元处理变量(policy/treatment variable), 是冗余变量(nuisance variable)。模型中我们关心的参数是 。在给定  时, 表示在给定冗余变量  的群体中处理  的因果效应。

在传统的最小二乘回归框架下若要一致地估计  需要满足外生性条件 ,其必要条件是处理变量  与冗余变量  不相关,这在现实中往往不成立。辛普森悖论(Simpson's Paradox)是处理变量  与冗余变量  相关导致因果效应估计出现严重偏差的典型案例——在某项药物有效性研究中,假设观察到服用该药物的患者死亡率高于未服药者,但当按患者病情严重程度分层分析时却发现无论是轻症还是重症患者,服药组的死亡率都低于未服药组。这种矛盾产生的可能原因是治疗变量  与病情  (冗余变量)相关,而  影响了结果 ,引发错误的因果推断:重症患者更可能被要求使用该药物,而重症患者本身死亡率更高,就造成了在不按病情分组时药物无效的假象。

针对这一问题,Frisch-Waugh-Lovell(FWL)定理指出可以通过两步法残差回归估计 ,即首先将结果变量  和处理变量  分别用冗余变量  进行回归得到残差  和 ,然后对  用  进行回归得到  的估计,从而排除冗余变量干扰。这一思想是双重机器学习的理论基础。在此基础上,双重机器学习框架通过引入 Neyman 正交性假定(Neyman orthogonality)和交叉拟合技术(cross-fitting),使得上述两步法残差回归思路在遇到更复杂的数据,如结果变量和冗余变量存在非线性关系、处理变量和冗余变量存在非线性关系、冗余变量维度较高时,在使用了灵活强大的机器学习方法的情况下,也能获得一致的因果效应估计(具体指 root-N consistent estimation)。

本文将基于最近被提交到 arXiv 的文章 Achim Ahrens, Victor Chernozhukov, Christian Hansen, Damian Kozbur, Mark Schaffer, Thomas Wiemann (2025). "An introduction to double/debiased machine learning",结合双重机器学习方法经典论文 Victor Chernozhukov, Denis Chetverikov, Mert Demirer, Esther Duflo, Christian Hansen, Whitney Newey, and James Robins (2018). "Double/debiased machine learning for treatment and structural parameters". Econometrics Journal 21.1, pp. C1–C68 介绍双重机器学习方法的思想来源、两个重要组成部分和参数估计框架,并简要介绍论文中提到的代表性应用案例。本文在方法部分尽可能补充了详细的推导过程。限于笔者尚未系统学习线性模型、极限理论等课程,论证难免存在疏漏,恳请批评指正。

1 双重机器学习的思想来源:Frisch-Waugh-Lovell(FWL)定理

FWL 定理提供了剔除混杂因素影响的关键思路,定理内容如下。考虑线性模型

其中,  是因变量, 是感兴趣的自变量, 是冗余变量, 是误差项。FWL 定理指出  的估计量可以通过以下步骤得到。

  • 对  和  分别用   进行回归,得到残差  和 
  • 对残差  用残差  进行回归,得到的系数即为   的估计量 

即记 ,最小二乘估计 。上述残差回归方法得到的  和最小二乘法估计相应分量  是相等的。

证明:引入帽子矩阵(projection matrix)

和零化矩阵(projection matrix)

则残差 。用  表示  的零化矩阵,则上述两步残差回归方法给出的估计可以写作

最小二乘估计可写作

等号两边同时左乘  可得

其中右式第二项

又由最小二乘估计和残差正交,右式第三项

从而

故 ,FWL 定理得证。

2 双重机器学习的提出动机:复杂高维数据带来的挑战

FWL 定理提供了剔除混杂因素影响的思路,但并不足以解决现实中的大量因果推断问题。在实际应用中,因变量、处理变量与冗余变量之间往往存在复杂的非线性关系,需要用现代机器学习方法来刻画。与此同时,由于冗余变量一般是高维向量,机器学习模型需要通过正则化来避免过拟合,这会导致对条件期望的拟合偏误,破坏处理效应估计的一致性。

以本文开篇提到的因果模型为例,加入处理变量和冗余变量的相关关系后,部分线性回归模型(partially linear regression)模型设定如下,

其中, 是结果变量,  是二元处理变量, 是冗余变量。

由矩条件  和条件期望的平滑性知 ,再代入  并写成样本矩的形式得到

由于  未知,可以用各种机器学习方法拟合  作为替代,仍然令

则可以解得

该估计量的收敛速度小于 ,理由如下。估计偏误可以表达为

从而

由模型的矩条件和中心极限定理,右式第二项收敛到 0,则第一项是核心误差项,进一步将其展开得到

先分析第一项,直观上如果用  进行回归, 由数据本身的性质决定且一般不为 0,又由于正则化方法的引入  也不为 0。故上式第一项并不会收敛到 0。严格表达为

由于估计  过程中正则化方法的使用, 收敛于 0 的速度一般慢于 ,故  收敛于 0 的速度慢于 ,即慢于求和积累的速度,该项发散,从而  是发散的。 FWL 定理提供了解决这一问题的思路。 不为 0 的原因是  中包含   的信息,因此可以考虑不用  进行回归,而是先对  用  进行回归并取不再包含  信息的残差  做下一步回归。此时估计量可写作

代入  可把估计偏差表达为

观察上式不难发现两个重要误差来源,一是  和  的估计误差,这会导致括号中第一项不收敛到 0,称正则偏误(regularization bias);二是由于使用同一组数据拟合  和  以及做最后的线性回归估计目标参数 ,导致  和  相关,第二项不收敛到 0,称过拟合偏误(overfitting bias)。同时,回溯  和  的计算过程发现,这些偏误一方面是由使用矩条件时用拟合出来的  替换真实但未知的 (一般称 nuisance parameter)引起的,因此我们希望矩条件对  的估计偏误不敏感,这正是双重机器学习重要组成部分之一 Neyman 正交性(Neyman orthogonality)的直观解释。双重机器学习的另一个重要组成部分交叉拟合技术(cross-fitting)则是为了避免用相同的数据拟合   和估计 ,减小过拟合偏误。

3 双重机器学习的核心:Neyman 正交性和交叉拟合

回归模型目标参数估计可以看作给定矩条件的矩估计。把上述特例一般化,考虑矩条件:

其中  是事先给定的得分函数(score function), 是观测数据, 是目标参数(target parameter), 是冗余参数(nuisance parameter)。用相应估计量替代未知冗余参数,得到样本矩形式的矩条件和目标参数估计量

在冗余参数真值处展开左式得到

整理得估计偏误

正则化方法的使用让 不可忽略,因此后一项是估计偏差的主导项。大体上,前文提到的正则化偏差是估计偏差  过大带来的,而过拟合偏差则是由  和  的强相关导致的。对此,双重机器学习框架引入了 Neyman 正交性和交叉拟合技术。

3.1 Neyman 正交性 (Neyman Orthogonality)

Neyman 正交性是一种局部稳健性假设,是指用于估计目标参数的矩条件在冗余参数真实值处对冗余参数的 Gateaux 导数等于零的性质,这意味着矩条件在该点对干扰参数的导数与从真实值指向任意干扰参数方向的向量正交(这也是其名称“正交性”的由来)。Neyman 正交性的严格定义为,得分函数  称 Neyman 正交得分函数,若其满足

直观上,这一性质意味着在足够大的样本中使用冗余参数的估计值代替真值对矩条件的影响很微弱,进而不会导致我们感兴趣的参数有较大的估计偏差。 下面给出一个具体示例:前文因果模型中  就是一个 Neyman 正交得分函数。先验证第一个条件,在真实参数  和  处

再验证第二个条件,定义扰动路径 ,则得分函数的期望为

计算 Gateaux 导数得到

综上即证得分函数  满足 Neyman 正交性的两个条件,是 Neyman 正交得分函数。

有没有方法构造 Neyman 正交得分函数的通用方法呢?一种构造思想是,首先确定目标参数  的矩条件 ,其中  包含干扰参数。通过 Riesz 表示定理,将  表示为 ,其中 Riesz 表示元  反映了处理变量和协变量的影响权重。正交得分函数构造为 ,其设计原理是第一部分  直接捕捉目标参数,第二部分通过 Riesz 表示元  与回归残差  相乘形成纠偏项。数学验证包含两个步骤,在真实参数处证明无条件矩条件  成立,以及通过计算 Gateaux 导数证明正交性条件满足,其中 Riesz 表示的性质确保导数表达式中的各项相互抵消,最终导数为零。

3.2 交叉拟合 (Cross-fitting)

双重机器学习的另一个关键成分交叉拟合(cross-fitting)是为了缓解过拟合偏差问题。其思路是采用重复样本分割的方法,一方面避免采用同一组数据拟合冗余参数和估计目标参数,从而避免  和  存在强相关性,另一方面保证数据利用效率。直观上,如果我们有两组独立的数据集,一组用于估计冗余参数 ,另一组可通过插入从第一组数据集中得到的估计  来估计目标参数 。由于数据集是独立的, 与  之间也独立。对于单一独立观察样本,我们可以随机将样本分成两部分,生成两个独立样本,一个用于估计 ,另一个用于估计 。当然,这种方法效率低下,因为  或  并未利用所有观察值进行估计。交叉拟合通过确保所有观察值都被用来估计混杂函数和目标参数,提高了数据利用效率。矩条件的交叉拟合版本为

其中 是样本单位随机分割成  个大致相等大小的子样本, 是一组第一步冗余参数估计量,每个估计量基于排除子样本  中的个体计算。因为仅使用不在子样本  中的观察值, 的估计误差与子样本  中的观察值独立,这在观察值在  之间独立的情况下有效缓解了过拟合偏差。同时,交叉拟合技术通过交换(交叉)样本用于冗余参数和目标参数的估计,避免了某一部分数据无法用于拟合混杂函数或无法用于估计目标参数的问题,提高了数据使用效率。

值得注意的是,数值模拟结果表明,交叉拟合对估计的改进效果高度依赖于得分函数的 Neyman 正交性。当采用具有 Neyman 正交性质的得分函数时,交叉拟合能有效降低干扰参数估计带来的过拟合偏误;反之,对于非 Neyman 正交得分函数,交叉拟合的改善效果则十分有限。

3.3 双重机器学习核心思路小结

双重机器学习的核心是 Neyman 正交性和交叉拟合技术。Neyman 正交性是指双重机器学习框架在估计目标因果参数(如平均处理效应 ATE)时采用的矩条件(得分函数)在数学构造上应当对冗余参数估计中的微小误差在一阶上不敏感。这一设定的收益是,即使机器学习对倾向得分或条件结果函数的估计存在瑕疵,最终因果参数的估计值也不会有太大偏差。交叉拟合技术则是为了克服过拟合偏差采用的一种系统性样本分割策略。它将数据分成若干个子样本,又称折(folds)。在利用每一折数据进行参数估计时,首先利用其余各折的数据来训练模型估计冗余参数,然后利用这些在样本外得到的冗余参数估计值在当前折上估计目标参数。最后将所有折得到的目标参数估计值进行平均,从而一方面有效消除了因使用同一批数据同时估计冗余参数和目标参数所引入的偏差,另一方面保证了数据使用效率。由于能够通过 Neyman 正交性和交叉拟合技术实现纠偏,双重机器学习框架允许研究者使用灵活强大的机器学习算法(如随机森林、Lasso 回归、神经网络等)来捕捉干扰成分中复杂的函数关系,同时保证最终得到的目标因果参数估计量具有一致性、渐近正态性和近似无偏性等优良性质。

4 基于双重机器学习框架的估计和推断

Neyman 正交得分函数的性质和使用交叉拟合技术的收益保证了双重机器学习(DML)估计量的渐近性质。根据定义,DML 估计量  可以通过求解矩条件

获得。其中  是满足的 Neyman 正交得分函数,即在真实参数  处得分函数对非核心参数  的方向导数期望为零。 为了推导  的渐近性质,对得分函数  在真实参数  附近进行一阶泰勒展开。对于每折  中的观测 (其中 )有

其中  和  分别表示  对  和  的导数。从而

由于 Neyman 正交性以及冗余参数估计值  以适当的速度(通常为  或更快)收敛于真值 ,泰勒展开中的非核心参数估计误差项  将是高阶小量,在渐近分析中可以忽略。因此,上式可以近似为

重新整理此式以解出 

根据大数定律, 收敛到其期望值  。根据中心极限定理, 渐近地服从均值为 、协方差矩阵为  的正态分布,即 。将这些渐近结果代入上式可以得到  的渐近分布为:

这表明 DML 估计量  是渐近正态的,其渐近方差为 

在实际应用中,真值  和  是未知的,需要被它们的样本估计量代替。DML 框架利用交叉拟合(cross-fitting)来提供一致的方差估计。具体地,我们用  来估计 ,

 通过将真值  和  分别替换为它们的估计值  和 ,并对所有数据点的梯度进行平均而得到。 同样, 是渐近方差  的一致估计量。它基于对得分函数外积的样本平均来估计 ,并结合  得到

这些估计量的有效性依赖于交叉拟合,它确保了在计算每个样本的得分和梯度时,所使用的非核心参数估计量  是在独立于该样本的数据上训练的,从而避免了估计偏差。

综上,在冗余参数的估计值以适当的速度收敛于真值(收敛速度一般要求是 )的条件下,双重机器学习估计量  的抽样分布渐近正态,即:

其中  和  的定义如上所示。基于上述抽样分布,可构造目标参数的  置信区间

其中  是标准正态分布的   分位数。

文中还给出了伪代码展示使用双重机器学习方法估计  的过程,该实现过程分为三个主要阶段:第一阶段是将数据随机划分成子样本(fold);第二阶段是遍历每个子样本来拟合冗余参数;第三阶段是估计目标参数。

5 双重机器学习应用案例

5.1 401k 计划资格对金融财富的影响(Effect of 401k Eligibility on Financial Wealth)

为了展示 Neyman 正交得分函数和交叉拟合技术的有效性,文章给出了第一个实证应用案例,基于双重机器学习方法探究美国 401(k) 退休金计划资格对个人净金融资产的影响。数据来源于 1991 年收入和计划参与调查(SIPP),研究目标参数是平均处理效应 ,其中  和  分别代表参与和不参与 401(k) 退休金计划的潜在金融资产, 表示 401(k) 资格状态(1 表示合格,0 表示不合格),假设在给定观察到的人口学变量的条件下 401(k) 资格近似随机分配。该实证研究的变量与数据情况如下:

  • 因变量 ():净金融资产,反映个体的经济状况。
  • 处理变量 ():401(k) 计划资格(二元变量)。
  • 控制变量 ():包括年龄、收入、教育年限、家庭规模、双职工状态、房屋所有权以及参与其他养老金计划的指标。
  • 数据来源:1991 年 SIPP 数据集,包含 9915 个观测值,收入变量呈现高维特性(7334 个唯一值)。

该研究采用双重机器学习框架,结合 Neyman 正交性和交叉拟合技术以提高估计的稳健性。考虑了三种分数函数:

  • 非 Neyman 正交 IPW 得分函数:基于逆概率加权。
  • Neyman 正交双重鲁棒分数:结合倾向得分和结果回归,增强对扰动参数估计误差的鲁棒性。
  • 非 Neyman 正交的回归调整 (RA) 分数:,其中  表示条件期望 

估计过程采用双重机器学习框架下的一般估计流程,分为三步:首先将样本随机分为  个子样本;然后通过交叉拟合在每个折叠的互补样本上估计冗余参数;最后基于双重鲁棒分数构造平均处理效应的估计 。本研究使用随机森林(1000 棵树,拟合结果方程和混杂函数时树的最大深度分别为 8 和 4)估计混杂函数,忽略第一步估计的不确定性以简化标准误计算。研究假设随机森林提供收敛速度适当的估计以确保双重机器学习的统计推断有效。结果显示 401(k) 退休金计划资格显著正向影响金融资产,但使用不同得分函数的点估计和标准误差异明显,验证了使用 Neyman 正交得分函数和交叉拟合技术的重要性。

5.2 双重差分分析:住院的经济后果(Economic Consequences of Hospital Admission)

第二个案例采用 Callaway 和 Sant'Anna (2021) 提出的交错实验设计框架,估计组别-时间平均处理效应(GT-ATT)和动态平均处理效应。除展示 DML 在面板数据中的典型应用外,本案例还重点讨论了样本分割引入的额外随机性,提出通过重复 DML 估计来评估结论稳健性的方法,并回顾了 Chernozhukov 等人 (2018) 提出的中位数聚合策略,这种方法在观测数据较少的交错实验设计中尤为重要。本案例研究基于美国健康与退休调查(HRS)的家庭面板数据,使用的是 HRS 第 7-11 轮调查中 656 户家庭的平衡样本。 用  表示首次住院时间, 表示个体  在时间  是否住院。用  表示住院与未住院情况下的潜在自付医疗支出结果,则组  在时间  的组别-时间平均处理效应(GT-ATT)定义为

基于平行趋势假设(可放宽至基于预处理协变量  的条件平行趋势),GT-ATT 可识别为:

使用满足 Neyman 正交性假定的双重稳健得分函数

其中干扰参数  包含

文章展示了采用随机森林(1000 棵树,最小节点数 10)估计干扰参数的双重机器学习估计结果。针对样本量较小的特点,本案例将交叉验证折数增加至  以提升估计稳定性。结果显示不同样本分割方式会导致估计值波动。为增强结果稳健性,研究采用 Chernozhukov 等人 (2018) 提出的中位数聚合方法:通过计算  获得点估计,并采用  计算标准误。与 Sant'Anna 和 Zhao (2020) 的参数化双重稳健估计相比,DML 方法由于采用非参数方式建模控制变量非线性关系更具优势。尽管两种方法多数估计值相近,但仍有少量差异。这些差异主要源于参数化方法对倾向得分和条件期望函数施加的线性指数 logit 假设与数据生成过程可能存在的不一致性,充分体现了干扰函数设定对因果效应估计的关键影响。值得注意的是,这种差异会进一步传导至动态效应估计——参数化方法基于此得出“住院后一期存在显著效应”的结论,而 DML 结果则不支持该发现。

文章还指出在实证分析中,研究者往往更关注组别-时间平均处理效应 GT-ATT 的汇总结果而非单个效应估计。动态处理效应作为重要的汇总指标,不仅为事件研究提供分析基础,而且是检验平行趋势假设有效性的关键工具。本定义动态效应为

其中  是所有首次治疗时间的集合, 是之前定义的 GT-ATT。在 Dobkin 等 (2018) 的设定中,时间  的动态处理效应  因此是初始住院后  期所有已识别 GT-ATT 的平均值。概率  可通过分组估计量获得,

动态效应估计结果显示,DML 与参数化双重稳健方法在核心结论上具有一致性:其一,所有模型均未检测到具有统计显著性的住院前效应(pretreatment effects),这为平行趋势假设提供了支持性证据;其二,两种方法都识别出住院当期对自付医疗支出的最大正向冲击。然而值得注意的是,参数化方法额外检测到住院后一期存在显著的小效应,而 DML 方法的相应估计值则未达统计显著性。这种差异本质上反映了参数化方法对倾向得分和条件期望函数设定的敏感性。具体而言,Sant'Anna 和 Zhao (2020) 采用的线性指数 logit 假设可能导致特定组别的处理效应被高估。这一发现具有重要方法论启示:当干扰函数存在误设风险时,基于 DML 的半参数估计可能提供更可靠的推断基础。

5.3 非结构化数据分析:在线市场的买方垄断(Monopsony in Online Markets)

本案例基于 Dube 等 (2020) 的研究,详细探讨了双重机器学习(DML)在分析亚马逊 MTurk 平台买方垄断力量时的应用。研究通过部分线性回归模型  来估计劳动力供给弹性,其中关键创新在于如何处理多维任务特征 :既包含传统结构化变量(如任务时限、关键词数量等人工编码特征),又整合了非结构化文本特征(包括任务描述的 Doc2Vec 嵌入、LDA 主题分布和 n-gram 特征)。研究采用 Neyman 正交得分函数  进行估计,其中冗余参数  对应两个条件期望函数  和  的估计。为系统评估不同机器学习方法在干扰函数估计中的表现,研究设计了比较实验:包括基准 OLS 模型、正则化线性方法(Lasso 和 Ridge)、非线性方法(三种配置的随机森林、XGBoost 和前馈神经网络)以及不同的文本特征处理方案(传统特征工程、BERT 嵌入及其组合)。通过交叉验证 R² 和 CVC 检验 (Lei, 2020) 的评估发现,虽然不同学习器导致  估计存在显著差异,但采用原始控制变量的 XGBoost 模型展现出最优的预测性能,而直接使用 BERT 嵌入的表现相对欠佳,上述发现将为后续研究在文本特征工程与机器学习方法选择方面提供了参考。

6 总结

双重机器学习通过结合半参数估计理论与现代机器学习方法,建立了一个在存在复杂冗余参数时仍能获得目标参数有效统计推断的框架。其核心是采用 Neyman 正交得分函数与交叉拟合技术降低对冗余参数(冗余函数)的估计精度要求,从而在较弱的正则条件下仍能保证统计推断有效性。这种方法允许研究者使用包括各类机器学习算法在内的多种技术来估计冗余参数(冗余函数),避免出于便利强加缺乏实质依据的假设。后续研究还拓展了双重机器学习框架的应用场景,如其在面板数据与双重差分设定中,以及在处理非结构化数据场景中的应用。尽管双重机器学习方法较传统方法灵活但也并非万能,其性能仍依赖于混杂函数估计方式的选择与调参效果。当前研究前沿包括探索得分函数不满足标准正则条件时的推断方法,发展数据驱动的学习器选择策略,以及权衡有限样本中数据分割的利弊。

值得注意的是,双重机器学习框架也为利用文本、图像等复杂的非结构化数据提供了可行路径。随着数据的日益丰富和人工智能技术的进步,它将成为不可或缺的实证研究工具。

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/185964
 
54 次点击