Marcos Lopez de Prado：计量经济学家的机器学习手册

量化投资与机器学习微信公众号，是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业30W+关注者，荣获2021年度AMMA优秀品牌力、优秀洞察力大奖，连续2年被腾讯云+社区评选为“年度最佳作者”。

量化投资与机器学习公众号 独家解读

量化投资与机器学公众号 QIML Insight——深度研读系列 是公众号全力打造的一档深度、前沿、高水准栏目。

公众号遴选了各大期刊前沿论文，按照理解和提炼的方式为读者呈现每篇论文最精华的部分。QIML希望大家能够读到可以成长的量化文章，愿与你共同进步！

本期遴选论文
来源：The Journal of Financial Data Science
标题：Machine Learning for Econometricians: The Readme Manual
作者：Marcos López de Prad

核心观点

由于金融数据的非结构化性质以及经济系统中涉及的复杂关系，计量经济学的很多工具不太适合进行投资研究。

机器学习(ML)技术提供了在高维空间中识别复杂模式所需的能力和功能灵活性。

这篇文章提供了一个从经典统计到ML的桥梁，使计量经济学家可以采用ML工具到他们现有的研究过程。

近年来，经济数据的数量和粒度都有了显著提高。这些数据集对传统计量经济学工具带来了多重挑战。机器学习(ML)提供了一套现代化的统计工具，特别适合克服新的经济和金融数据源以及金融市场中日益复杂的关联带来的挑战。尽管如此，在学术金融中使用ML情况仍然不多见。部分原因可能是人们错误地认为ML是一个黑匣子，这与标准计量经济分析的透明度形成了对比。

本文的目的就是揭穿这种错误的看法。作者认为，计量过程的每一个分析步骤在ML分析中都有直接的同源性。作者希望鼓励在应用经济学和金融研究人员中采用ML技术。

机器学习如用应用在计量经济学中？

ML是现代统计学的重要组成部分。ML工具可以被最好地理解为传统统计在计算机时代的自然进化(Efron和Hastie 2016)。理解这种演变的一种方法是检查ML如何处理典型计量经济学工作流程中的每个步骤。表1列出了计量经济学和ML分析步骤之间的对应关系，为计量经济学家提供了一个路线图。在本节的其余部分中，我将讨论这些步骤，着重强调和ML之间的相似性和差异性。

▌训练目标 Goal Setting

计量经济学研究的目标是确定因果关系，通常使用多元线性回归的方式来验证当“在其他条件都不变的情况下”，观察变量的变动所带来的边际影响。假设我们有如下回归等式：

其中X为观察变量，Z为控制变量（通过Z剥离其对y的影响，以免将Z对y的影响当成X对y的影响）。换句话说，以上分析的目标是在控制z的情况下，分析x对y变动的影响。我们称这个目标为方差裁定（Variance Adjudication）。重要的是要认识到，计量经济学的方差裁定目标不一定与ML的样本外预测目标相容(Mullain athan和Spiess 2017)。方差裁定涉及到计算样本内最佳线性无偏估计量(BLUE)，即使可能存在具有更低均方预测误差的有偏估计量。

相反，ML主要用于样本外预测。提前明确分析目标，并在分析开始前指定一个明确的研究计划是至关重要的。一项设计糟糕的ML研究，在一开始就没有明确说明问题和目标，很可能导致错误的发现。我将在后面的一节中详细讨论这一点。

▌数据可视化 Visulization

相对较短的历史数据集，传统的可视化工具通常使用时间图（一个变量随时间变化）、散点图(一个变量对另一个变量)、饼图（分类分布）、直方图（数值分布）或热图进行可视化。绘制数据图对于搜索异常值、信息缺失或质量问题等问题非常有用。从探索性数据分析中发现的模式可以提出假设的构想，然后可以定量地检验这些假设。可视化对于结果的交流也很有用。

ML算法的兴起也有助于我们更好的探索高维数据间的关系。无监督学习方法，如最小生成树算法，有助于将变量之间的关系表示为网络或树映射。有监督的方法，比如分类和回归树（CART）算法，可以可视化层次结构和阈值的组合如何解释结果。高维数据集带来了另一个主要挑战，因为现代经济系统很少能用二维或三维图表示。t-SNE算法是一种非线性降维技术，它将高维空间嵌入到二维或三维散点图中，使相似的物体在附近绘制，而不同的物体在远处绘制。

▌异常点检测 Outlier Detection

异常值对模型的拟合有很大的影响。计量经济学中，一般采用Winsorizing数据集中的观察值设置上限和下限，其中任何超过上限/下限的观察值将重置为上限/下限的值。Triming的方法也会设置上限和下限，只不过会直接去掉超过上限或下限的观察值。这些方法的一个局限性是它们对数据的分布做出了假设。

许多ML算法可以用来检测异常值，它们能够考虑到数据的复杂结构，并利用这些知识推导出某个特定观测值是异常值的概率。聚类算法及树模型在识别异常值方面都很有用。比如在机器学习模型中，有个随机样本共识(RANSAC)的回归方法对于异常值的识别非常有效，下图2给出了对于同一组数据，传统OLS和RANSAC回归的差别：

▌特征提取 Feature Extraction

传统计量经济学中通常使用PCA进行降维处理（可以认为是一种特征提取的方法）。但PCA存在的某些缺点，而这些缺点都有对应的机器学习模型可以解决：

PCA会忽略特征间的非线性关系，在机器学习中的解决方案是应用kernel-PCA算法。

PCA是一种无监督学习，它提取特征时没有考虑预测变量Y。只有当PCA提取的主成分与Y相关性高时，PCA的方法才有效。线性判别分析（LDA）方法找到最能分离预测目标的特征的线性组合。

PCA在提取主成分时改变了基向量，这样会导致主成分没有经济含义。一种ML解决方案是在特征的相关矩阵上应用双聚类算法，将相互冗余的特征聚类在一起。

PCA中较小的特征值相关的特征向量不能被稳健地估计。解决这个问题的一种方法是收缩协方差矩阵（Ledoit和Wolf 2004）；然而，这将以降低信号为代价来去除噪声。第二种方法是正则化特征向量，就像稀疏PCA方法所做的那样。第三种可能是识别与噪声相关的特征值并仅收缩这些特征值（Laloux et al. 2000）。

▌建模阶段 Modeling

传统计量模型主要使用简单的线性模型，这类模型无法发现变量之间的非线性关系，随着机器学习的发展，在回归Regression和分类Classification两大问题上出现了很多更有效的机器学习算法，如下表展示了回归和分类常用的一些机器学习算法，这些算法还在不断的发展和丰富中，我们这里就不详细展开。

▌Feature Importance 特征重要性

传统计量经济学中，对于特征的重要性判断主要基于p-value。但p-value基于一个很强的假设是所采用的模型是正确的。这一假设并不一定是正确的。p值的误用是如此普遍，以至于美国统计协会不鼓励将其作为一种确定的统计意义来使用（Wasserstein, Schirm和Lazar 2019）。这对数十年来的金融实证研究提出了质疑。

机器学习中有一系列判断特征重要性的方法，例如，基于树的算法的一个流行的特征重要性分析方法是MDI方法。在每个节点上，算法选择将子集划分为两个不纯子集的特征，也就是说标签不那么混杂。一旦算法完成了任务，我们就可以得出每个特征在总的杂质减少中所占的比例。另一种用于评估特征重要性的ML技术是Shapley值。Shapley值将结果归因给每个满足一些数学特性的特征，这些特性使其比p值或MDI更可取。

▌模型选择 Model Selection

具有同样解释力的模型中，简单的模型总好过复杂的模型。计量经济学中常用的筛选模型的方法是逐步筛选法（Stepwise Algorithm），比如Fowrad Selection、Backward Elimination和Bidirectional Elimination.

逐步筛选法最主要的问题是，通常情况下，在计量经济模型中，用于训练模型的数据集也被用于评估模型，因此所有的决定都是基于样本内统计数据，而不考虑它们对样本外模型性能的影响，这非常可能导致模型过拟合。

在机器学习模型中，通常使用正则化的手段来控制过拟合，常用的正则有：LASSO、Ridge和ElasticNet。当然还有很多其他控制过拟合的方法，比如Early stooping策略、树模型中的剪枝、深度学习中的Dropout等。相比传统计量，机器学习有着更多样的控制模型过拟合的方法。

▌模型验证 Model Validation

传统计量学在评价模型拟合度的时候，通常使用R^2或调整后的R^2。传统计量模型和ML模型对于模型评价最大的区别是，传统计量偏向在样本内衡量模型，而ML倾向在样本外衡量模型的优劣。ML模型有一系列评价模型好坏的指标，比如precison、recall和F1-score。在分类模型中，cross-entropy也是非常有用的指标。

总结

ML提供了从无法用计量经济学方法建模的新数据集和包含尚未探索的复杂关系的旧数据集获得洞察的机会。ML方法的主要优势包括：它关注样本外可预测性而不是方差裁定；它使用计算方法来避免依赖于（可能不现实的）假设；它学习复杂模型的能力，包括在高维空间中的非线性、分层和非连续的相互作用效应；重要性分析对多重共线性具有鲁棒性，对模型选择具有解耦性。

当然ML在金融领域的应用远远超出了本文所描述的用途。它们包括计量经济学方法传统范围之外的问题，如投资组合构建、押注规模、复杂优化、情绪分析、自动化、错误投资策略的检测、经济系统的图论表示，以及许多其他（López de Prado 2016, 2018c）。在本文中，我重点讨论了ML可以补充计量经济学方法使用的用例。对于计量分析中的每一个步骤，在ML研究过程中都有一个类似的步骤。本文中提出的映射为希望扩大他们的量化工具包的计量经济学家提供了一个路线图。