原文信息:Hugo Storm, Kathy Baylis, Thomas Heckelei, Machine learning in agricultural and applied economics, European Review of Agricultural Economics, Volume 47, Issue 3, July 2020, Pages 849–892这篇综述从应用经济学家的角度讨论了机器学习方法。该文章首先介绍了与计量经济学应用相联系的核心机器学习的方法。然后,该文指出了当前应用经济学中的计量经济学和模拟模型工具箱的局限性,并探索机器学习对该局限性提供的潜在解决方案。此后该文章针对局限性进行深入讨论,例如不灵活的函数形式、非结构化数据源和因果分析中的大量解释变量的例子,并强调复杂模拟模型的挑战。最后,该文章认为,经济学家在解决机器学习用于定量经济分析时的缺陷方面发挥着至关重要的作用。
通过突出当前计量经济学和模拟方法的特定局限性,我们探索了ML的潜力,并确定了ML方法可以帮助填补这些空白的领域。下面我们将重点关注这些ML方法在农业和应用经济学中的当前和潜在应用,从传统计量经济学的五个局限性展开,分别按照现有计量经济学方法和ML可以带来什么两方面论述。
模型复杂性的选择应取决于所研究的现象和具体的研究问题。如上所述,农业和环境经济学中的许多现象本质上是非线性的,是由潜在的生物物理、社会或经济过程造成的。经济学理论很少对人们试图估计的对象的具体功能形式给出明确的指导。在许多情况下,它只提供关于形状限制的信息,如曲率或单调性。当我们在努力寻找工具变量解决内生性问题的时候,忽视了函数形式的设置本身带来的偏差。现有方法虽然可以允许更多的灵活性,但仍然对估计的关系施加限制性的线性假设。ML模型是高度灵活的,在其他灵活的模型由于数据集的大小或我们想要考虑的变量数量而有计算问题的情况下,ML模型可能是有用的。我们确定了三种不同的方法,对应用经济学家特别相关:(i)树的集合,特别是梯度增强方法,(ii)神经网络和(iii)变分推断方法。传统上,经济学家研究高度结构化的数据(如横断面数据、时间序列数据或面板数据)。现在越来越多的非结构化数据,如图像、文本或语音变得可用。我们通过区分可以在电子表格中处理的数据(结构化数据)和不能处理的数据(非结构化数据)来松散地定义非结构化数据和结构化数据。我们的计量经济学工具包对后者的用途有限。许多ML方面的进展都是专门从非结构化数据中提取信息或变量(特征)的。因此,ML可以在我们的规程中扮演一个额外的角色,作为预处理步骤,为使用ML或传统工具的后续分析派生变量。大多数用于处理非结构化数据的ML方法也适用于具有很多解释变量或数据且具有很高的时间或地理分辨率的情况。ML方法在使用算法方法使来自非结构化数据源的信息可用于经济分析方面发挥着重要作用。它们可以自动提取与任务最相关的特征,并且有可能从手工制作遗漏的原始数据中提取出更复杂的特征。这种能力也为使用新的数据源进行经济分析提供了机会。例如,最近的工作使用谷歌街景图像来预测当地人口。我们区分了五种不同的ML方法来从非结构化数据中提取特征。(i)如果大多数数据都有标签,即观察包括一个因变量(结果或标签),则可以end-to-end learning。如果标签数据稀缺,即对于大多数观察,我们只观察解释变量,(ii) unsupervised pre-training ,(iii) transfer learning。在处理网络或轨迹等较复杂的数据时,可以采用根据“手工”规则自动生成大量特征的方法。(v) ML在文本分析中的应用。五种方法的具体介绍,详见原文。通常,经济理论和领域知识对选择模型中应该包含的具体变量的指导作用很弱。ML在解决大型问题时很有用。首先,我们可以应用无监督的降维方法,如(堆叠)自动编码器用于贪婪分层预训练或作为特征提取器。值得注意的是,提取的特征没有直接的解释,但可以用于根据原始输入变量回溯估计的边际效应。该方法的优点是可以利用未标注的数据。这些方法的缺点是,它们的目标是尽可能多地保留底层数据的变化,但没有考虑到某些变化对给定任务来说比其他变化更相关。RNN和CNN可以很好地处理大量解释变量,尤其适用于观测在空间或时间上错位的情况。直观地,它们还执行一种降维形式:在RNN中,通过将信息编码到细胞状态向量中,而在CNN中,通过将信息编码到网络的隐藏层中。与无监督方法相比,神经网络的目标不是尽可能多地保留变化,而是提取与有监督预测任务相关的特征。因果推理的根本问题是,我们没有观察到未经干预的观测值会发生什么。在某种意义上,这基本上可以被认为是一个预测问题,我们需要预测反事实。大多数计量经济学的因果推理方法都假定某种结构。假设经济冲击在该地区具有相同的影响,而其他“控制”地区可能不现实,从而可能对处理的估计产生偏差。目前的方法在处理高维性或灵活性方面存在困难,无论是在工具方面还是在反事实方面。机器学习在复杂和高维环境下的预测能力可以用于改善因果估计。随着几位作者在经济学中发展了ML对于因果推理的潜力,对因果分析的讨论目前正从ML文献本身中出现。本文简要讨论了近年来引入的因果推理的ML方法的五种一般类型:i. Counterfactual simulation [exogenous treatment]ii. Double Machine Learning [selection on observables, average effects]iii. ML for Matching and Panel Methods [selection on observables, unob-served time-invariant characteristics]iv. Causal forests [selection on observables, heterogeneous effects]
v. ML for IV and Deep IV [endogenous treatment]与政策相关的模型或建模系统由于捕获个体异质性或连接经济和生物物理模型等需求而不断增加复杂性。这种复杂性在应用和校准中产生了大量的计算需求。ML有潜力解决复杂仿真模型的计算需求及其校准。在这两种情况下,代理模型提供了机会。代理模型近似于底层复杂模型的输入和输出之间的映射。代理模型的基本目标是在计算成本较低的情况下近似底层模型的行为。与之前的元建模方法相比,这种方法可能更强大的原因是预测的准确性和维度仅受拟逼近模型生成的数据量的限制。代理模型也可以用于模型校准,并被广泛应用于水资源建模、陆地表面模型、建筑能源需求和材料科学。ML面临的一个主要挑战是将数据驱动的ML方法与积累的理论学科知识相结合。尽管数据可得性增加了,但在许多应用程序中,我们仍然面临数据及其标签的短缺。即使有大量的数据,数据中包含的信息可能不足以进行预测或识别,例如在处理罕见事件时,当结果变量的变化很小,或者结果非常嘈杂时。即使是“大数据”在处理高度复杂的过程和动态变化的非平稳模式时也可能是不够的。而理论知识可以从两个方面帮助解决这些数据挑战。首先,理论领域知识对于理解一个模型为什么有效以及它是否学会了合理的关系是必要的。为此,模型需要是可解释的。理解一个模型为什么会工作,对于评估它何时会停止工作也是至关重要的。其次,结合理论知识可以提高ML方法的效率,特别是在数据中的信息有限和过程复杂的描述设置中。因此需要一种“新的范式,它具有使用数据科学模型的独特能力,自动从大数据中学习模式和模型,而不忽视积累的科学知识的财富。在这方面,计量经济学具有自然的作用,它是一种利用统计方法并结合理论知识来回答经济问题的方法。另一组问题是围绕数据本身的问题。虽然新的数据源具有令人兴奋的潜力,但它们往往伴随着选择偏见的问题。例如,只有能够使用手机的人才能获得手机数据;标签的质量可能因国家或地区而异。经济学家被训练去思考这些选择问题,理论知识对于评估它们的重要性和处理它们是有用的。最后,标号数据的稀缺性与未标号数据的丰富性往往限制了“大”数据对经济学的有用性。机器学习方法在提高经济分析中的预测和计算能力方面已经显示出巨大的潜力。正如上一部分所述,在训练ML模型时可以使用学科知识的方法。这恰好是计量经济学所具有的特点。经济理论经常提供有关行为函数(生产边界、利润函数)曲率或边际效应符号的信息。这些额外的结构信息在数据可用性有限和特性之间复杂交互关系的情况下可能特别有帮助!最近经济学家对ML工具的参与,使人们越来越关注ML估计量的统计特性的推导,这对该领域的适当统计推断至关重要。
毫无疑问,未来几年将会有更多类似于机器学习的工具被定制并应用于经济学。虽然很难跟上所有这些进展,但希望这篇文章为读者提供一个切入点,让更多的人看到ML在经济学研究方向上的潜力,让Black Box不再是ML的代名词。This review presents machine learning (ML) approaches from an applied economist’s perspective. We first introduce the key ML methods drawing connections to econometric practice. We then identify current limitations of the econometric and simulation model toolbox in applied economics and explore potential solutions afforded by ML. We dive in to cases such as inflexible functional forms, unstructured data sources and large numbers of explanatory variables in both prediction and causal analysis, and highlight the challenges of complex simulation models. Finally, we argue that economists have a vital role in addressing the shortcomings of ML when used for quantitative economic analysis.
声明:推文仅代表文章原作者观点,以及推文作者的评论观点,并不代表香樟经济学术圈公众号平台的观点。
“分享”是一种学者的人文情怀,香樟经济学术圈欢迎广大订阅读者(“香粉”)向公众平台投稿,也诚邀您加入香樟推文team。生活处处皆经济,经济处处现生活。如果你或者身边的朋友看了有趣的学术论文,或者撰写了经济政策评论,愿意和大家分享,欢迎投稿(经济金融类),投稿邮箱:cectuiwen@163.com。如果高校、研究机构、媒体或者学者,愿意与平台合作,也请您通过邮箱联系我们。投稿前请在搜狗的微信搜索里搜索已有图文,避免重复。