社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

【香樟推文2340】扩充经济学家的工具箱——农业与应用经济学中的机器学习

香樟经济学术圈 • 3 年前 • 536 次点击  


图片来源:网络
原文信息:Hugo Storm, Kathy Baylis, Thomas Heckelei, Machine learning in agricultural and applied economics, European Review of Agricultural Economics, Volume 47, Issue 3, July 2020, Pages 849–892

01

摘要


这篇综述从应用经济学家的角度讨论了机器学习方法。该文章首先介绍了与计量经济学应用相联系的核心机器学习的方法。然后,该文指出了当前应用经济学中的计量经济学和模拟模型工具箱的局限性,并探索机器学习对该局限性提供的潜在解决方案。此后该文章针对局限性进行深入讨论,例如不灵活的函数形式、非结构化数据源和因果分析中的大量解释变量的例子,并强调复杂模拟模型的挑战。最后,该文章认为,经济学家在解决机器学习用于定量经济分析时的缺陷方面发挥着至关重要的作用。

何为机器学习?

02

近年来,机器学习一词越来越受到学者的关注,那么到底什么是机器学习呢?本文首先给出了一个简单介绍:机器学习(ML)、人工智能(AI)和深度学习(DL)这三个术语经常互换使用。MLAI的一部分,而AI又是计算机科学中的一门学科。ML的目标是利用统计方法从数据中学习。DLML的一个特定子集,它使用分层方法,其中每一步都将前一步的信息转换为更复杂的数据表示。
接下来将从应用经济学家角度来介绍机器学习(ML),我们的目的不是对ML进行严格的处理,而是从实践者的角度提供直观的介绍,与传统计量经济学方法进行高层次联系,以识别实证研究的潜力和局限性。ML和计量经济学的不同点如下图(图1)所示,

1
下面将从避免过度适配、监督方法、非监督方法、模型的复杂性和可解释性,四个方面说明ML对计量经济学方法的扩充。
1.避免过度适配(Regularisation/train-validation-test split approach to avoid overfitting
对于预测任务,我们的目标是估计泛化良好的模型,这意味着估计的模型对所使用样本之外的观察产生准确的预测。模型需要从数据中了解一般关系,但要避免过拟合,即避免学习给定样本中不能推广到总体的方面。而许多ML方法具有高度灵活性,这就允许模型适合数据中非常具体的(非线性)关系。
在传统的计量经济学中,我们关心的是 “足够的”自由度,即更多的自由度可以减少任何单个估计系数的标准误差。这种方法天生就限制了协变量的数量,从而限制了模型的灵活性。在ML中,避免过度拟合通常使用正则化来控制模型的复杂性(或容量)。直观地说,模型的复杂性描述了它近似于各种功能的能力。随着复杂性的增加,即规则化程度越低,过度拟合的风险越高,而不那么复杂、更规则化的模型可能导致拟合不足。在计量经济学中,对过度拟合的关注常常被获得准确的系数估计的目标所掩盖。正则化的形式通常是选择少量的变量和使用特定的函数形式,而不明确地控制过度拟合。
找到模型复杂性适当级别的一个标准ML方法是将可用数据集分割为训练、验证和测试集。训练集用于估计(称为“训练”)模型,验证集(也称为开发或保持集)用于监测样本外预测误差。样本外预测误差,或验证集中的预测误差,根据不同的模型规范和不同的模型复杂性级别进行监视。然后选择验证集中样本外预测误差最小的模型。最后利用测试集评估所选模型的样本外预测误差。因此,测试集既不用于训练也不用于模型选择,这一点很重要。
对每个可能的模型或一系列调优参数执行交叉验证。然后选取样本外预测误差最小的模型/调优参数作为最终模型,然后使用整个数据集估计最终的模型。将ML中的交叉验证或训练/验证/测试方法与模型选择的典型计量经济学方法进行对比是很有趣的,其中变量可能由理论或标准给出。通常,在计量经济学预测中,我们倾向于放弃观测来测量我们选择的模型的预测误差;但这不是系统模型选择过程的一部分。相反,这是ML方法的一部分。
 2.监督方法(Supervised approaches
监督方法是指在给定解释变量的条件下,估计一个因变量或目标的条件期望的方法。常见的监督方法包括经典的线性或有限因变量回归模型。ML中有很多监督方法,本文就简要介绍其中的三种方法,分别是:收缩法(Shrinkage methods)、基于树的方法(tree-based method)、神经网络(Neural networks收缩法(Shrinkage methods)例如ridge regressionlasso是线性回归模型,增加一个惩罚项的系数的大小,推动系数接近零。它们可以用于预测连续的结果或分类,并可以有效地用于具有大量解释变量的数据集。
基于树的方法(tree-based method)决策树既可以用于分类,也可以用于回归。他们使用线性分割来划分特征空间(即解释变量所跨越的空间),以最大化由每次分割所创建的分区内的同质性,将连续分割的结束称为“叶”。
神经网络(Neural networks)仅次于基于树的方法,是目前应用最广泛、最有效的有监督的ML方法。与任何其他有监督的方法(包括经典回归)一样,神经网络只是一个由未知参数θ控制的从输入矢量到输出矢量的映射: 。典型地,映射由构建函数链结构的层组成。一个有三层的网络看起来像
我们常用的线性回归和logit回归都是神经网络的特殊情况,当神经网络只有一层时,y的维数为1,我们分别使用线性或logit函数。从这个角度来看,网络神经网络已经在我们的行业中得到了广泛的应用!
 3.非监督方法(Unsupervised approaches
除了预测之外,ML的另一个常见用途是根据观察结果的特征对数据进行分组或聚类。无监督方法的目的是发现(x)的联合概率而不是E(y|x)。因此,非监督方法可以应用于我们缺乏因变量的情况。这些方法通常用于降低数据的维数。主成分分析(PCA)是一种计量经济学家熟悉的无监督学习方法。这些方法还可以用于预先定义数据的逻辑分组,以便进行后续分析,类似于聚类分析,或者用于生成感兴趣的结果,例如定义新闻文章的“主题”。
 4.模型的复杂性与可解释性
反对使用ML工具的一个常见的反对意见是,它们是“黑箱”,模型在其中学到的关系不容易解释。尽管许多ML方法比线性回归方法更复杂,但这并不是ML工具固有的问题,而是反映了任何方法所面临的灵活性和可解释性之间不可避免的权衡。一旦我们的目标是反映非线性、相互作用或异质性,模型解释就变得更加困难。以我们熟悉的tobit模型为例:该模型增加了线性回归的灵活性,以模型审查观察的代价,系数不能直接解释,边际效应取决于所有解释变量。
因此,关于可解释性的相关问题并不是关于ML工具与“传统”方法的比较,而是回答某个研究问题是否需要一个高度灵活的复杂模型,能够反映非线性、交互、异质性或动力学。

03 

ML可以为农业经济学

工具箱添加什么


通过突出当前计量经济学和模拟方法的特定局限性,我们探索了ML的潜力,并确定了ML方法可以帮助填补这些空白的领域。下面我们将重点关注这些ML方法在农业和应用经济学中的当前和潜在应用,从传统计量经济学的五个局限性展开,分别按照现有计量经济学方法和ML可以带来什么两方面论述。
1.缺乏理论基础的限制性函数形式
模型复杂性的选择应取决于所研究的现象和具体的研究问题。如上所述,农业和环境经济学中的许多现象本质上是非线性的,是由潜在的生物物理、社会或经济过程造成的。经济学理论很少对人们试图估计的对象的具体功能形式给出明确的指导。在许多情况下,它只提供关于形状限制的信息,如曲率或单调性。当我们在努力寻找工具变量解决内生性问题的时候,忽视了函数形式的设置本身带来的偏差。现有方法虽然可以允许更多的灵活性,但仍然对估计的关系施加限制性的线性假设。
ML能带来什么?
ML模型是高度灵活的,在其他灵活的模型由于数据集的大小或我们想要考虑的变量数量而有计算问题的情况下,ML模型可能是有用的。我们确定了三种不同的方法,对应用经济学家特别相关:(i)树的集合,特别是梯度增强方法,(ii)神经网络和(iii)变分推断方法。
2.从非结构化数据提取信息的能力有限
传统上,经济学家研究高度结构化的数据(如横断面数据、时间序列数据或面板数据)。现在越来越多的非结构化数据,如图像、文本或语音变得可用。我们通过区分可以在电子表格中处理的数据(结构化数据)和不能处理的数据(非结构化数据)来松散地定义非结构化数据和结构化数据。我们的计量经济学工具包对后者的用途有限。许多ML方面的进展都是专门从非结构化数据中提取信息或变量(特征)的。因此,ML可以在我们的规程中扮演一个额外的角色,作为预处理步骤,为使用ML或传统工具的后续分析派生变量。大多数用于处理非结构化数据的ML方法也适用于具有很多解释变量或数据且具有很高的时间或地理分辨率的情况。
ML能带来什么?
ML方法在使用算法方法使来自非结构化数据源的信息可用于经济分析方面发挥着重要作用。它们可以自动提取与任务最相关的特征,并且有可能从手工制作遗漏的原始数据中提取出更复杂的特征。这种能力也为使用新的数据源进行经济分析提供了机会。例如,最近的工作使用谷歌街景图像来预测当地人口。我们区分了五种不同的ML方法来从非结构化数据中提取特征。(i)如果大多数数据都有标签,即观察包括一个因变量(结果或标签),则可以end-to-end learning。如果标签数据稀缺,即对于大多数观察,我们只观察解释变量,(ii) unsupervised pre-training (iii) transfer learning。在处理网络或轨迹等较复杂的数据时,可以采用根据“手工”规则自动生成大量特征的方法。(v) ML在文本分析中的应用。五种方法的具体介绍,详见原文。
3.处理大量解释变量的能力有限
通常,经济理论和领域知识对选择模型中应该包含的具体变量的指导作用很弱。
ML能带来什么?
ML在解决大型问题时很有用。首先,我们可以应用无监督的降维方法,如(堆叠)自动编码器用于贪婪分层预训练或作为特征提取器。值得注意的是,提取的特征没有直接的解释,但可以用于根据原始输入变量回溯估计的边际效应。该方法的优点是可以利用未标注的数据。这些方法的缺点是,它们的目标是尽可能多地保留底层数据的变化,但没有考虑到某些变化对给定任务来说比其他变化更相关。
RNNCNN可以很好地处理大量解释变量,尤其适用于观测在空间或时间上错位的情况。直观地,它们还执行一种降维形式:RNN中,通过将信息编码到细胞状态向量中,而在CNN中,通过将信息编码到网络的隐藏层中。与无监督方法相比,神经网络的目标不是尽可能多地保留变化,而是提取与有监督预测任务相关的特征。
 4.线性因果推理和识别,缺乏适当的工具和反事实
因果推理的根本问题是,我们没有观察到未经干预的观测值会发生什么。在某种意义上,这基本上可以被认为是一个预测问题,我们需要预测反事实。大多数计量经济学的因果推理方法都假定某种结构。假设经济冲击在该地区具有相同的影响,而其他“控制”地区可能不现实,从而可能对处理的估计产生偏差。目前的方法在处理高维性或灵活性方面存在困难,无论是在工具方面还是在反事实方面。
ML能带来什么?
机器学习在复杂和高维环境下的预测能力可以用于改善因果估计。随着几位作者在经济学中发展了ML对于因果推理的潜力,对因果分析的讨论目前正从ML文献本身中出现。本文简要讨论了近年来引入的因果推理的ML方法的五种一般类型:
i. Counterfactual simulation [exogenous treatment]
ii. Double Machine Learning [selection on observables, average effects]
iii. ML for Matching and Panel Methods [selection on observables, unob-
served time-invariant characteristics]
iv. Causal forests [selection on observables, heterogeneous effects]
v. ML for IV and Deep IV [endogenous treatment]
5.政策分析模拟模型的局限性
与政策相关的模型或建模系统由于捕获个体异质性或连接经济和生物物理模型等需求而不断增加复杂性。这种复杂性在应用和校准中产生了大量的计算需求。
ML能带来什么?
ML有潜力解决复杂仿真模型的计算需求及其校准。在这两种情况下,代理模型提供了机会。代理模型近似于底层复杂模型的输入和输出之间的映射。代理模型的基本目标是在计算成本较低的情况下近似底层模型的行为。与之前的元建模方法相比,这种方法可能更强大的原因是预测的准确性和维度仅受拟逼近模型生成的数据量的限制。代理模型也可以用于模型校准,并被广泛应用于水资源建模、陆地表面模型、建筑能源需求和材料科学。

经济学家可以为ML补充什么?

04

ML面临的一个主要挑战是将数据驱动的ML方法与积累的理论学科知识相结合。尽管数据可得性增加了,但在许多应用程序中,我们仍然面临数据及其标签的短缺。即使有大量的数据,数据中包含的信息可能不足以进行预测或识别,例如在处理罕见事件时,当结果变量的变化很小,或者结果非常嘈杂时。即使是“大数据”在处理高度复杂的过程和动态变化的非平稳模式时也可能是不够的。
而理论知识可以从两个方面帮助解决这些数据挑战。首先,理论领域知识对于理解一个模型为什么有效以及它是否学会了合理的关系是必要的。为此,模型需要是可解释的。理解一个模型为什么会工作,对于评估它何时会停止工作也是至关重要的。其次,结合理论知识可以提高ML方法的效率,特别是在数据中的信息有限和过程复杂的描述设置中。
因此需要一种“新的范式,它具有使用数据科学模型的独特能力,自动从大数据中学习模式和模型,而不忽视积累的科学知识的财富。在这方面,计量经济学具有自然的作用,它是一种利用统计方法并结合理论知识来回答经济问题的方法。
另一组问题是围绕数据本身的问题。虽然新的数据源具有令人兴奋的潜力,但它们往往伴随着选择偏见的问题。例如,只有能够使用手机的人才能获得手机数据;标签的质量可能因国家或地区而异。经济学家被训练去思考这些选择问题,理论知识对于评估它们的重要性和处理它们是有用的。最后,标号数据的稀缺性与未标号数据的丰富性往往限制了“大”数据对经济学的有用性。

未来展望

05

机器学习方法在提高经济分析中的预测和计算能力方面已经显示出巨大的潜力。正如上一部分所述,在训练ML模型时可以使用学科知识的方法。这恰好是计量经济学所具有的特点。经济理论经常提供有关行为函数(生产边界、利润函数)曲率或边际效应符号的信息。这些额外的结构信息在数据可用性有限和特性之间复杂交互关系的情况下可能特别有帮助!最近经济学家对ML工具的参与,使人们越来越关注ML估计量的统计特性的推导,这对该领域的适当统计推断至关重要。

毫无疑问,未来几年将会有更多类似于机器学习的工具被定制并应用于经济学。虽然很难跟上所有这些进展,但希望这篇文章为读者提供一个切入点,让更多的人看到ML在经济学研究方向上的潜力,让Black Box不再是ML的代名词。

 Abstract 

This review presents machine learning (ML) approaches from an applied economist’s perspective. We first introduce the key ML methods drawing connections to econometric practice. We then identify current limitations of the econometric and simulation model toolbox in applied economics and explore potential solutions afforded by ML. We dive in to cases such as inflexible functional forms, unstructured data sources and large numbers of explanatory variables in both prediction and causal analysis, and highlight the challenges of complex simulation models. Finally, we argue that economists have a vital role in addressing the shortcomings of ML when used for quantitative economic analysis.


声明:推文仅代表文章原作者观点,以及推文作者的评论观点,并不代表香樟经济学术圈公众号平台的观点。

香樟经济学术圈征稿

“分享”是一种学者的人文情怀,香樟经济学术圈欢迎广大订阅读者(“香粉”)向公众平台投稿,也诚邀您加入香樟推文team。生活处处皆经济,经济处处现生活。如果你或者身边的朋友看了有趣的学术论文,或者撰写了经济政策评论,愿意和大家分享,欢迎投稿(经济金融类),投稿邮箱:cectuiwen@163.com。如果高校、研究机构、媒体或者学者,愿意与平台合作,也请您通过邮箱联系我们。投稿前请在搜狗的微信搜索里搜索已有图文,避免重复。


    香樟经济学术圈

    本期小编:王璐




Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/124358
 
536 次点击