大数据革命催生了一个新兴的学科,即计算社会科学(Lazer et al., 2009; Giles, 2012),其最重要特征是数据驱动的研究范式,旨在从人类经济社会活动产生的海量大数据中揭示人类经济社会复杂系统的本质特征与发展规律。本文探讨以ChatGPT为代表的人工智能大模型的诞生、发展与应用将如何改变经济学与计量经济学的研究范式。这里之所以将经济学与计量经济学并列,是因为实证研究是现代经济学最主要的研究范式(Angrist et al., 2017),而计量经济学是经济学实证研究最主要的方法论。随着数据可获得性的提升以及计算机技术的发展,经济学研究在过去40多年里发生了“实证革命”的范式变革,从原来以基于偏好、技术、禀赋、制度、行为等方面的基本假设的演绎推理为主的研究范式,转变为以数据为基础、运用计量经济学等方法推断经济因果关系的研究范式,这种研究范式就是实证研究。传统的案例分析也属于实证研究,但基于数据、运用计量经济学推断方法的实证研究,其科学性和严谨性得到了显著提升。大数据革命强化了经济学的实证研究范式(洪永淼和汪寿阳,2021a, 2021b)。
本文第二节将介绍ChatGPT与大语言模型的主要特征。第三节讨论ChatGPT与大语言模型的“规模至上”方法论如何破解经济学与计量经济学经常遇到的“维数灾难”(curse of dimensionality)。第四节从理性经济人与人工智能经济人、孤立经济人与社会经济人、宏观经济学与微观经济学、定性分析与定量分析、小模型范式与大模型范式、计算机算法与计算经济学等几个重要关系入手,深入、系统探讨ChatGPT与大模型对经济学研究范式的影响。第五节讨论包括ChatGPT与大模型在内的人工智能技术作为经济学研究方法的局限性。第六节是结论与展望。
另一方面,统计学与计量经济学长期面临的一个根本问题是所谓的“维数灾难”。在数据容量有限的条件下,模型未知参数维数越多,每个参数的估计越不精准,估计误差越大,这会导致模型过拟合,影响其泛化能力。统计学通常用均方误差(mean squared error)来测度预测的准确性。均方误差可分解为方差与偏差平方之和。因此,即使模型偏差很小,如果模型的未知参数数量非常多,其估计方差也会变得很大,导致预测不准确。统计学家与计量经济学家在选择模型时通常会考虑偏差与方差之间的平衡。事实上,计算机科学家通过计算机模拟仿真实验以及实际应用,发现了大模型在一定条件下会出现一种“双降”(double descent)现象,即当模型参数个数增加时,以均方误差衡量的预测误差先呈现出下降趋势,等模型复杂度达到一定临界点时,预测误差便会上升,这是统计学与计量经济学经典教科书介绍的U-型曲线。但是,当模型参数维数继续增加并达到另一个更高临界值时,模型预测误差会再次下降,虽然第二次下降的速度相比第一次下降的速度会缓慢很多,实证研究发现,模型参数维数的指数增长,才能换来预测误差的线性减少,这就是所谓的“双降”现象(Belkin et al., 2018; Nakkiran et al., 2021)。统计学家Hastie et al. (2019)也发现,在一定假设条件下,高维线性统计模型也会出现“双降”现象。“双降”现象打破了人们长期以来对模型复杂性的固化认知,它使大家逐步认识到,在通常的“小模型”空间之外,还有一个以前从未发现的“大模型”空间,那里呈现了与小模型完全不一样的规律性特征,特别是当模型复杂度跨过一个很大的临界值后,大模型便会呈现所谓的“涌现”能力,这种涌现能力与大模型的“双降”现象密切相关。事实上,由于大模型训练数据是几乎整个互联网的文本数据,这在一定程度上避免或减缓了维数灾难的问题。大模型不仅具有较小的偏差,还可以对每个参数进行较为精确的估计,即使ChatGPT拥有1750亿个未知参数,在整个互联网海量数据容量面前,这个参数维数仍然不算大。因此,基于互联网海量大数据的大模型拥有较强的泛化能力。
十多年来,经济学家和社会科学工作者基于越来越多的经济社会网络数据,使用网络模型量化测度和研究各种经济社会关系,取得了不少进展(Stachurski and Sargent,2022)。由于人类经济社会是一个高维复杂系统,并且大量经济社会网络数据是非结构化大数据(如文本、图像、音频与视频数据),因此需要采用定性与定量分析相结合的系统综合集成方法,而大模型包括多模态大模型正是这样一种可行的系统分析方法。
4.3 宏观经济学和微观经济学
“凯恩斯革命”催生了宏观经济学,从此经济学有了宏观经济学与微观经济学之分。宏观经济学研究整个国民经济的运行规律,特别是宏观经济变量之间的关系,如菲利普斯曲线(Phillips, 1958)、奥肯定律(Okun, 1970)以及泰勒规则(Taylor, 1993)等宏观经济定律。长期以来,宏观经济学与宏观计量经济学均是基于宏观经济变量进行建模,研究宏观经济变量之间的数量关系与逻辑关系,并据此解释宏观经济现象与预测宏观经济走向。这种经典宏观经济建模思想首先对微观经济数据进行加总,获得宏观经济变量,然后对宏观经济变量进行建模,其优点是可以得到简约模型,并具有较强的经济可解释性(Glandon et al., 2023)。实证宏观经济学也经常使用因子模型,不管是拥有高维宏观经济数据还是大量微观经济数据,宏观经济学家经常假设存在维度不高的潜在共同因子驱动这些高维宏观或微观经济变量的变动(Stock and Watson, 1996)。因子模型是降维的一个有效方法,从高维宏观经济数据或大量微观经济数据中提取的共同因子可用以解释或预测宏观经济走势,但这些因子本质上也是一种信息“加总”(aggregation)。先加总后建模的主要缺点是加总会导致原始数据中很多信息失真或消失,例如微观经济行为的异质性、交互性、非线性、时变性、厚尾、跳跃等特征或现象,会因为加总而失真甚至消失(Kaplan and Violante, 2018; Marcellino et al., 2003; Stock and Watson,2016;李戎等,2022)。长期以来,人们一直批评宏观经济学缺乏微观经济学的基础,这一点与经典热力学与统计物理学具有严谨的微观基础存在巨大的差异。例如,经典热力学与统计物理学基于互相独立的微观粒子遵从布朗运动的假设,可推出一定温度下微观粒子运动速度的概率分布,即著名的麦克斯韦-玻尔兹曼分布。这个分布描述了在系统处于平衡时,处于任何速度范围内的粒子所占的比例,是系统温度的函数。二十年来,宏观经济学在构建微观理论基础方面取得了一定的进展。此外,经济学家还将行为经济学特别是一些非理性因素引入宏观经济学分析框架之中(Akerlof, 2002, 2007),克服宏观经济学理性预期学派只考虑理性预期这种理想情景的局限性,这在某种程度上回归到凯恩斯(Keynes, 1936)的“动物精神”和Shiller (2001, 2019)的“非理性繁荣”的分析框架。
然而,宏观经济学的微观基础仍有待新的突破,而大模型在这方面可以发挥重要作用。例如,假设整个宏观经济共有N个消费者,每个消费者在每个时期的消费为,则整个宏观经济消费总额是。宏观经济学通常直接研究宏观消费总量的动态演变特征,如Hall(1978)的消费平滑理论或随机游走理论。在拥有海量微观动态大数据条件下,可以通过大量微观消费大数据研究宏观消费总量的动态特征。宏观经济变量与微观经济变量的动态特征可能存在显著差别。例如,Granger (1980)证明,在一定条件下,大量具有“短记忆”动态特征的微观消费变量,在加总之后,宏观消费变量会呈现出“长记忆”动态特征。从概率论看,如果知道或者能够估计出大量微观消费变量的联合概率分布,则通过变量变换便可获得宏观消费总量的概率分布,从而获得总消费的动态演化特征。显然,这是一个高维消费概率模型,涉及到高维雅可比矩阵求逆和高维积分,这在算力和算法上将会面临很大挑战。如何基于大量微观数据研究宏观经济行为,是未来经济学与计量经济学的一个重要发展方向。最近,Hong et al. (2023)提出基于一个大面板微观数据直接预测宏观经济变量的新方法,他们使用了1500个上市公司股票价格月度数据,基于随机森林等机器学习“大模型”,预测月度通货膨胀率。研究显示,相对于很多流行的宏观时间序列模型,基于大量微观数据的大模型对通货膨胀率具有显著优异的样本外预测能力,这说明大量微观数据所包含的异质性信息有助于预测通货膨胀。类似这样基于大量微观数据预测宏观经济变量的大模型方法,有望为构建宏观经济学的微观理论基础提供新的典型经验特征事实和新的洞见。可以预料,在大数据和大模型时代,经济学即将发展到了一个新阶段,即宏观经济学与微观经济学的界限将越来越不明显。
除了大量横截面微观经济数据之外,大数据也提供了很多高频甚至实时经济数据,高频或实时经济数据为及时把握宏观经济变化趋势提供了一种可能性。例如,Choi et al. (2022)通过构建政府支出高频数据,研究宏观层面的财政政策对美国通货膨胀的影响。从统计学视角看,高频数据可用于构建更加有效率的低频统计量,例如利用日内收益率数据构建日度波动率(Aït-Sahalia and Jacod, 2014),利用高频数据实时预测低频宏观经济变量(如月度通货膨胀率、季度GDP增长率等),实时监测宏观经济运行状况。以宏观经济实时预测(nowcasting)为例,实时预测是对当前、非常近的未来或最近的过去的宏观经济变量的预测(Giannone et al., 2008)。统计部门的宏观经济数据发布通常存在时滞,因此不能及时获得宏观经济变化的数据,无法对当下的宏观经济形势做出及时、准确的判断。而实时预测能够在季度GDP数据公布前估测季度GDP总量或增长率,所利用的数据不局限于官方统计数据,还可包括高频金融数据、新闻媒体数据、搜索引擎数据等异源、异构、异频大数据,方法也不受制于传统的统计学与计量经济学模型。实时预测已被世界上许多机构特别是中央银行用于实时监测宏观经济指标的变化。高频或实时经济金融大数据的可获得性使得经济学的低频建模与高频建模的界线日益模糊了。这样,可以在一个统一的分析框架中研究“慢变量”(如低频宏观经济指标)和“快变量”(如高频金融变量)之间的动态相互关系。
4.4 定性分析与定量分析
长期以来,由于历史等各种原因,经济学的定性分析与定量分析在学术界一直存在争论。自从有了大数据,各种非结构化数据特别是文本数据所包含的有价值信息便引起了经济学家与计量经济学家的广泛关注。众所周知,语言是人类进行信息沟通与情感交流的主要工具,因此文本数据包含结构化数据所没有的很多有价值信息,特别是经济主体对政策变化与外来冲击的心理反应,包括预期、情绪、情感等信息(洪永淼等,2023)。Shiller (2019)指出,相对于结构化经济数据,文本数据包含很多关于经济运行与经济发展的丰富信息。因此,从文本数据提取各类经济主体心理信息便成为一种有效方式,这种方法比传统的心理数据构造方法(如信心与预期统计调查数据、心理学实验测度法)具有不少优势,特别是在样本代表性和抽样频率等方面。从文本数据提取心理因素的主要工具是自然语言处理技术,目前经济学与其他社会科学常用的方法包括词频法,词袋法,主题法等(Gentzkow and Kelly,2019)。通过文本数据测度心理变量,打破了定性分析和定量分析的界限,使原来只能进行定性分析的很多经济学问题,转变成可以进行定量分析。目前,从文本数据提取经济主体心理信息的常用方法简单可行,但也存在一些缺陷,如所构建的心理变量大多存在不可忽视的测度误差,这些测度误差在回归分析时可能会造成估计偏差(洪永淼等,2023)。而且,目前几乎所有基于文本数据的心理变量测度都是通过加总而得,很多微观层面的心理异质性消失了。举一个简单例子,如果在一个文本数据中,一半的人是悲观情绪,另一半的人是乐观情绪,则基于关键词加总而得到的情绪指数可能在整体上既不表示悲观也不表示乐观,原有的异质性情绪消失了。在这方面,基于互联网海量文本数据训练的ChatGPT可用于构建微观层面(如每个消费者、投资者)的心理变量,避免由于加总而导致异质性心理信息的损失。ChatGPT是目前自然语言处理领域最先进的技术,可借助其拥有的几乎整个互联网信息与知识,比较准确解读文本数据的语法结构与上下文语义,从而比较准确从文本数据中提取心理信息。
其中是可观测预测变量的集合,是可观测因变量,是所有不可观测的因素对的影响的总和。为简单起见,这里假设可观测变量集合和不可观测变量集合是可分的。统计学家与计量经济学家经常称为信号(signal)而称为“噪声”(noise),模型对的预测能力取决于“信噪比”(signal to noise ratio)。如果信号强,则预测能力强;反之,如果信号相对噪声较弱,则的预测能力将较差。在小数据场景下,很多因素不可观测,这些不可观测因素的影响都被归到噪声中,因此信噪比较弱,的预测能力较差。相反,在大数据场景下,可观测信息集显著扩大,因此信噪比大幅提升,这为改进预测精准度提供了一个可能性,而大模型正是实现这种可能性的一个重要方法与工具。
统计学与计量经济学的一个基本建模原则是“保持模型简约”(Keep It Sophistically Simple) (Zellner et al., 2001)。任何一个模型需要有足够的能力去捕捉数据中有价值的信息,在此前提下,模型越简单越好。这样既可减少模型偏差,又可控制模型复杂度,减少模型过拟合的可能性。统计学与计量经济学一直存在建模方法论的争论,例如20世纪统计学参数与非参数建模的方法论之争,即统计学家罗纳德·费希尔(Ronald Fisher)的“小模型”与卡尔·皮尔逊(Karl Pearson)的“大模型”之争。费希尔主张使用参数模型,即函数形式已知的模型(如线性回归模型),其中未知参数的维数不大,因此可称为“小模型”。费希尔不鼓励使用非参数模型,他认为非参数模型涉及很多参数,可能会导致过度的估计误差,出现过拟合现象。皮尔逊则认为,非参数模型在样本容量增加时,其未知参数数量相应增加,因此模型偏差会越来越少,最终趋近于零;但在参数模型中,虽然参数数量较少,如果模型错误设定,则模型偏差将无法消除,不管样本容量有多大,因此皮尔逊不鼓励使用参数模型。这两种建模方法一直存在争议,深刻影响了统计学的发展。有趣的是,计量经济学也有类似的建模方法论之争,即罗伯特·恩格尔(Robert Engle)的“小模型”与大卫·亨德里(David Hendry)的“大模型”之争。诺贝尔经济学奖获得者恩格尔主张“从特殊到一般”的建模方法,即从一个特定的小模型出发,应用计量经济学诊断等方法拓展原有模型,这是从简约模型到复杂模型的建模方法;而伦敦政治经济学院计量经济学派代表人物亨德里则主张从“一般到特殊”的建模方法,即从一般的大模型出发,通过统计假设检验与经济理论约束等方法降低模型维数获得简约模型,这是从复杂模型到简约模型的建模方法。恩格尔的建模方法比较适合于小数据场景,因此模型复杂度不能太大。亨德里的大模型方法论则比较适合大数据场景,其最大优点是模型偏差较小,所获得的结论对模型的依赖性不会太大。但是,无论是统计学还是计量经济学,这些方法论之争背后都蕴藏着相同的思想,即获得一个既有较好经济可解释性又有较强泛化能力的简约模型。在统计学与计量经济学,获得简约模型的主要方法是降维。常用的经典降维方法有主成分分析法、因子模型、AIC和BIC等模型选择准则、投影寻踪回归(projection pursuit regression)与单指标模型(single index model)等,所选择的最佳模型通常具有较低的复杂度和较强的预测能力。此外,也可通过经济理论约束条件进行降维,例如经济主体具有风险厌恶的特征,则其效用函数必定是凹函数。又如,如果市场有效性假说成立,那么所有历史信息都无法预测未来的回报率,因此预测模型的滞后项预测变量的系数都应该为零,这样可帮助简化模型。
长期以来,统计学与计量经济学所使用的数据大都是“小”数据。这里所说的“小”数据并不仅限于几十或几百个样本点,也可能包括几十万维度的文本数据。但是,相对于人类拥有的海量大数据来说,大量的大数据信息尚未被有效挖掘与充分利用。例如,Engle and Russell (1998)基于高频金融交易数据提出了一个自回归条件久期模型。当时还没有大数据的概念,但金融学已经有了逐笔交易这样的高频大数据。Engle and Russell (1998)拥有的数据容量达100多万,但只使用了其中不到5%的数据。为什么计量经济学一直使用小模型与小数据?首先,小模型容易解释,特别是每个参数都可以有丰富的经济含义。其次,现实数据量有限,无法支持大模型的训练。最后,计算资源受到约束,包括数据的存储容量、处理能力和运算速度等。因此,长期以来,小模型一直是统计学与计量经济学的主流方法论。
大量实证研究(Kelly and Xiu,2023)表明,在预测经济与金融市场变化趋势方面,机器学习在很大程度上改进了传统计量经济学模型,但其预测准确性尚未达到令人满意的程度。一个根本原因是人类经济社会系统是一个高度复杂系统,受到成千上万的相互关联的变量的影响,涉及政治、经济、社会、法律、政策、技术、历史、文化、心理、环境等各种因素。与自然界不同,经济系统受人类心理影响大,而人类心理本身存在很大的不确定性。经济主体在面临不确定性时通常形成一种预期,如果预期过高或过低,就会产生悲观或乐观的情绪。这样的情绪会影响人们的经济行为,如影响投资选择和消费倾向等。客观存在的经济社会活动影响人类心理,而人类心理反过来又会影响经济主体的行为与经济社会系统的运行,这种心理影响称为“反身性”。此外,经济主体存在明显的异质性,如不同所有制的企业,不同收入水平的消费者,其行为特征包括对经济政策与外生性冲击的反应以及所受到的影响是不一样的。最后,由于偏好、技术、环境、人口、政策与制度等变化,经济系统具有时变性,时变性可以是突变,也可以是缓慢变化。反身性、异质性、交互性以及时变性对预测未来会产生重大影响。为了显著改进经济金融预测,可以考虑大模型范式。由于其灵活性,大模型可以容纳互相关联的高维变量,刻画经济主体的异质性、变量之间的非线性与交互性,以及模型参数的时变性,从而大幅度降低模型误差,提高预测精准度。最近,Lopez-Lira and Tang (2023)使用ChatGPT判断关于上市公司的新闻标题对上市公司股价是好消息、坏消息或无关消息,并给出理由与情绪积分。他们的研究发现,这样构建的“ChatGPT积分”与上市公司日收益率存在正相关关系,而更基础的大模型如GPT-1和GPT-2等并不能精准预测收益率,因此ChatGPT较强的股票收益率预测能力是由于使用更复杂的大模型即GPT-3.5而获得的结果。
事实上,计量经济学与统计学已存在一些“大”模型。这里所说的“大”模型是指模型所包含的未知参数维数比统计学与计量经济学常用模型的参数维数要大很多,但可能远远小于ChatGPT与大语言模型的参数维数,而且输入数据也不一定是文本数据,可以是结构化数据。在经济学与计量经济学,“大”模型并不少见。例如,预测科学领域的模型组合是一个大模型(Sun et al., 2021, 2023)。假设有多个预测模型,将这些模型线性组合成为一个大模型,可以提供比较稳健的预测。使用单一模型进行预测,就像购买高回报与高风险股票一样,而使用模型组合则类似于购买共同基金,虽然回报率较低,但更加稳健而风险较小。由于每个预测模型都有一些未知参数,如果将很多不同预测模型线性组合起来,形成一个大模型,则这样的大模型的参数维数就相当可观。例如,假设共有个模型,每个模型有个未知参数,则组合模型的参数维数(包括组合权重系数在内)将达到。如果允许参数与组合权重系数具有时变性,则未知参数值的总数目达到,将随时间样本容量的增加而增加(Cui et al., 2023a)。在金融计量经济学,多元GARCH模型的估计由于维数灾难等原因是一个长期没有解决的计量经济学难题(Engle, 2002)。假设有个资产,则这个资产相对于历史信息集的条件方差-协方差是一个维半正定对称动态矩阵。当对这个矩阵进行多元GARCH建模时,如果这个矩阵模型的每个元素包含个未知参数,则多元GARCH模型未知参数的维数将达到。当或较大时,未知参数的维数将接近甚至超过时间序列样本容量,导致多元GARCH模型参数估计具有高度挑战性(Cui et al.,2023b)。金融计量经济学家已提出各式各样的多元GARCH模型,通过各种约束条件降低参数维数,但仍然没有从根本上解决高维多元GARCH模型的参数估计问题。
经济学还有其他类型的大模型,如可计算一般均衡模型。假设存在2000种商品,则需要2000个需求模型,2000个供应模型,共2000个联立方程式。如果每个需求或供给模型各有10个未知参数,那么总共需要估计40万个参数。在微观层面,Lanier et al. (2023)考虑估计一个高维超市商品需求模型,其中共有4368种商品,每种商品用一个24维的未知特征向量来刻画,异质性消费者共分为30类,每类消费者的效用函数均是二次型,但不同类消费者的效用函数参数值不同,这个大型需求模型共有105549个未知待估参数,参数维数比较大,但可避免商品加总导致的信息损失,能够比较精准评估商品需求弹性、商品替代效应以及消费者福利如何随商品价格或税率变化而变化。20世纪六七十年代,诺贝尔经济学奖获得者劳伦斯·克莱因(Lawrence Klein)推行一个名为“世界连接模型”(world link model)的全球宏观经济模型。到20世纪90年代,该模型有70个国家参与,共有2万个联立方程,如果每个方程有10个未知参数,则将拥有超过20万个未知参数。另一个宏观计量经济学大模型是高维向量自回归(vector autoregression,VAR)模型与高维结构化向量自回归(structural VAR,SVAR)模型。VAR与SVAR模型(Sims, 1980)是一个标准的宏观经济分析工具,广泛应用于宏观经济实证研究与政策分析。但是,一个主要困难是VAR与SVAR模型的参数维数会以内生变量维数的平方而快速增加。例如,一个100维、含二阶滞后项的VAR模型,将拥有至少20000个未知参数,远远超过常见的宏观经济数据样本容量,由于这个原因,VAR与SVAR模型通常只用于刻画小型宏观经济系统,如货币-产出-通货膨胀构成的小模型。基于大量小型经济系统的研究使相关研究趋于碎片化,研究结果呈现局部性与片面性,无法刻画宏观经济系统的整体特征与复杂关联。近年来,一些研究使用因子增扩(Bernanke et al., 2005)、贝叶斯压缩(Bańbura et al., 2010; Chan, 2023)以及正则化(Basu and Michailidis,2015)等降维方法来估计高维VAR与SVAR模型,从而可以涵盖高维宏观经济指标集。
人类学习与机器学习还有一个重要的区别:由于人工智能是基于概率预测,因此需要足够多的数据才能获得较好的学习能力,但人的学习能力不一定要经过多次重复才能获得。例如,一个小孩用手去触摸一个烧开冒气的水壶,他只要摸过一次就不会再摸第二次,不管水壶的形状、颜色是什么。相反地,机器需要“看到”很多水壶的照片或视频,才会得到不要去触摸烧开的水壶的结论。正如美国语言学家诺姆·乔姆斯基(Chomsky et al., 2023)所指出的,“人脑与ChatGPT之类的工具不同,它不是一个笨拙的模式匹配统计引擎,先狂塞进数百TB级数据,再推测出可能性最大的对话答复或某个科学问题的答案。相反,人脑是一个非常高效甚至优雅的系统,只需要少量信息即可运作;它不推断数据点之间的直接关联,而是创造解释。”
人工智能可以用于因果推断(Athey, 2019; Athey and Imbens, 2019)。由于其出色的泛化能力,人工智能能够比较精确地估测虚拟事实,从而显著提升因果推断与政策评估的有效性与精准性。但是,大数据特别是经济大数据几乎都是观测数据,包括大模型在内的人工智能算法事实上是统计学方法,而基于观测数据、运用统计学与计量经济学方法进行因果推断本质上是一种统计关系推断(Leamer, 1983)。这种统计关系需要在增加很多额外假设的条件下才可以被解释为经济学因果关系。如果放弃这些假设,或者这些假设不成立,这种关系只能视为一种统计关系。基于观测数据的人工智能因果关系本质上只是在计算机(即电脑)中两个变量之间的统计关联,即两个事件或两个变量同时或先后出现的概率非常高,计算机基于大数据能够捕捉到这种统计关联,并将其推断为因果关系。因此,人工智能因果关系类似于英国哲学家休谟所定义的因果关系。休谟认为,每次太阳升起,石头变热,这两个现象日复一日共现在人的脑海中,形成了一种惯常的联系,这种联系被休谟称为因果关系。因此,人工智能因果关系和经济学因果关系并非完全一致。要识别经济学因果关系,不能仅仅依靠基于计量经济学与人工智能的因果推断方法,还必须引入实验经济学(如随机控制实验)等方法。如果要将基于观测数据的人工智能因果关系解释为经济学因果关系,则需要经济理论的指导,而且,这种因果关系解释也只是一种可能性,即人工智能因果关系与经济学因果关系是相容的或不互相排斥,但并不意味人工智能因果关系就一定是经济学因果关系。
第三,人工智能特别是大模型正在推动经济学与社会科学研究范式的变革,特别是从模型驱动范式到数据驱动范式的转变,但仍需要与经济理论相结合,增强算法的经济可解释性。任何模型都是建立在各种假设基础上,模型驱动范式所获得的结论很可能具有模型依赖性,致使不同模型可能导致不同的结论(Breznau et al., 2022)。这就是为什么那么多经济学实证研究都要考虑所谓的稳健性检验(robustness check),即检验在不同的模型条件下是否能够得到相同或类似的结论。相反地,数据驱动范式试图通过使用与具体模型无关的算法,通过算法直接从数据中获得经济变量之间的逻辑关系,以得到与具体模型无关的稳健结论。但是,数据驱动范式所依赖的算法特别是大模型,大多是“黑箱”,缺乏经济可解释性,这是人工智能特别是大模型最大的一个弱点。数据驱动范式必须与经济理论相结合,才能拥有经济可解释性。因此,数据驱动模式可获得比较稳健的结论,但它并不能取代经济理论的指导。