洪永淼：ChatGPT对经济学研究范式的影响

作者：洪永淼中国科学院大学经济与管理学院院长（来源：清华服务经济与数字治理研究院）

2月18日，2023年春季首届中国数字经济发展和治理学术年会在清华大学顺利举办。会议由清华大学经济管理学院、公共管理学院和计算社会科学与国家治理实验室承办。中国科学院大学经济与管理学院院长洪永淼教授在大会发表题为《人工智能新近发展及其对经济学研究范式的影响》的主旨演讲。本文根据洪永淼教授现场发言内容整理。

今天主要和大家一起交流人工智能新近发展，特别是ChatGPT的发展理念与方法论，对经济学研究范式的影响。

一、数智时代的基本特征

在数智时代，大数据为人类社会提供了认识世界、改造世界的新思维，即大数据思维。大数据思维是通过大数据去发现、理解现实复杂系统的运行状态与发展规律，分析、解决现实问题，探索、预测未来变化趋势的新范式、新方法、新工具。大数据思维与现代经济学的主流研究范式是一致的。现代经济学的主流研究范式是实证研究，以数据为基础，应用计量经济学方法推断经济变量之间的逻辑关系尤其是因果关系，从而揭示经济的运行规律。大数据思维的实现方式是人工智能，特别是机器学习。

那么，以ChatGPT为代表的人工智能先进技术的发展理念与方法论，会对经济学的研究方法与研究范式产生什么潜在影响？

二、ChatGPT与大模型范式

ChatGPT的方法论是“规模至上”，其算法基础是大语言模型。大模型是参数维数极大的模型，这些参数需要通过数据训练或估计。大语言模型是指输入数据主要为文本数据的大模型。实际上，大语言模型在深度学习发展阶段就已出现。随着人工神经网络模型的隐藏层不断增加，其参数数量呈现快速增长。文本数据本质上是高维或超高维数据，简约模型无法刻画异质性高维数据的特征，因此需要使用大语言模型。从计量经济学视角看，大模型最主要优点是系统偏差比较小。同时，由于ChatGPT的训练数据主要来自互联网文本数据，样本容量极其庞大，从而保证了大语言模型参数的估计精度。因此，大语言模型具有比较强的泛化能力，即样本外预测能力。

长期以来，计量经济学与统计学面临的一个困扰是“维数灾难”：当模型参数维数相比数据容量不是很小时，虽然模型偏差比较小，但因为参数维数大，在有限数据容量条件下，对每个参数的估计不甚精准，导致模型过度拟合，其样本外预测能力较差。“维数灾难”不仅存在于计量经济学与统计学，在社会科学和自然科学很多领域也存在。ChatGPT通过使用海量互联网大数据，确保训练数据容量远大于模型参数维数，从而避免了“维数灾难”。

三、大模型与经济学研究范式

作为学术研究的好助手，ChatGPT可大幅提高研究效率。在经济学研究中，可借助ChatGPT搜索信息、收集数据、撰写文献综述、编写代码、检查程序、设计实验方案、翻译文本等。虽然目前ChatGPT的表现仍有不少缺点，其整体智能水平与人类相比尚有不小的差距，但可以预计，随着人工智能技术的发展以及ChatGPT广泛应用的经验积累，ChatGPT的智能程度在很多方面将日益接近甚至超过人类。ChatGPT及其大模型方法论可能会对经济学乃至整个社会科学产生深远影响。

比如，ChatGPT与大模型将对计算经济学产生较大影响。计算经济学与计算金融学已存在相当长一段时间。经济学是一个比较复杂的系统，数学经常无法给出解析解，这时就必须用到计算机模拟仿真方法，经济学家比较熟悉的有可计算一般均衡模型和基于主体的模型（Agent-Based Model）。近十年出现的计算社会科学就是一种数据密集型研究范式。再如，ChatGPT与大模型将对经济学的理性经济人假设产生较大影响。实验经济学研究表明，人类经济行为并不满足完全理性假设，更多表现为有限理性，甚至存在预期偏差。但是，ChatGPT能够改进理性经济人假设，基于人工智能或人工辅助的决策有可能成为计算经济学的一个重要研究方向，比如提供理想参照系、定量政策评估以及进行人工智能决策等。

我今天重点探讨ChatGPT与大模型将对计量经济学产生的深远影响。计量经济学有两个原则，一个是简约模型原则，即如果能用最简单的模型去总结最多的数据，那就是最好的统计模型；另一个是充分性原则，用低维统计量总结样本信息。20世纪，统计学存在参数与非参数建模的方法论之争。统计学家Ronald Fisher认为非参数模型因其参数维数高而估计不精确，主张使用参数维数较少的参数模型；另一位统计学家Karl Pearson则关注参数模型可能误设而产生较大偏差，主张使用非参数模型。计量经济学也有类似争论。2003年诺贝尔经济学奖得主Robert Engle主张从特定模型出发，通过检验遗漏变量等计量经济学方法拓展模型，这是所谓的“从特殊到一般”的建模方法；而伦敦计量经济学派代表人物David Hendry则主张从高维的一般模型出发，通过统计学假设检验与经济理论约束条件等方法得到特定模型，这是所谓的“从一般到特殊”的建模方法。“从一般到特殊”的建模方法更适合大数据分析，更接近数据驱动研究范式。但是，两种建模方法的最终目的都是获得一个具有经济可解释性的简约模型，参数不多且有经济含义，同时拥有良好的样本外预测能力。为了获得简约模型，计量经济学与统计学提出了很多经典降维方法，比如主成分分析、因子模型、模型选择、经济理论约束等。在大数据时代，由于潜在解释变量或预测变量很多，新的统计降维方法也不断产生。例如，人工智能与统计学的交叉产生了一个新领域——统计学习，其中一个代表性降维方法是LASSO回归。LASSO的基本思想是假设大量潜在解释变量中只有少数变量有重要影响，在此稀疏性假设下，通过引入适合的惩罚项，以牺牲估计偏差为代价，换取估计方差的大幅度减少，从而显著降低均方误差，达到精准选择重要变量和改进样本外预测的目的。

统计学与计量经济学一直考虑的数据均是“小”数据，相对人类拥有的海量大数据来说，只是使用了“沧海一粟”，大量数据信息没有被利用。目前，统计学和计量经济学的研究还是以模型为重心，特别是以降维为导向，这主要是受到可解释性需求、数据容量、计算资源等原因的限制。在预测经济金融数据方面，机器学习比传统计量经济学模型有显著改善，但尚未达到令人满意的程度，特别是与其他领域（如人脸识别）相比，更是如此。这主要是因为经济金融系统是复杂系统，受人类心理影响很大，而且经济金融系统具有时变性。为显著改进经济金融预测，可以考虑大模型范式。大模型可以容纳高维影响因素，允许模型参数时变性或非线性影响，显著减少预测偏差或模型偏差。同时，大模型使用了海量数据，对数据的估计精确度有一定保障。实际上，计量经济学与统计学中的模型组合或模型集合就是一种大模型研究范式，计量经济学已经开始往大模型方向发展，只是发展速度远远比不上ChatGPT。因此，可以考虑使用大量的非结构化数据，通过类似ChatGPT的建模方法来大大改进经济金融预测。在这方面，热力学与统计物理学的发展历史经验或许可以给我们一些启示。关于黑体辐射，曾经出现两个理论——在短波范围拟合较好的维恩近似，以及在长波范围拟合较好的瑞利－金斯定律，后来普朗克将两者综合起来，提出了适合全波段范围的黑体辐射定律。在经济学研究中，大小模型各有优缺点，那么是否可以找到更好的方法把这两种模型结合在一起，从而提高模型的经济可解释力和预测力？

四、ChatGPT范式的局限性

人工智能特别是ChatGPT及其大语言模型正在推动经济学研究范式的深刻变革，但是人工智能与ChatGPT 的大语言模型范式也有局限性。

第一，以ChatGPT为代表的人工智能前沿技术没有人的意识或理解能力，只有预测能力。ChatGPT在《时代》周刊的采访中表示，它只是一个机器学习模型，只能根据给定的训练数据，根据某些单词或单词序列一起出现的概率生成文本。因此，ChatGPT本质上并不是在理解文本数据，而是在预测。此外，目前的人工智能技术不具备与人类一样的批判性思维与想象力，无法从现有数据推断或预测出重大创新成果。

第二，基于大数据的人工智能因果推断本质上其实是一种统计关系推断，并不是真正的因果关系。所谓因果关系，是指其他因素不变的条件下，某一变量的变化必然引起另一变量的变化。实验方法是识别、测度因果关系的最有效方法，通过可控试验控制其他变量不变，只让其中一个变量变化，观察结果是否变化。由于大数据基本上是观测数据而非实验数据，基于人工智能的因果推断本质上是一种预测关系或相关关系，它只不过是两个变量在计算机中的统计关联。这种人工智能因果关系类似于英国哲学家休谟所说的因果关系，比如太阳出来，石头变热。因此，人工智能因果关系和经济学因果关系并不完全一致。要识别经济学因果关系，不能仅仅依靠人工智能因果推断，还必须有经济理论的指导或引入实验经济学的方法。在我看来，经济学家不用担心会被ChatGPT等人工智能工具所替代，如果没有经济学理论的指引，很难找到经济学因果关系。ChatGPT是一种数据驱动的研究范式，比起计量经济学的模型驱动范式，有显著的改进。模型驱动建立在各种假设的基础上，结论常常受到所假设模型的限制，使用不同模型可能会导致不同的结论。Breznau et al. (2022, PNAS) 研究表明，基于同一数据，不同人使用不同的模型，会得到不同的结论，这也是模型驱动的缺点。数据驱动无需假设具体的函数模型，通过算法从数据中获得经济变量之间的逻辑关系，特别是经济学因果关系，以得到更加稳健的结论。但是，对经济学研究而言，数据驱动必须与经济思维、经济理论相结合，否则无法得到经济学意义上的因果关系。

第三，以ChatGPT为代表的人工智能前沿技术没有改变经济学实证研究的本质，即从样本推断总体性质。毫无疑义，大数据与人工智能大大强化了经济学以数据为基础的实证研究范式。虽然ChatGDP使用了海量大数据甚至是整个互联网文本数据，但是互联网大数据并非全样本。人类经济社会发展是一个漫长历史过程，现有互联网大数据纵使样本容量极大，也只是这个历史过程的一个样本。基于大数据的经济学实证研究仍然是从样本推断总体，以及进行样本外预测。此外，经济发展在不同历史阶段具有不同的特征，经济运行规律因此会呈现出显著的时变性，有时是缓慢变化，有时是突变，这使得人工智能对经济金融变化趋势的预测更具挑战性。

第四，模型、算法与数据的可靠性有待验证。以ChatGPT为代表的人工智能正在推动经济学

与社会科学研究从模型驱动范式转变到数据驱动范式，从数据直接获得稳健的结论，克服了模型驱动范式得到的结论可能会因模型改变而变化的缺陷。但是，互联网开源大数据存在各种虚假信息与社会偏见，人工智能尚无法确认其表述内容的真实性。此外，互联网大数据也存在“样本选择偏差”问题，如城乡数字鸿沟、地区数字鸿沟、代际数字鸿沟等。这些问题不可避免会影响基于互联网大数据的ChatGPT乃至人工智能所获得的结论的可靠性与科学性。

我们正处于大数据、大科技、大模型的时代，加上中国超大人口规模和超大经济规模给人工智能技术带来的广阔应用场景，这些将为经济学研究提供大量丰富素材。应当充分利用所有数据资源，积极探索大模型研究范式，揭示中国复杂经济系统的运行与发展规律。需要指出，强调大模型并不意味小模型不重要，大小模型分别适用于不同情境；强调大数据并不意味“小”数据不重要，“小”数据的信息密度通常更高；强调文本数据等非结构化大数据也并不意味结构化数据并不重要。

报告观点已整理发表在《中国科学院院刊》2023年第3期。

来源：清华服务经济与数字治理研究院