社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

深度学习在经济学中的各类应用

连享会 • 3 月前 • 73 次点击  


👇 连享会 · 推文导航 | www.lianxh.cn

🍓 课程推荐:连享会-TFP专题:估计、识别与分解
嘉宾:董展育 (中山大学);李旭超 (武汉大学)
时间:2026 年 1 月 10, 11, 17 日
咨询:王老师 18903405450(微信)


作者:李梦玉 (厦门大学)
邮箱:mengyuli2025@163.com


Source: Dell, M. (2025). Deep Learning for Economists. Journal of Economic Literature, 63(1), 5–58. Link (rep), PDF, Appendix, Google, -cited-.


  • Title:深度学习在经济学中的各类应用
  • Keywords:深度学习, 神经网络, Deep Learning, 文本分析, 图像识别, 因果推断


温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。或直接长按/扫描如下二维码,直达原文:


1. 背景介绍

近年来,深度神经网络推动了许多重大科学突破——从让探测器成功降落在火星上,到创造性能强大的聊天机器人,再到改变疾病诊断方式。深度神经网络能够将非结构化的数据 (如文本、文档扫描图像、卫星影像、视频、音频) 映射到一个连续的向量空间。在经济学领域,研究者可以利用神经网络的这一特性来识别街景图像中是否存在非正规商贩 (informal vendors),或衡量企业文件、政府文档中提及的话题或人物。

本文旨在弥合前沿深度学习方法与经济学应用之间的差距。具体来说,本文将讨论如何利用深度学习方法从非结构化的文本或图像中提取低维的结构化数据,这些结构化数据可以作为结果变量、处理变量或者工具变量用于后续的因果推断。

作者提供了与文章配套的资料库 EconDL:https://econdl.github.io/


2. 基础的深度学习框架

深度神经网络可以将高维的非结构化数据简化为向量,进而从原始数据中提取出有效的信息。每一层神经网络中的神经元通过线性变换、非线性激活后输出为下一层的神经元,其中线性变换中的权重 (weight) 和偏置项 (bias) 即为模型需要学习的参数。如果不熟悉神经网络,可以观看 Sanderson 的视频。

从头开始训练一个神经网络模型往往需要海量的数据,而神经网络具有强大的迁移学习 (transfer learning) 能力,在一个领域训练好的神经网络可以适应许多其他领域,所需的训练样本数量比从头开始训练模型所需的样本要少得多 (通常只需要几百到几千个)。

例如,如果研究者需要一个能够对文本主题进行分类的模型,可以在 Hugging Face (第四部分将详细介绍) 下载到已经完成预训练的语言模型。研究者只需要在上述模型的基础上添加一个分类层 (classifier layer),用少量数据对模型进行微调即可。在模型的数百万参数中,大部分参数将保持不变,因为模型对语言的基本理解不需要更新,但与当前任务最相关的参数会被更新,以改善模型的预测能力。

下面对基础的深度学习框架进行介绍。

2.1 神经网络简介

神经网络由多层相互连接的节点组成,这些节点称为神经元 (neurons)。每个神经元都包含一个数值,该数值是前一层神经元中的数值经过线性变换、非线性激活后得到的。

激活函数是神经网络的重要组成部分,因为它使得神经网络能够捕捉到数据中的非线性关系。激活函数有很多类型,这里以 ReLU 激活函数 (rectified linear unit) 为例来解释上述线性变化和非线性激活过程。ReLU 激活函数的具体形式为:,其中  为线性变换的结果:

 和  分别为模型需要学习的权重和偏置项; 为来自上一层神经网络的输入值。输出层 (final layer) 的神经元即为神经网络的输出结果。

为了优化神经网络,需要将模型的输出结果与真实标签 (ground truth labels) 进行比较,最小化损失函数 (loss function)。这些标签衡量的内容取决于模型具体需要预测的内容:例如,对于语言模型,可能是预测被遮盖的词语;对于图像模型,可能是预测图像的类别。

和任何优化问题一样,我们需要知道损失函数对每个权重项和偏置项的导数,才能对损失函数进行最小化求解。从输出层开始,向后穿过每一层网络,最后到达输入层,使用链式法则 (chain rule) 依次计算损失函数对该层权重项和偏置项的导数,这个过程即为后向传播 (backpropagation)。

扩展学习 - 后向传播:

  • Karpathy, Andrej. 2022. “The Spelled-Out Intro to Neural Networks and Backpropagation.” YouTube, posted on August 16, 2022.
  • Nielsen, Michael. 2015. Neural Networks and Deep Learning. Determination Press.
  • Goodfellow, Ian, Yoshua Bengio, and Aaron Courville. 2016. Deep Learning. MIT Press.
  • Stevens, Eli, Luca Antiga, and Thomas Viehmann. 2020. Deep Learning with PyTorch. Manning Publications Company.

2.2 卷积神经网络

卷积神经网络 (Convolutional Neural Networks, CNN) 主要用于图像处理领域,尽管出现了用于图像处理的新型架构——视觉 Transformer (见第 3.6 节),CNN 仍被广泛使用。图像通常有三个维度:高度 (以像素为单位)、宽度(以像素为单位) 和通道数 (channel),例如,RGB 图像的通道数为 3 。

卷积层 (convolutional layer) 是 CNN 的核心模块,卷积层的参数为每一层的卷积核 (kernel),每一层可以有多个卷积核,但每个卷积核的通道数通常要与上一层输入的通道数一致。CNN 在图片的不同位置使用相同的卷积核,相比于全连接神经网络,模型参数更少。此外,参数共享确保了无论特征在图像中的哪个位置,都可以被检测到。

除了卷积层外,池化层 (pooling layer) 也是CNN 的常见组成部分。假如某一个卷积层中使用了  个不同的卷积核,那么这一层的输出结果的通道数则为  。池化层会减少上一层输入的通道数,从而减少模型参数。通常,一个 CNN 由交替出现的卷积层和池化层组成。

扩展学习 - 卷积神经网络:Sanderson, Grant. 2020. “Convolutions in Image Processing.” Virtual lecture, streamed live on September 3, 2020,by The Julia Programming Language, YouTube.

2.3 循环神经网络

卷积神经网络要求输入图片的大小是固定的,而循环神经网络 (Recurrent Neural Network, RNN) 则可以处理可变大小的输入。RNN 曾在自然语言处理领域占据着重要的地位,但后来逐渐被 Transformer 取代。尽管研究者在自然语言处理应用中通常应采用 Transformer 模型,但为了与 Transformer 进行对比,这一部分仍对循环神经网络进行简单介绍。

RNN 通常用于处理序列数据 (如文本、音频、视频等)。此类数据具有强的前后关联性,且序列长度会发生变化。RNN 在每个时刻都会更新隐藏层输出的状态,隐藏状态能够整合截至当前时间的历史信息,从而使模型在处理序列数据时具备 "记忆" 过去内容的能力。

人类语言的一个关键特征是具有极强的前后关联性,来看一个经典的例子:

  • The animal didn’t cross the road because it was too tired.
  • The animal didn’t cross the road because  it was too wide.

以上两个句子里的 it 指的是 animal 还是 road,取决于 it 与句中其他词语之间的依赖关系。为了更好地捕捉这类依赖,最常见的 RNN 模型是双向长短时记忆网络 (Bidirectional LSTM),EconDL 知识库中可以找到关于 LSTM 的更详细介绍。

2.4 Transformer

Transformer 模型的出现彻底改变了以往的自然语言处理模式,同时也已经渗透到了深度学习的大部分领域,包括视觉、音频、图像和强化学习。

Transformer 模型的核心是注意力机制 (attention) ,文本中的所有词元 (token) 会被同时输入模型,模型通过关注上下文中的所有其他词元,根据每个词元与上下文中其他词元的语义关系为每个词元创建嵌入向量。这种方法不同于传统的词向量,在传统方法中,语料库中的同一个词元始终具有相同的词向量。

同时,与 RNN 依靠隐藏状态逐步递推导致的信息衰减不同,Transformer 通过注意力机制让每个词元能够在一次计算中并行地与序列中所有其他词元建立依赖关系,从而有效捕获远距离的相互作用,克服了 RNN 的局部性偏差 (locality bias)。

Transformer 模型一次可以处理的文本长度是有限的 (即上下文窗口) 。在开源模型中,通常上下文窗口的长度是 512 个词元。对于许多问题而言,这已经足够了 (例如,文本可以被分块处理)。目前也有一些带有稀疏注意力 (sparse attention) 机制的模型,它们允许使用更长的上下文窗口。

扩展阅读 - Transformer

  • Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L., & Polosukhin, I. (2017). Attention Is All You Need (Version 7). arXiv. Link (rep), PDF, Google.
  • Alammar, Jay. 2018b. “The Illustrated Transformer.” Blog post.
  • Rush, A. (2018). The Annotated Transformer. Proceedings of Workshop for NLP Open Source Software (NLP-OSS). Link, PDF, Google.

2.5 Transformer 大语言模型

目前,大多数自然语言处理都使用基于 Transformer 的大语言模型 (large language models, LLMs) 。Transformer 大语言模型主要有两种类型:

  • Generative (decoder) models:  这类可以预测一段序列中的下一个词元,它们通常用于文本生成。由于这些模型是通过预测下一个词元进行训练的,因此在为给定的词元创建与上下文表示,它们只能关注 (或依赖于) 先前的词元。这种注意力机制被称为因果注意力 (Causal Attention)。
  • Masked (encoder) language models: 这类模型是双向的,在为一个序列中的词元创建上下文表示时,它们可以关注序列中的所有词元,模型通过预测被掩码的词元进行训练。如果研究者希望将整个文本输入模型以创建完整的语义表示 (例如用于分类、问答等任务) 时,可以使用这类模型。

目前,大语言模型也可以对上述两类模型进行结合,同时具备强大生成能力和理解能力。借助 Transformer 架构,一个经过预训练的语言模型可以作为基石用于完成其他任务,实现高效的迁移学习 (图 3) 。

  • Panel A:

扩展阅读 - Transformer 大语言模型[1] Alammar, Jay. 2019. “The Illustrated GPT-2 (Visualizing Transformer Language Models).” Blog post.[2] Alammar, Jay. 2020. “Works—Visualizations and Animations.” Blog post.[3] Alammar, Jay. 2018a. “The Illustrated Bert, Elmo, and co. (How NLP Cracked Transfer Learning).” Blog post.


关于视觉 Transformer 模型和音频 Transformer 模型的内容参见原文 3.6 节。


3. 分类模型 (Classifiers)

分类是经济学分析中不可或缺的一部分。例如,研究者可能需要从一个大规模语料库 (包含新闻、社交媒体帖子、财报电话会议或立法记录的数百万甚至数十亿文本) 中提取关于利率、移民或高等教育的信息。这一节主要对分类模型在经济学领域的应用进行介绍,介绍的重点在于文本分类问题。

3.1 分类模型简介

训练分类模型是深度学习中最常见的任务之一,开源软件包 LinkTransformer 可以用于训练文本分类模型。在训练分类模型时,基础的 Transformer 语言模型可以被冻结 (即保持参数不变), Transformer 不同层的输出也可以用作分类模型的输入。通常来说,我们会允许所有参数均可以进行更新,并将分类层 (classifier layer) 连接至基础 Transformer 语言模型的最后一层。分类模型可以有以下三种类型:

  • 二分类 (Binary): 只有两个类别;
  • 多分类 (Multiclass): 类别多于两个,一个样本只能属于一个分类;
  • 多标签分类 (Multi-label): 一个样本可以同时属于多个分类。

分类模型训练是一项有监督任务 (supervised task) ,模型的训练数据必须具有与输入特征对应的标签,训练数据在各个类别之间应该相对平衡 (例如,在二分类的情况下,两类样本的数量应相对平衡)。常用的损失函数有铰链损失 (SVM loss / hinge loss) 和交叉熵损失 (cross-entropy loss) 两类。

给定一个带有真实标签  的样本,以及由神经网络生成的、用于表示类别分数 (score) 的向量 ,其 SVM 损失函数为:

上述损失函数对所有不正确的类别进行求和,当正确类别的得分没有比不正确类别的得分高出某个阈值时,就会施加惩罚,通常会将阈值设置为  。

真实标签与预测标签之间的交叉熵损失为:

由于  是独热向量 (one-hot vector),上述公式可以简化为:

 是真实分类的预测概率。

在实际应用中,两类损失函数通常会产生相同的结果。

二元分类模型通常使用 F1 分数进行评估,这是一个结合了召回率 (真阳性除以真阳性加假阴性) 和 精确率 (真阳性除以真阳性加假阳性) 的指标:

F1 分数是精确率和召回率的调和平均值,因此它往往更接近于这两个指标中较小的那个值。如果精确率或召回率中的任何一个值很低,F1 分数也会很低。

对于多类别的分类模型,可以为每个类别单独计算 F1 分数,然后通过不同的方式进行组合:

  • macro F1: 对每个类别的 F1 分数进行平均;
  • weighted F1: 将每个类别的 F1 分数根据该类别中真实样本的数量进行加权平均;
  • micro F1: 加总所有类别中的真阳性、假阳性和假阴性,然后像在二元分类问题中那样计算 F1 分数。

3.2 生成式人工智能与分类问题

大型生成式人工智能模型,如 GPT、Claude 或 Llama (通常被称为基础模型,foundation models),使用 decoder Transformer 架构 (见3.5节) 根据给定的提示词 (prompt) 生成文本。从基本原理上讲,这些模型也是在执行分类任务:从离散的词汇表中预测最有可能的下一个词元。

在使用生成式 AI 执行分类任务时,用户需要依赖提示词来引导模型。然而,与通过梯度下降直接优化分类模型参数不同,提示词是离散文本,其搜索空间巨大且不连续,因此难以以同样直观、系统的方式进行优化。这里给出几点建议:

  • 第一,提示词的调整应该在验证集 (validation set) 上进行,而不能测试集 (test set) 上进行。
  • 第二,简单的提示词比冗长和更加细节的提示词效果要好得多,如果一个问题需要冗长的指令,将其尝试将其分解成多个子问题,并在一步都对模型进行提示。

对于传统的分类模型,发现模型犯错的原因以及修复这些错误都是是非常直观的,但是生成式 AI 在处理分类问题时更像是一个黑箱。下面具体讨论使用生成式 AI 处理分类任务的优劣势:

  • 优势:

    • 成本低,只需要很少的编程知识,也不需要了解底层机制;
    • 无需提供训练数据,而训练传统分类模型则需要大量的训练数据。
  • 劣势:

    • 无法通过 API 实现对大型模型的精细控制;
    • 传统分类模型在可解释性和可复现性方面具有优势,如果商业大模型被弃用,分类结果可能不再具有可复现性。使用 Llama 这样的开源模型可以减轻上述担忧,然而,这样做的成本和硬件要求会很高。

3.3 文本分类

为了说明文本分类问题,本文训练了 19 个不同的二元主题分类模型,用于对历史新闻数据进行分类,并将训练的分类模型的表现与生成式 AI 的表现进行对比。

本文使用 LinkTransformer 进行分类模型的训练,该工具包支持使用 Hugging Face 上可用的任何基础语言模型。本文选择了 DistilRoBERTa (8200 万参数) 和 RoBERTa large (3.35 亿参数) 。

  • DistilRoBERTa: 是一个蒸馏模型 (Distilled Model) ,被训练来复制大型模型的行为,其特点是参数更少、运行更快,但通常性能会有所损失。
  • RoBERTa large: 是一个被广泛使用的语言模型,是 BERT 的改进版本。

表 2 提供了本节所研究的各种主题分类任务的数据划分信息。标注数据被随机划分为训练集、验证集和测试集。验证集用于选择模型超参数 (hyper-parameters)、选择模型检查点 (checkpoint) 以及调整提示词,而测试集仅用于计算表 2 中的 F1 分数。由表 2 可以看出:

  • 在大多数情况下,训练的分类模型往往优于或等同于 GPT 的性能。不过,对于更简单直接的任务,GPT 的性能可以非常出色(比如 Horoscope, Obituaries 以及 Polio vaccine),尤其是 GPT-4。
  • 如果使用质量较低的标注数据,例如通过 GPT-3.5 对训练数据中的文本创建分类标签,训练的分类模型则会比 GPT 表现更差 (第 3 列) 。

3.4 词元分类

研究者可能仅需要提取关于文本中单个词元的信息,而不是整个文本的信息。这类问题与文本分类问题非常像,唯一的区别将 Transformer 模型输出层的每一词元均作为分类模型 (classifier heads) 的输入 (图 3 Panel C),而文本分类问题仅需要将  词元作为分类模型的输入。

本节将展示一个词元分类的例子:命名实体识别 (Named Entity Recognition,NER),它用于检测文本中的命名实体。这些实体的定义可以由研究者根据需要来确定,前提是存在清晰、一致的定义和足够的标注数据来进行训练。例如,研究者可能希望识别社交媒体帖子中提到的地点;或者,研究者希望识别出传记文本中的出生地、母亲、父亲、大学、配偶和雇主等信息。

NER 是一个经典的问题,产生了大量文献研究相关问题,在这类文献中,实体类别通常包括人物、地点和组织。Hugging Face 上有许多开源的预训练模型和数据集。NER 任务通常使用 BIO 标注:

  • B 表示实体的第一个词元;
  • I 表示实体的后续词元;
  • O 表示非目标词元。

如果感兴趣的实体类型是人物 (P) 和地点 (L),那么标签将包括 B-P, B-L, I-P, I-L和 O

图 5 展示了将 NER 应用于历史新闻文本的结果,图中绘制了超过 2700 万个实体中属于人物、地点、组织和其他实体这四个类别的占比随时间的变化趋势。这一结果是合理的,例如在第二次世界大战期间,地点和其他实体 (例如飞机名称) 出现了激增。

研究者也可以要求生成式 AI 识别文本中的实体,并将输出转换为表格。

3.5 文本之间的关系

在一些情况下,研究者可能希望衡量两段文本是否以某种方式相关。例如,研究者可能希望判断一个陈述中是否蕴含另一个陈述:这篇文章的文本是否蕴含 “本文与货币政策相关” 这一陈述?;或者两段文字对某个政治问题是否持相同立场。

图 6 展示了两种用于比较文本的方法。

  • Cross-encoder: 两段文本会被连接起来,并在它们之间插入一个特殊的  词元,这些文本会被一起传递给 Transformer,然后分类模型会对其关系进行分类。
  • Bi-encoder: 文本是单独进行词嵌入的,然后计算它们之间的相似性。

Cross-encoder 是基于交叉注意力机制 (full cross-attention) 的,由于两段文本是一起进行词嵌入的,每个词向量可以包含来自另一段文本的相关信息,而 Bi-encoder 会对每段文本单独进行词嵌入。因此,Cross-encoder 通常具有更高的准确性。

但是 Cross-encoder 也具有明显的缺点,最核心的一点是:如果我们需要比较 个文本与另外  个文本,这将需要  次嵌入计算。由于每次文本都需要通过一个拥有数亿参数的神经网络,由此产生的成本会非常大。相比之下,Bi-encoder 要比较  个文本与另外  个文本,仅需要  次嵌入计算。

现有文献中,通常会将上述两种方法结合使用:首先使用 Bi-encoder 来获取与查询文本最相似的  个文本,然后再使用 Cross-encoder。


4. 嵌入模型 (Embedding Models)

对于分类模型,必须事先明确类别。分类模型不适用于以下三种情形:

  • 研究者事先并不清楚准确的类别;
  • 研究者希望以后可以添加新类别而无需重新训练模型;
  • 如果类别数量很大,在计算上可能难以处理。

为了解决这些问题,可以直接使用 Transformer 或 CNN 模型输出的嵌入向量来完成分类,而不用在模型的最后一层新增一个神经网络 (分类模型)。这样做不需要事先指定类别,此外,向量相似度的计算已得到高度优化,使处理类别数量很多 (数百万甚至更大规模) 的问题成为可能。

4.1 对比学习

直接使用嵌入向量要求向量表示之间的距离能够衡量语义相似性,而预训练的 Transformer 语言模型输出的嵌入向量并不满足这一条件。因此,在开始任务之前,需要进行对比学习 (Contrastive Learning)。

对比学习是为了让模型为语义相似的输入学习到更接近的向量表示,为语义不同的输入学习到更远的向量表示。对比损失函数鼓励模型减小嵌入向量中正例 (例如,相似的文本或图像) 之间的距离,并增大负例 (例如,不相似的文本或图像) 之间的距离。对比学习遵循图 6 中 Bi-encoder 的框架。为对比学习选择信息丰富的负例非常重要,如果负例过于简单,模型学到的东西就会很少。

目前有现成可用的嵌入模型,例如Sentence-BERT,另外,OpenAI 也提供价格相当优惠的嵌入服务。

基于美国立法数据 (数据中包含法案的主题类别),本文使用三种不同的模型计算了立法描述的嵌入向量之间的相似性,结果见图 7:

  • Panel A: 轻量级 S-BERT 嵌入模型;
  • Panel B: OpenAI 大型嵌入模型;
  • Panel C: 对训练集中的正例和负例法案进行微调 S-BERT 后产生的嵌入模型;
  • Panel D: 使用经过美国法案微调的模型,计算英国议会法案的嵌入向量在主题内部和主题之间的相似性。

图 7 的结果表明:

  • 使用现成的模型时,嵌入向量主题内部的相似度确实高于主题之间的相似度,但差异并不显著。S-BERT 和 OpenAI 模型的表现相似。
  • 对模型进行微调后,主题内部的相似度会远高于主题之间的相似度。
  • 使用经过美国法案微调的模型,来比较英国议会法案的嵌入向量在主题内部和主题之间的相似性时,分离程度仍很明显,说明微调后的模型具有一定的泛化能力。

4.2 结构化数据的记录连接

记录链接 (Record linkage) 是许多经济学分析的核心,研究者可能需要在不同的数据集中匹配个体、地点、公司、组织、产品描述或学术论文等信息。 Transformer 模型在记录连接方面表现出了巨大的潜力,为了让这些方法更容易被社会科学研究者使用,Arora 和 Dell (2024) 设计了 LinkTransformer,这是一个面向社会科学家的、使用 Transformer 模型进行记录链接的软件包。

图 8 展示了 LinkTransformer 模型的基本架构。待匹配的字段需要使用 Transformer 语言模型转化为嵌入向量,对于每一个查询,LinkTransformer 会使用嵌入向量之间的余弦相似度作为衡量标准,在语料库中找到最相近的字段。LinkTransformer 会返回一个排名以及余弦相似度分数,这些分数可用于一对一、一对多或多对多的匹配。

Arora 和 Dell (2024) 的研究提供了一个例子:使用公司名称、地点、产品、股东和银行等多个字段,在不同数据库中匹配 1950 年日本公司的相关数据。如果使用字符串匹配处理这类匹配问题是非常复杂的,因为字段是存在噪声的,比如产品在不同数据集中有不同的描述方式。而大语言模型可以轻松处理这些问题,因为它能够捕捉字段间的语义相似性。

关于非结构化数据的记录连接,参见原文 8.3 节。

扩展阅读 - LinkTransformerArora, A., & Dell, M. (2023). LinkTransformer: A Unified Package for Record Linkage with Transformer Language Models (Version 2). arXiv. Link (rep), PDF, Google.

4.3 分类未知时的分类问题

研究者希望从非结构化数据中推断出的类别可能是未知的。这一节主要讨论一些媒体经济学的例子:

  • 检测历史新闻中的文章或图片被复制的次数;
  • 判断历史上的重大新闻;

假设我们希望能够识别每一篇独特的文章和图像,衡量它被复制的程度,即传播程度,并观察哪些报纸复制了它。但解决上述识别问题面临着巨大的挑战:

  • 文本通常被大量删减,并且可能包含严重的 OCR 错误 (扫描历史文档时产生的错误) 。
  • 图像通常被裁剪过,且质量极低。

完成上述任务所需的嵌入模型是通过对 Sentence-BERT进行微调 (对比学习) 后得到的,满足以下条件:

  • 来自同一通讯社的文章具有相似的向量表示;
  • 不同来源的文章 (即使是关于同一事件的报道) 具有不同的向量表示。

基于此,我们可以对嵌入模型产生的结果进行聚类,即可检测历史新闻中的文章被复制的次数。

检测图像的复制与检测文本的复制是相似的。在这种情况下,不是训练语言模型,而是对视觉模型进行对比训练,使其将同一图像的复制版本映射到相似的向量表示,并将不同的图像映射到不相似的向量表示。

现在来讨论 Dell et al. (2023) 的论文中的一个示例,这个实例要求基于超过 4.3 亿篇历史美国报纸的数据集,确定每年的最重大的新闻报道,而我们事先并不知道这些报道是什么。他们通过一个名为 AllSides 的现代新闻网站的数据对模型进行了对比训练。表 3 报告了每年最重大的新闻。


5. 回归模型 (Regression)

在机器学习中,回归指的是对连续结果的预测。这一节主要讨论的应用是目标检测 (object detection)。

目标检测主要用于在图像中定位对象,例如,研究者在处理公司的财务记录时,需要检测不同文档内容的坐标 (表格标题、列和行标题、表格单元格等);或者,一位希望通过街景数据衡量非正规经济的研究者,需要在图像中定位街头小贩。

在这类问题中,对于每个对象,神经网络会输出:

  • 四个连续数值 (对象的边界框的左上角 x 坐标、左上角 y 坐标、高度和宽度) —— 这是一个回归问题;
  • 该对象的类别 (例如,表格标题、列标题等) ——这是一个分类问题。

图 10 展示了目标检测如何用于定位和分类历史报纸扫描件中的对象 (例如,文章、标题等) 。

文档布局的检测需要根据特定的需求训练模型,如果目标任务与已有的模型的训练任务非常接近,那么使用该模型的结果可能较好。如果模型没有在文档上进行过大规模的预训练,把它应用于不同类型的文档时,往往会存在严重的偏移问题。


6. 相关推文

Note:产生如下推文列表的 Stata 命令为:    lianxh 深度学习 神经网络 机器学习,md2 nocat安装最新版 lianxh 命令:   ssc install lianxh, replace

  • 万储诚, 2025, IV:形形色色的IV.
  • 仵荣鑫, 2022, 知乎热议:如何学习机器学习.
  • 伊凌雪, 2020, 人工神经网络与Stata应用.
  • 全禹澄, 2021, 机器学习如何用?金融+能源经济学文献综述.
  • 关欣, 2022, 机器学习在经济学领域的应用前景.
  • 冯乔, 2023, Stata中的堆栈泛化和机器学习-pystacked.
  • 吕卓阳, 2021, MLRtime:如何在 Stata 调用 R 的机器学习包?.
  • 吴小齐, 2023, R语言:L2 Boosting 在经济学中的应用.
  • 吴欣洋, 2025, AI自动生成研究假设,靠谱吗?流程与挑战.
  • 吴欣洋, 2025, 分享!数百个金融类机器学习仓库:financial-ML.
  • 吴茜, 2025, 我们需要因果 AI:Judea Pearl 聊 AI 的未来.
  • 张弛, 2025, 大语言模型到底是个啥?通俗易懂教程.
  • 张弛, 2025, 新书免费读:机器学习必备的数学基础.
  • 张瑞钰, 2021, 知乎热议:纠结-计量经济、时间序列和机器学习.
  • 张逸林, 2025, 异质性分析的新视角:政策效应分解.
  • 李俊奇, 2025, Python-EconML包:快速上手动态双重机器学习.
  • 李占领, 2020, Semantic scholar:一款基于机器学习的学术搜索引擎.
  • 李梦玉, 2025, DML-CER:使用双重机器学习克服面板数据中的不可观测异质性.
  • 李金桐, 2023, 因果推断:双重机器学习-ddml.
  • 李长生, 2025, EconML:因果机器学习的实现流程.
  • 樊嘉诚, 2021, Stata:机器学习分类器大全.
  • 浦进博, 2024, 合成控制法最新进展!机器学习+SCM!-qcm.
  • 王卓, 2023, Python:从随机实验到双重机器学习.
  • 王烨文, 2025, 新书免费读:CausalMLBook-因果机器学习.
  • 田原, 2020, 支持向量机:Stata 和 Python 实现.
  • 米书颖, 2024, 机器学习:大佬建议的标准动作.
  • 罗宇恒, 2025, 美国生命末期健康照护预测建模.
  • 董洁妙, 2022, Stata:双重机器学习-多维聚类标准误的估计方法-crhdreg.
  • 赵俊, 2025, 静态面板数据下的双重机器学习模型(上)—— 理论基础.
  • 赵俊, 2025, 静态面板数据下的双重机器学习模型(下)——R代码实操.
  • 赵莹, 2022, 知乎热议:机器学习在经济学的应用前景.
  • 连享会, 2021, Stata-Python交互-7:在Stata中实现机器学习-支持向量机.
  • 连享会, 2023, 文本分析:从文本到论文.
  • 连享会, 2024, 连享会公开课:经济学中的机器学习——7月3日-免费参与.
  • 连小白, 2025, Kaggle-数据科学平台:找数据、搜代码一网打尽.
  • 连小白, 2025, Python常用包盘点:经济与金融领域的必备工具包.
  • 马丁, 刘梦真, 2021, 机器学习:随机森林算法的Stata实现.

🍓 课程推荐:连享会:2025 文本分析专题
嘉宾:陈婷,香港浸会大学
时间:2025 年 11.22, 11.29, 12.6 日
咨询:王老师 18903405450(微信)


连享会微信小店上线啦!

Note:扫一扫进入“连享会微信小店”,你想学的课程在这里······

尊敬的老师 / 亲爱的同学们:

连享会致力于不断优化和丰富课程内容,为了更精准地满足您的学习需求,我们诚挚地邀请您参与到我们的课程规划中来。请您在下面的问卷中,分享您感兴趣的学习主题或您希望深入了解的知识领域 。感谢您抽出宝贵时间,与我们共同塑造更加精彩的学习旅程!https://www.wjx.cn/vm/YgPfdsJ.aspx# 再次感谢大家宝贵的意见!

New! Stata 搜索神器:lianxh 和 songblGIF 动图介绍
搜: 推文、数据分享、期刊论文、重现代码 ……
👉 安装:
. ssc install lianxh
. ssc install songbl
👉  使用:
. lianxh DID 倍分法
. songbl all

🍏 关于我们

  • 连享会 (  www.lianxh.cn,推文列表) 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 直通车: 👉【百度一下:连享会】即可直达连享会主页。亦可进一步添加 「知乎」,「b 站」,「面板数据」,「公开课」 等关键词细化搜索。

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/189850