复杂性与可解释性的平衡：用深度学习创建领域专用词典|Political Analysis

编者荐语：该研究创新性地提出了一种平衡模型复杂性与可解释性的深度学习框架，通过深度神经网络与敏感性分析技术，自动生成面向特定领域的客观词典。以冲突强度预测为案例进行分析。其方法论价值在于：为领域专用NLP工具开发提供了可复现的范式，研究者仅需目标变量与文本语料即可快速构建高性能词典。其技术路径可拓展至政治传播、舆情分析等领域，为跨学科研究提供了兼顾严谨性与实用性的新型分析工具。

引入一种可解释的深度学习方法来创建领域专用词典：以冲突预测为例

摘要:

自然语言处理（NLP）方法的最新进展显著提升了其性能。然而，更复杂的NLP模型往往更难解释且计算成本高昂。为此，我们提出了一种词典创建方法，在复杂性和可解释性之间取得平衡。该方法结合了深度神经网络架构与模型可解释性提升技术，自动构建领域专用词典。作为示例应用，我们创建了一个能从文本数据推断冲突强度的客观词典。神经网络训练数据来自14,000余份2003至2021年间国际危机组织（ICG）专家撰写的《危机观察》报告，并与冲突事件数据匹配。通过敏感性分析从神经网络提取加权词汇构建词典。评估结果显示，该方法在保持可解释性的同时，其性能优于最先进的深度学习语言模型、文本缩放方法以及标准非专业词典和冲突事件词典方法。

作者简介:

Sonja Häffner 慕尼黑联邦国防大学危机早期预警中心

Martin Hofer 慕尼黑联邦国防大学危机早期预警中心

Maximilian Nagl 雷根斯堡大学统计与风险管理系

Julian Walterskirchen 慕尼黑联邦国防大学危机早期预警中心

编译来源:

Häffner, S., Hofer, M., Nagl, M., & Walterskirchen, J. (2023). Introducing an Interpretable Deep Learning Approach to Domain-Specific Dictionary Creation: A Use Case for Conflict Prediction. Political Analysis, 31(4), 481–499.

本文作者之一：Sonja Häffner

一、引言

利用自然语言处理（NLP）技术从文本语料库提取信息已在多个科学领域广泛应用。NLP技术已从词典等静态文本表示法，发展为词嵌入和Transformer模型等先进方法。然而，应用NLP方法从文本源提取有效信息并非易事——尽管方法激增，其复杂度和计算成本也日益增加（参见Sharir、Peleg和Shoham 2020）。现代NLP方法多需大量训练数据，这些数据不仅获取成本高，且常属专有资源，降低了可及性并阻碍研究复现。此外，其计算需求往往难以满足，这既因所需语料规模庞大，也因NLP技术需对文本数据进行复杂计算密集型转换。更重要的是，许多NLP方法固有的复杂性导致可解释性和透明度问题。虽然这是现代机器学习方法的普遍问题，但最先进的NLP方法（如Transformer模型）尤其难以解释（参见van Aken et al.2019）。

为此，我们提出一种深度学习方法来创建领域专用的客观词典。该方法不仅能缓解现代复杂NLP技术带来的问题，还改进了传统及自动化的词典构建方法。通过采用Horel等学者(2018)提出的技术，我们特别强调可解释性，消除了大部分人工标注与编码成本，生成数据驱动的词典。该方法计算成本更低、更易实施、所需语料规模更小，且能适配政治学之外的其他研究领域，同时确保透明度和可复现性。最终使研究者能够基于特定领域语料库，构建可预测任何目标概念的客观词典。

鉴于文本数据方法在缓解数据获取难题方面展现潜力，冲突研究领域成为理想的测试案例(参见Gleditsch 2020)。由于冲突过程的复杂性，学者长期难以有效建模核心要素，细粒度数据获取仍具挑战性(de Coning 2020; Weidmann与Ward 2010)。因此我们开发了可从文本数据推断冲突强度的词典。采用乌普萨拉冲突数据计划地理参照事件数据集(UCDP GED)的月度死亡人数(自然对数)作为冲突强度指标(Davies、Pettersson与Öberg 2022; Sundberg与Melander 2013)。文本源来自2003-2021年间约14,000份国际危机组织(ICG)专家撰写的《危机观察》报告。

我们评估比较了本方法与三种主流NLP方法的性能。首先对照两种通用词典(Harvard IV-4情感词典[Dunphy 1974; Stone、Dunphy与Smith 1966]和Hutto与Gilbert(2014)的社交媒体情感词典)及一个冲突事件编码词典(Norris、Schrodt and Beieler 2017)。其次对比两种常用文档缩放技术：Wordscores(Laver、Benoit and Garry 2003)和Wordfish(Lo、Proksch and Slapin 2016)。最后，鉴于Transformer架构被视为当前NLP最先进技术(参见Widmann and Wich 2022)，我们将词典性能与新发布的ConfliBERT模型(Hu等学者2022)进行对比。通过考察冲突趋势的时间对齐度及目标变量的相关性来评估性能，同时检验各方法解决文本回归任务的准确度。

研究发现，我们的方法能有效构建准确捕捉冲突强度时序变化的词典。结果表明，在降低计算成本与人工建典成本的同时，本方法在文本回归任务中持续优于基准模型。这些发现表明，该方法可为冲突研究内外领域特定的文本分析提供成功范式。因此，本文贡献具有双重性：主要贡献在于提出创新的领域专用客观词典生成方法；次要贡献是开发了能精准从文本推断冲突强度的词典。

二、相关研究

2.1 词典构建技术进展

尽管词典方法的使用有所减少——这归因于人工构建和维护的高成本以及更复杂模型带来的精度提升——研究人员仍试图利用现代机器学习技术来降低这些成本并提升性能。大多数方法旨在改进情感分析，通过扩展现有词典使其更精准适配特定任务。Jha等人（2018）通过在不同领域的标注与非标注文本数据上训练模型，构建了新型情感词典，从而能基于源领域语料库的学习信息识别目标语料库中的情感词。Sood、Gera and Kaur（2022）展示了如何利用在标注文本文档上训练的不同算法（朴素贝叶斯、随机梯度下降、Lasso和岭回归）来构建和扩展领域专用词典。类似地，Lee、Kim and Song（2021）采用基于人工标注产品评论语料训练的Lasso回归构建词典。Carta等人（2020, 2021）通过将公司业绩权重分配给财经新闻词汇，构建了用于股市预测的领域词典，并作为决策树特征评估企业未来表现。Palmer、Roeder and Muntermann（2021）则通过建立词汇与股票收益的线性回归来分配词极性，构建领域词典。De Vries（2022）沿用Rheault等人（2016）的方法，结合种子词典与词嵌入模型自动识别新增词汇及其情感倾向，证明该方法较其他词典有显著改进。Widmann and Wich（2022）应用词嵌入模型与人工编码扩展德语情感词典，发现Transformer模型优于其他方法。Li等人（2021）同样基于种子词构建领域词典，但融合了词典与语料库的种子词，并利用深度神经网络训练情感分类器为词表分配正负情感。这些方法仍主要依赖现有标注数据、人工创建种子词或简单加权机制。因此，我们提出结合深度学习优势与模型可解释性技术的自动词典构建方法。

2.2 文本数据在冲突研究中的应用

自然语言处理技术长期在冲突研究中扮演重要角色，其早期应用即旨在改进数据收集工作。基于McClelland（1971）的WEIS和Azar（1980）的COPDAB等政治事件数据采集开创性研究，学者们开发了词典与规则系统来自动从新闻中提取事件。堪萨斯事件数据系统就是此类先驱尝试（Schrodt 2008），它依赖WEIS编码作为词典基础，从英文新闻中提取中东、巴尔干和西非地区事件。集成事件分析数据在WEIS框架上扩展，增加了更精细的事件类型与非国家行为体（Bond et al. 2003）。这些方法持续演进，催生了CAMEO（Schrodt et al. 2012）、TABARI和PLOVER等事件词典，应用于PETRARCH、GDELT和ICEWS等事件提取系统（参见Leetaru and Schrodt 2013；Norriset al. 2017；Shilliday and Lautenschlager 2012）。然而尽管这些基于词典的方法有助于事件提取，它们高度依赖人工维护、更新和扩展。此外，虽有人建议用这些词典分类冲突或合作关系（Goldstein 1992），但其设计初衷并非为此。

研究者们还尝试运用其他自然语言处理方法来深化对冲突过程的理解。沙德福（Chadefaux，2014）成功将NLP技术应用于海量新闻文章分析，显著提升了国家间与国内战争预测的准确度。穆勒与劳赫（Mueller and Rauh，2018，2022,a,b）证实，通过主题建模从新闻文章中提取特征能有效增强冲突预测模型。类似地，布萨利斯等人（Boussalis et al.，2022年）对法国外交电文进行主题建模以预测法国的国际冲突。情感分析技术亦被引入该领域，如渡边（Watanabe，2020）采用半监督潜在语义标度法，实现了对新闻文章经济倾向性的分类。特鲁博维茨与渡边（Trubowitz and Watanabe，2021）运用类似方法，通过《纽约时报》新闻摘要自动识别美国与他国关系的敌对或友好程度。格林与卢卡斯（Greene and Lucas，2020）利用标准情感词典揭示非国家武装组织间关系，成功基于真主党发布的文件识别其与其他武装组织的敌对或同盟关系。麦克奈尔与弗兰克（Macnair and Frank，2018）则聚焦"伊斯兰国"宣传杂志的语调演变，包括其对其他非国家武装组织的敌意语言强度。

这些研究作出了宝贵贡献，推动了将文本作为冲突过程数据的研究进展。然而，目前仍缺乏一种简便方法能让研究者根据需求定制专属NLP工具。为此，我们提出创建领域专用词典的新方案，旨在改进现有方法。第3节将详细阐述其设计理念。

三、构建客观词典进阶方法

我们提出一套方法论，使研究者能为特定研究领域构建专用词典。为验证其效用，我们开发了"客观冲突词典（OCoDi）"，该词典可从文本数据推断冲突强度，旨在示范如何以透明且计算敏感的方式构建此类词典。

相较于传统词典构建方法，本方案最大优势在于利用深度神经网络提取与冲突强度相关的词汇表。核心思路是：基于ICG危机观察报告语料库训练神经网络，并将每篇文本与UCDP GED数据库（Davies et al. 2022; Sundberg and Melander 2013）记录的该国月度死亡人数关联。通过霍雷尔等人（Horel et al.，2018年）提出的特征重要性分析，可从训练好的网络中提取与冲突动态不同关联强度的词汇。这些特征重要性分数不仅能区分"正向"与"负向"词汇，还可量化每个词与冲突死亡人数的关联强度，从而构建出既规避人工标注主观性、又能衡量关联差异的"客观"词典。该建模方案在语言表征复杂度与可解释性间取得平衡：深度神经网络能相对复杂地表征文本数据，结合敏感性分析提取词典特征则增强了可解释性。此技术具有多重优势：首先，基于实际冲突动态训练网络，既减少人工标记的主观性，又使词汇与目标概念直接关联；其次，能发现那些与冲突趋势稳定相关、但可能被领域专家忽略的反直觉词汇；再者，不同于情感分析，许多词汇本身并不携带固有冲突倾向；第三，通过量化词汇对模型结果的影响力差异，避免简单二分法或任意加权，实现更精细的词典构建；最后，该方法具有高度灵活性，研究者无需经历繁琐的Transformer/BERT模型微调过程（Devlin et al.，2018年）即可精准定制所需词典。

图1. 我们先进词典构建方法的流程示意图

图1展示了构建客观词典所需全部步骤的框架。我们确信该方法可作为其他领域应用的蓝本——其计算成本低廉，且能以透明方式快速创建领域专用词典。

基于这些优势，我们预期本方法在准确性上优于通用词典，与文本缩放方法或Transformer模型等复杂方案表现相当，同时更具资源效率。后续章节将直观阐述词典构建过程，并评估其相较其他方法的性能。

四、构建冲突词典

我们的目标是构建一个结合深度前馈神经网络学习能力与模型可解释性的词典。一方面要建立能学习政治暴力特征与目标间高度复杂、可能非线性关系的模型，另一方面力求模型兼具可解释性与低计算成本。本节将介绍数据集、客观词典构建方法及评估流程。

图2. 主要数据源分布。

4.1 数据

词典核心数据源是英文冲突报告语料库，基于ICG危机观察报告。ICG拥有庞大专家团队，定期编制全球70多起危机的评估与展望。截至2021年底，该机构自2003年起累计发布14,000余份月度冲突报告。这些公开报告是各国政策制定者的重要工具，聚焦冲突环境的态势演变。如图2a所示，报告数量保持稳定。目标变量采用记录单事件死亡人数的UCDP GED数据库（Davies et al. 2022；Sundberg and Melander 2013）。我们将其按国家-月份聚合（与危机报告周期一致）并进行自然对数转换。如图2b所示，即便剔除零死亡月份（占绝大多数），数据仍呈现右偏分布——这是冲突数据的典型特征。

4.2 文本数据上的深度神经网络训练

我们训练深度前馈神经网络，使用危机观察文本语料预测国家-月份层面的死亡人数对数。文本转化为文档-词项矩阵（行对应文档，列对应词汇）。特征空间缩减至最高频3000词及前1000双词组合。文本预处理采用标准NLP流程，关键是通过排除地域（国家、地区等）、地标（山河名称）及人名相关词汇，确保词典的时序普适性。因此词典并非简单记忆国家与冲突的关联，而是识别多元模式。预处理步骤与文档-词项矩阵细节见补充材料。

图3. 神经网络架构。

数据集划分为训练集（2003至2020年所有观测值）和测试集（2021年）。训练集进一步分为真实训练集（2003至2020上半年）和验证集（2020下半年）。如图3所示，该神经网络最终架构包含64个输入神经元和1个输出神经元，后者输出国家-月份层面的预测对数死亡人数。输入层与输出层通过两个隐藏层连接，其间采用Swish激活函数。最终激活函数采用ReLu，确保预测对数死亡数为严格正值。我们使用1,024的批量大小和2,000个训练周期。神经网络训练采用自适应矩估计（Adam）优化算法，该算法融合了两种随机梯度下降优化器变体（AdaGrad和RMSProp）的优势（Kingma and Ba 2017）。

机器学习的核心任务是构建具有良好泛化能力的模型，即模型需在未见数据上表现优异。为防止过拟合，我们实施了核正则化、 dropout率和早停策略。这些技术及神经网络本身涉及需预先指定的超参数。直觉上，最佳神经网络应生成最优词典，但由于权重初始化的随机性，网络性能存在波动。Goodfellow、Bengio和Courville（2016）指出，带来良好优化的权重初始化未必保证泛化能力。因此，为获得高泛化性能的网络，我们将词典规模纳入超参数搜索。具体实施中，我们采用200组随机超参数组合进行搜索：对每组参数训练10个神经网络，提取特征重要性分数，按公式(2)聚合后构建预测对数死亡数的随机森林模型，最终选择生成最佳词典的网络配置作为"最优"神经网络。

神经网络优化的超参数包括学习率、隐藏层数量、每层神经元数量、dropout率以及正则化的lambda参数。dropout作为正则化手段，使得网络同时应用和正则化。当前虽无通用框架指导超参数空间选择，但学界公认随机梯度下降算法中学习率最为关键（参见Bengio 2012；Goodfellow et al.2016）。典型学习率取值范围为至，因此我们将搜索空间限定在到之间。神经元数量遵循2的幂次方传统配置（如32-16-8-4-2格式），测试1至4倍该配置。隐藏层数量限制在0至3层。正则化参数搜索空间为：dropout率0.10-0.40，正则化-。最终确定的"理想"参数为：学习率0.0196；隐藏层2层；dropout率0.3157；lambda值0.0046；神经元数量分别为输入层64、隐藏层32和16、输出层1。

在完成每个神经网络的训练后，会计算特征重要性分数，随后将这些分数用于测试所生成词典在随机森林模型中的性能表现。特征重要性分数有助于区分重要词汇与非重要词汇，进而决定词语是否入选词典。下文将介绍特征重要性的概念及所采用的计算方法。

4.3 加权词典词汇提取

根据Horel等人(2018)的研究，敏感性分析是评估神经网络预测效果的特别适用方法。该方法直观易懂、计算成本低，能提供两种模型解释（局部与全局），且可应用于多种不同的神经网络架构.下文将介绍全局聚合层级及形式化表示方法：

输入特征的重要性通过以下方式测量：将神经网络输出的导数进行平方处理以避免正负值相互抵消。需注意，用于训练神经网络的第个样本的输入特征向量由表示。这些导数在所有训练观测值上取平均值，其中代表训练样本数量。虽然本文未使用归一化因子，但也可对特征重要性值进行归一化处理使。该数值输入特征数量由表示。当使用归一化因子时，特征重要性分数的大小取决于。若值较大，所得数值通常极小且趋近于零。为区分与目标变量正（负）相关的特征，我们采用指示函数Dir，当平均梯度为正或负时，分别将梯度总和乘以1或-1。因此正值表示与目标变量正相关，反之亦然。未使用归一化因子时，特征重要性分数无界值限制，在本研究中范围约为-2.5至2.5。运用此全局特征重要性度量标准可区分重要与非重要特征。较大（绝对值）特征重要性值意味着该变量对模型输出灵敏度贡献显著，而接近零的值则表明模型输出对该特征变化不敏感。

根据该敏感性分析结果，选取最具正向与负向特征的词汇构成相应词典。此步骤获得的特征重要性分数随后用于基于词汇"正向性"或"负向性"进行加权处理。生成的词典用于构建每份文档的冲突强度指数，该指数将用于如下所述的评估流程。

4.4 评估流程

评估流程包括将本词典的评分与自然语言处理任务中常用的多种技术进行对比。为证明深度神经网络相较于简单方法的性能提升，我们还构建了基于Lasso回归模型的词典并进行性能比较。除使用目标词典(OCoDi)计算每份文档的冲突强度指数外，我们还基于两种主流情感词典（哈佛IV-4词典[HGI4]和情感感知词典[Vader]）计算文档情感分值。同时采用配备CAMEO冲突事件词典和TABARI事件提取词典的PETRARCH2系统分析文本，并运用CAMEO冲突-合作量表对文本评分(Goldstein 1992)。随后运用两种文档量化技术从评估语料推断相对文档位置，并对CrisisWatch报告进行ConfliBERT模型微调后直接预测测试数据中的伤亡人数。上述所有评分均按国家-月份层级计算，并与UCDP GED数据库的月度伤亡汇总数据匹配。除ConfliBERT评分外，这些指标均作为多个伤亡预测机器学习模型的输入数据。我们采用随机森林和极限梯度提升(XGBoost)模型，并通过50组参数组合的随机搜索优化超参数：随机森林考虑树数量(600-1500)和最大深度(7-15)；XGBoost调整学习率(0.05/0.1/0.20)、提升阶段数(100/400/800)、最大深度(3/6/9)及子节点最小实例权重(1/10/100)。各模型最优超参数详见补充材料。

我们运用上述方法为每份文本文档计算分值。OCoDi的分值反映报告中被深度神经网络识别为与伤亡程度相关词汇的出现情况。计算方法涵盖从简单统计词典词频到复杂加权方案。由于词典包含特征重要性评分，我们据此计算加权冲突强度指数：

按公式(2)构建评分时需考虑文档长度。较长文本可能包含更多词汇，会导致不同评分间比较困难。图4展示原始版CrisisWatch报告，图5呈现预处理后的阿富汗案例。图5中我们为OCoDi中包含的每个词汇分配了基于特征重要性的权重，并展示了如何应用公式(2)计算文档级OCoDi分数。在图5中，与较低伤亡水平相关的字典词汇标为蓝色，较高水平标为红色，二元词组以下划线标示。

对于其他自然语言处理对比方法，在适用情况下，我们还计算了经文档长度调整的简单词频计数（未加权分数），并将OCoDi与其他词典的性能进行对比以获得更直观的比较结果。

图4. 2003年9月阿富汗未处理的CrisisWatch报告。来源：https://www.crisisgroup.org/crisiswatch

图5. 经过预处理的CrisisWatch报告，其中字典词汇及其分数已高亮显示。

五、研究结果

本节将讨论最终生成的词典及其与其他自然语言处理方法相比的表现。为直观展示词汇与特征重要性评分的对应关系，表1概述了我们词典中与较多（正分数）和较少（负分数）伤亡相关的顶级词汇。该词典共包含1,100个词汇。这部分示例词汇中，有些结果符合直觉认知，而另一些则不然。但如前所述，我们并不预期这里仅出现直观词汇，反而认为我们的方法能识别通常不会被选中的标记词是其优势所在。

表1. 基于国际危机组织报告特征重要性的前10个最正面（更多伤亡）与最负面（更少伤亡）术语。

图6. 所有词语特征重要性得分的分布情况。

如图6所示，所有词语的特征重要性得分基本符合正态分布，这与我们计算得分的预期方法一致。值得注意的是，得分在0附近的词语较少，表明相较于标准正态分布，我们的网络将较少词语归类为"中性"或轻微"积极/消极"。但这不影响其有效性。目前词典产出结果符合预期。为评估其捕捉冲突趋势的准确度，我们将检验各方法随时间推移与冲突死亡人数的关联性。

为此我们计算了各得分与年度汇总实际死亡人数的差异。为使数据可比，死亡人数与得分均经过标准化处理。图7显示我们的词典(OCoDi)与其他方法的趋势对比。图中线条偏离0值越远，说明该方法与实际死亡人数的吻合度越低。可见我们的方法基本贴近PA 0基线，表明其捕捉冲突动态趋势的能力优于传统方法。与其他测量结果的显著差异凸显了通用方法在不同场景中验证的重要性(Bruinsma和Gemenis 2019)。Con-fliBERT在图中表现同样出色，但类似OCoDi，其趋势线随时间逐渐偏离0值。

图7. 不同得分与死亡人数的对比

虽然时间趋势的直观对比能反映高度汇总时的方法表现，但我们更关注其在细颗粒度下的表现。为此我们还计算了各方法与目标变量的相关系数。

图8显示OCoDi与结果变量高度相关。OCoDi与对数死亡人数的关联强度位列第二，仅略低于ConfliBERT。值得注意的是，OCoDi/ConfliBERT模型与死亡人数呈预期正向强相关，而Vader、HGI4和CAMEO则呈现较低负相关。Wordscores相关性尚可，Wordfish则接近零相关。所有针对冲突强度专项训练的方法表现均优于通用方法或无监督学习。ConfliBERT与OCoDi显著优于Wordscores。为深入评估方法性能，我们还测试了其在文本回归任务中的准确度。为此我们训练了系列简单随机森林(Ho 1995)和XGBoost(Chen和Guestrin 2016)模型，仅采用各方法的文档得分作为预测因子。通过均方误差(MSE)和评估模型表现——MSE反映预测值与真实值的平均偏差，则显示变量对预测的贡献度。我们还训练了基于ICG报告微调的ConfliBERT(Hu et al.2022)模型，该模型可直接预测测试数据的死亡人数。相较于通过文档得分构建随机森林或XGBoost模型，我们直接采用ConfliBERT模型进行预测。因此ConfliBERT模型仅报告一组性能指标。

图8. 死亡人数与各得分的相关性图示

在展示评估过程的最终结果前，我们想将词典的性能与用于创建该词典的神经网络结果进行对比。最佳神经网络（在我们总共评估的10个神经网络中）的达到0.65，而词典的为0.64（随机森林）和0.63（XGBoost）。但神经网络的平均性能与我们的词典非常接近为0.64）。部分神经网络的预测准确度甚至显著低于其他网络（低于0.63）。这与Goodfellow等人（2016）的观点一致，他们认为导致良好优化的权重初始化并不总能转化为优秀的泛化能力。因此我们认为，相较于直接使用神经网络，采用词典方法是合理的，因为其结果更稳定且性能没有下降。

如表2所示，我们基于特征重要性的词典方法在随机森林和XGBoost模型中均优于其他所有方法。最佳表现方法已用粗体标出。值得注意的是，在词典创建过程中使用神经网络是合理的，因为通过Lasso回归模型创建的词典性能不如我们的方法。Lasso词典的结果详见补充材料。在比较未加权的特征重要性分数时，我们的词典同样优于其他词典。该对比结果可在补充材料中查阅。这些结果非常鼓舞人心，尤其是相对较高的值，表明我们的模型确实学习了可用于文本回归任务的合理信息量，而其他方法（除ConfliBERT外）的数值都显著较低。此外，虽然MSE值较高（说明冲突预测仍是艰巨任务），但OCoDi和ConfliBERT在两个模型规格中的MSE都明显低于其他方法。ConfliBERT的良好表现再次印证了使用领域特定NLP工具的重要性。尽管我们的方法表现更优，但这些结果令人印象深刻——特别是考虑到ConfliBERT并未针对该特定任务进行预训练。需要说明的是，确实可能为负值（如Wordfish），因为除了名称本身外，没有任何因素阻止出现负值。随机森林和XGBoost的计算公式表明，其中SSR指选定模型的残差平方和，SST指均值模型的总平方和。若SSR大于SST，则为负值。这种情况出现在比拟合常数（均值模型）更差的模型中。

表2. 使用不同方法预测死亡人数的结果

最后，鉴于目标变量的偏态分布，我们还研究了样本外点预测值与实际观测值的对比情况（观测值 - 预测值差异）。如图9所示，基于我们方法的预测似乎高估了部分低伤亡观测值（负差异值），而对实际伤亡较高的观测值则呈现递增性低估（正差异值）。

总体而言，根据上述结果可以得出结论：我们的模型在所有参数设定下都表现良好。此外，我们的方法在未见测试数据上优于其他所有方法。结果还凸显了若干重要发现：首先，即便与更复杂的方法相比，我们的方法仍能产生具有竞争力的结果。虽然不应仅凭文本数据就期望达到极高准确度，但它可以作为一个可行的补充指标，既能以高时间分辨率获取，也能在更高聚合层级上应用。其次，如所有模型均呈现较高均方误差所示，冲突预测仍是艰巨任务。这并不令人意外，因为冲突预测模型（特别是回归任务）的精度往往仍不尽如人意（Vesco et al.，2022）。第三，我们的方法为冲突研究中的文本分析提供了高效解决方案。与复杂Transformer模型相比，我们的方法降低了计算成本，同时更好地捕捉实际冲突动态。在本文的文本回归任务中，我们的词典也优于其他词典、文本缩放及基于Transformer的方法。这进一步印证了使用领域专用工具的重要性。最后，鉴于本方法的灵活性，值得在冲突研究领域内外针对不同目标变量进行测试。

图9. 观测值与差异值对比（按伤亡数排序），随机森林模型。

六、结论

鉴于示范性词典在冲突研究领域的成功，将本方法生成的特征补充至现有冲突预测模型中，可能提升预测准确度，值得探索。自然语言处理方法的近期进展取得了瞩目的成果。Transformer模型尤其展现出对复杂语言模式的强大建模能力。尽管这些改进在许多研究领域广受欢迎，但它们也存在固有局限：现代NLP方法需要海量文本数据和复杂IT基础设施，且因其依赖底层数据的复杂表征而日益难以解释。

为缓解这些问题，我们提出了一种权衡性能与可解释性的领域专用文本分析方法。通过结合深度学习与可解释性增强技术来构建客观词典，并以冲突强度推断为应用案例：基于2003-2021年间约14,000份ICG危机观察专家报告训练深度神经网络，并以UCDP GED数据库提供的死亡人数（自然对数）作为目标变量，使词典更紧密关联实际冲突强度。该方法消除了人工标注或选词需求，降低了词典主观性。通过Horel等（2018）提出的特征重要性度量（敏感性分析）提取与伤亡水平相关的词汇，这种低成本分析增强了神经网络结果的可解释性。实验表明，该词典能有效测量冲突强度时序趋势，在随机森林和XGBoost模型的死亡人数预测任务中，其表现始终优于通用词典、冲突事件编码词典、文本缩放方法甚至BERT模型，同时显著降低计算成本。

总体而言，我们的方法相比现有方案展现出一系列优势。首先，该方法能轻松适配不同目标变量与文本语料库，为研究者提供高度灵活性以满足特定需求。这确保了生成的词典能更精准捕捉目标概念——不同于依赖主观判断词语是否隐含相关概念，基于深度神经网络的方法能保证提取的词汇直接关联可量化的结果变量。其次，该方法生成的词表具有极高透明度（尤其相较于BERT模型），便于研究者完整验证、评估、复用及复现。最后，该方法计算成本低廉且在文本回归任务中表现优异，所需算力远低于前沿的Transformer模型，也无需耗费精力手动构建词典。基于这些结果，我们确信该方法能为未来研究者分析领域特定文本数据提供成功范式。

当然，本方法仍有若干改进空间：最重要的是在更庞大多元的语料库上构建词典，并通过跨语料测试评估其泛化能力（例如将词典应用于更广泛的冲突新闻语料）。系统评估神经网络替代模型（如岭回归或LSTM）在不同研究领域的词典构建效果也颇具价值。针对更多目标变量进行测试可能催生有趣的应用案例，因为单纯使用死亡人数虽简单直接，但未必是最佳或唯一的目标变量操作化方式。

编译 | 王杰

审核 | 蒋文臣

©计算国关理论志

本文内容仅供参考，不代表理论志观点

“在看”给我一朵小黄花