Häffner, S., Hofer, M., Nagl, M., & Walterskirchen, J. (2023). Introducing an Interpretable Deep Learning Approach to Domain-Specific Dictionary Creation: A Use Case for Conflict Prediction. Political Analysis, 31(4), 481–499.
本文作者之一:Sonja Häffner
一、引言
利用自然语言处理(NLP)技术从文本语料库提取信息已在多个科学领域广泛应用。NLP技术已从词典等静态文本表示法,发展为词嵌入和Transformer模型等先进方法。然而,应用NLP方法从文本源提取有效信息并非易事——尽管方法激增,其复杂度和计算成本也日益增加(参见Sharir、Peleg和Shoham 2020)。现代NLP方法多需大量训练数据,这些数据不仅获取成本高,且常属专有资源,降低了可及性并阻碍研究复现。此外,其计算需求往往难以满足,这既因所需语料规模庞大,也因NLP技术需对文本数据进行复杂计算密集型转换。更重要的是,许多NLP方法固有的复杂性导致可解释性和透明度问题。虽然这是现代机器学习方法的普遍问题,但最先进的NLP方法(如Transformer模型)尤其难以解释(参见van Aken et al.2019)。
我们评估比较了本方法与三种主流NLP方法的性能。首先对照两种通用词典(Harvard IV-4情感词典[Dunphy 1974; Stone、Dunphy与Smith 1966]和Hutto与Gilbert(2014)的社交媒体情感词典)及一个冲突事件编码词典(Norris、Schrodt and Beieler 2017)。其次对比两种常用文档缩放技术:Wordscores(Laver、Benoit and Garry 2003)和Wordfish(Lo、Proksch and Slapin 2016)。最后,鉴于Transformer架构被视为当前NLP最先进技术(参见Widmann and Wich 2022),我们将词典性能与新发布的ConfliBERT模型(Hu等学者2022)进行对比。通过考察冲突趋势的时间对齐度及目标变量的相关性来评估性能,同时检验各方法解决文本回归任务的准确度。
尽管词典方法的使用有所减少——这归因于人工构建和维护的高成本以及更复杂模型带来的精度提升——研究人员仍试图利用现代机器学习技术来降低这些成本并提升性能。大多数方法旨在改进情感分析,通过扩展现有词典使其更精准适配特定任务。Jha等人(2018)通过在不同领域的标注与非标注文本数据上训练模型,构建了新型情感词典,从而能基于源领域语料库的学习信息识别目标语料库中的情感词。Sood、Gera and Kaur(2022)展示了如何利用在标注文本文档上训练的不同算法(朴素贝叶斯、随机梯度下降、Lasso和岭回归)来构建和扩展领域专用词典。类似地,Lee、Kim and Song(2021)采用基于人工标注产品评论语料训练的Lasso回归构建词典。Carta等人(2020, 2021)通过将公司业绩权重分配给财经新闻词汇,构建了用于股市预测的领域词典,并作为决策树特征评估企业未来表现。Palmer、Roeder and Muntermann(2021)则通过建立词汇与股票收益的线性回归来分配词极性,构建领域词典。De Vries(2022)沿用Rheault等人(2016)的方法,结合种子词典与词嵌入模型自动识别新增词汇及其情感倾向,证明该方法较其他词典有显著改进。Widmann and Wich(2022)应用词嵌入模型与人工编码扩展德语情感词典,发现Transformer模型优于其他方法。Li等人(2021)同样基于种子词构建领域词典,但融合了词典与语料库的种子词,并利用深度神经网络训练情感分类器为词表分配正负情感。这些方法仍主要依赖现有标注数据、人工创建种子词或简单加权机制。因此,我们提出结合深度学习优势与模型可解释性技术的自动词典构建方法。
2.2 文本数据在冲突研究中的应用
自然语言处理技术长期在冲突研究中扮演重要角色,其早期应用即旨在改进数据收集工作。基于McClelland(1971)的WEIS和Azar(1980)的COPDAB等政治事件数据采集开创性研究,学者们开发了词典与规则系统来自动从新闻中提取事件。堪萨斯事件数据系统就是此类先驱尝试(Schrodt 2008),它依赖WEIS编码作为词典基础,从英文新闻中提取中东、巴尔干和西非地区事件。集成事件分析数据在WEIS框架上扩展,增加了更精细的事件类型与非国家行为体(Bond et al. 2003)。这些方法持续演进,催生了CAMEO(Schrodt et al. 2012)、TABARI和PLOVER等事件词典,应用于PETRARCH、GDELT和ICEWS等事件提取系统(参见Leetaru and Schrodt 2013;Norriset al. 2017;Shilliday and Lautenschlager 2012)。然而尽管这些基于词典的方法有助于事件提取,它们高度依赖人工维护、更新和扩展。此外,虽有人建议用这些词典分类冲突或合作关系(Goldstein 1992),但其设计初衷并非为此。
研究者们还尝试运用其他自然语言处理方法来深化对冲突过程的理解。沙德福(Chadefaux,2014)成功将NLP技术应用于海量新闻文章分析,显著提升了国家间与国内战争预测的准确度。穆勒与劳赫(Mueller and Rauh,2018,2022,a,b)证实,通过主题建模从新闻文章中提取特征能有效增强冲突预测模型。类似地,布萨利斯等人(Boussalis et al.,2022年)对法国外交电文进行主题建模以预测法国的国际冲突。情感分析技术亦被引入该领域,如渡边(Watanabe,2020)采用半监督潜在语义标度法,实现了对新闻文章经济倾向性的分类。特鲁博维茨与渡边(Trubowitz and Watanabe,2021)运用类似方法,通过《纽约时报》新闻摘要自动识别美国与他国关系的敌对或友好程度。格林与卢卡斯(Greene and Lucas,2020)利用标准情感词典揭示非国家武装组织间关系,成功基于真主党发布的文件识别其与其他武装组织的敌对或同盟关系。麦克奈尔与弗兰克(Macnair and Frank,2018)则聚焦"伊斯兰国"宣传杂志的语调演变,包括其对其他非国家武装组织的敌意语言强度。
相较于传统词典构建方法,本方案最大优势在于利用深度神经网络提取与冲突强度相关的词汇表。核心思路是:基于ICG危机观察报告语料库训练神经网络,并将每篇文本与UCDP GED数据库(Davies et al. 2022; Sundberg and Melander 2013)记录的该国月度死亡人数关联。通过霍雷尔等人(Horel et al.,2018年)提出的特征重要性分析,可从训练好的网络中提取与冲突动态不同关联强度的词汇。这些特征重要性分数不仅能区分"正向"与"负向"词汇,还可量化每个词与冲突死亡人数的关联强度,从而构建出既规避人工标注主观性、又能衡量关联差异的"客观"词典。该建模方案在语言表征复杂度与可解释性间取得平衡:深度神经网络能相对复杂地表征文本数据,结合敏感性分析提取词典特征则增强了可解释性。此技术具有多重优势:首先,基于实际冲突动态训练网络,既减少人工标记的主观性,又使词汇与目标概念直接关联;其次,能发现那些与冲突趋势稳定相关、但可能被领域专家忽略的反直觉词汇;再者,不同于情感分析,许多词汇本身并不携带固有冲突倾向;第三,通过量化词汇对模型结果的影响力差异,避免简单二分法或任意加权,实现更精细的词典构建;最后,该方法具有高度灵活性,研究者无需经历繁琐的Transformer/BERT模型微调过程(Devlin et al.,2018年)即可精准定制所需词典。
词典核心数据源是英文冲突报告语料库,基于ICG危机观察报告。ICG拥有庞大专家团队,定期编制全球70多起危机的评估与展望。截至2021年底,该机构自2003年起累计发布14,000余份月度冲突报告。这些公开报告是各国政策制定者的重要工具,聚焦冲突环境的态势演变。如图2a所示,报告数量保持稳定。目标变量采用记录单事件死亡人数的UCDP GED数据库(Davies et al. 2022;Sundberg and Melander 2013)。我们将其按国家-月份聚合(与危机报告周期一致)并进行自然对数转换。如图2b所示,即便剔除零死亡月份(占绝大多数),数据仍呈现右偏分布——这是冲突数据的典型特征。
数据集划分为训练集(2003至2020年所有观测值)和测试集(2021年)。训练集进一步分为真实训练集(2003至2020上半年)和验证集(2020下半年)。如图3所示,该神经网络最终架构包含64个输入神经元和1个输出神经元,后者输出国家-月份层面的预测对数死亡人数。输入层与输出层通过两个隐藏层连接,其间采用Swish激活函数。最终激活函数采用ReLu,确保预测对数死亡数为严格正值。我们使用1,024的批量大小和2,000个训练周期。神经网络训练采用自适应矩估计(Adam)优化算法,该算法融合了两种随机梯度下降优化器变体(AdaGrad和RMSProp)的优势(Kingma and Ba 2017)。
神经网络优化的超参数包括学习率、隐藏层数量、每层神经元数量、dropout率以及正则化的lambda参数。dropout作为正则化手段,使得网络同时应用和正则化。当前虽无通用框架指导超参数空间选择,但学界公认随机梯度下降算法中学习率最为关键(参见Bengio 2012;Goodfellow et al.2016)。典型学习率取值范围为至,因此我们将搜索空间限定在到之间。神经元数量遵循2的幂次方传统配置(如32-16-8-4-2格式),测试1至4倍该配置。隐藏层数量限制在0至3层。正则化参数搜索空间为:dropout率0.10-0.40,正则化-。最终确定的"理想"参数为:学习率0.0196;隐藏层2层;dropout率0.3157;lambda值0.0046;神经元数量分别为输入层64、隐藏层32和16、输出层1。
图8显示OCoDi与结果变量高度相关。OCoDi与对数死亡人数的关联强度位列第二,仅略低于ConfliBERT。值得注意的是,OCoDi/ConfliBERT模型与死亡人数呈预期正向强相关,而Vader、HGI4和CAMEO则呈现较低负相关。Wordscores相关性尚可,Wordfish则接近零相关。所有针对冲突强度专项训练的方法表现均优于通用方法或无监督学习。ConfliBERT与OCoDi显著优于Wordscores。为深入评估方法性能,我们还测试了其在文本回归任务中的准确度。为此我们训练了系列简单随机森林(Ho 1995)和XGBoost(Chen和Guestrin 2016)模型,仅采用各方法的文档得分作为预测因子。通过均方误差(MSE)和评估模型表现——MSE反映预测值与真实值的平均偏差,则显示变量对预测的贡献度。我们还训练了基于ICG报告微调的ConfliBERT(Hu et al.2022)模型,该模型可直接预测测试数据的死亡人数。相较于通过文档得分构建随机森林或XGBoost模型,我们直接采用ConfliBERT模型进行预测。因此ConfliBERT模型仅报告一组性能指标。
总体而言,根据上述结果可以得出结论:我们的模型在所有参数设定下都表现良好。此外,我们的方法在未见测试数据上优于其他所有方法。结果还凸显了若干重要发现:首先,即便与更复杂的方法相比,我们的方法仍能产生具有竞争力的结果。虽然不应仅凭文本数据就期望达到极高准确度,但它可以作为一个可行的补充指标,既能以高时间分辨率获取,也能在更高聚合层级上应用。其次,如所有模型均呈现较高均方误差所示,冲突预测仍是艰巨任务。这并不令人意外,因为冲突预测模型(特别是回归任务)的精度往往仍不尽如人意(Vesco et al.,2022)。第三,我们的方法为冲突研究中的文本分析提供了高效解决方案。与复杂Transformer模型相比,我们的方法降低了计算成本,同时更好地捕捉实际冲突动态。在本文的文本回归任务中,我们的词典也优于其他词典、文本缩放及基于Transformer的方法。这进一步印证了使用领域专用工具的重要性。最后,鉴于本方法的灵活性,值得在冲突研究领域内外针对不同目标变量进行测试。