Py学习  »  机器学习算法

《利用大数据和机器学习识别并预测影响乌克兰战争的因素》75页

专知智能防务 • 1 年前 • 171 次点击  
军事分析人员可利用公开数据库深入了解相关国际事件的发展。然而,这些数据库依赖于以英语为基础、经过整理的资料来源。这可能会导致偏差,不利于分析质量,尤其是在关注英语不是主要语言的地区和行动者时更是如此。
本研究旨在利用全球事件、语言和语调数据库(GDELT)数据集来预测影响乌克兰战争的重要因素,并将使用提取的数据和机器学习技术来开发预测模型。该项目旨在实现两个目标。首先,提供一种从大数据集合中自动提取和预处理相关事件数据的方法。其次,将不同的机器学习模型应用于提取的数据,以预测重要因素,从而识别持续冲突中的事件趋势。
所展示的数据采购可自由扩展到不同地区、行为体或其组合。在应用程序接口(API)中配置所需的参数后,相关的 GDELT 事件将自动提取。
由于本论文的重点在于预测,因此建模技术的应用侧重于时间序列和递归神经网络(RNN)模型。在测试过的时间序列预测模型中,自回归综合移动平均(ARIMA)模型与其他候选模型和天真模型相比,显示出良好的预测性能。应用时间序列模型预测一至三个月的中期趋势取得了最佳结果。
为了补充时间序列模型并利用 GDELT 的短期更新间隔,我们建立了不同类型的 RNN,并测试了它们在事件数量短期预测方面的性能。简单 RNN 与长短期记忆 (LSTM) RNN 进行了比较,结果发现,简单 RNN 的性能不如 LSTM RNN 模型。由此得出的结论是,数据中确实存在影响模型预测能力的长期和短期效应。
除了最初的跨语言 GDELT 数据库,RNN 模型还运行了仅基于英语来源的 GDELT 数据提取,以及来自武装冲突地点和事件数据项目(ACLED)数据库的数据提取。
总体而言,在几乎所有测试的模型中,使用基于英语来源的数据集都能获得更好的均方根误差值。不过,这并不一定意味着模型在捕捉现实生活中的变化方面表现更好。一项补充性探索数据分析(EDA)得出结论,在以英语为基础的报告中,一系列事件的代表性不足。这一点在乌克兰战争前奏期间尤为明显,因为西方公众对该地区的兴趣和英语报道的一致性有时会降温。事件报道不足导致数据的可变性较低,一致性较高,从而提高了基于英语模式的绩效指标。
关于 RNN 模型在 ACLED 数据库中的性能,除了 "爆炸/远程暴力 "和 "战斗 "这两种事件类型外,本研究选择的模型无法应用于 ACLED 数据提取。造成兼容性低的原因是报告事件的数量较少,以及报告中的空白与所选模型的相关性不高。
不同数据源之间的性能比较表明,要持续产生可靠的结果,挑选合适的预测因子和对结果进行初步分析并不容易实现自动化。强烈建议每次从 GDELT 首次提取新型数据子集时都进行一次 EDA。
图 3.1. GDELT 事件数据库中一个数据元素的示意图。矩形代表中心数据元素,即事件。圆圈代表属性,属性 "GlobalEventID "用作唯一标识符。提及和音调 "属性是灰色的,因为它不属于本工作的范围。
专知便捷查看

便捷下载,请关注专知智能防务公众号(点击上方关注)

  • 公众号 回复 GDE” 就可以获取《《利用大数据和机器学习识别并预测影响乌克兰战争的因素》2023最新75页论文》专知下载链接


  • 欢迎微信扫一扫加专知助手,咨询使用专知,定制服务合作


专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取70000+AI(AI与军事、医药、公安等)主题干货知识资料!

点击“阅读原文”,了解使用专知,查看获取100000+AI主题知识资料

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/168751
 
171 次点击