社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

《利用大数据和机器学习识别并预测影响乌克兰战争的因素》2023最新75页论文

专知智能防务 • 1 年前 • 252 次点击  
军事分析人员可利用公开数据库深入了解相关国际事件的发展。然而,这些数据库依赖于以英语为基础、经过整理的资料来源。这可能会导致偏差,不利于分析质量,尤其是在关注英语不是主要语言的地区和行动者时更是如此。
本研究旨在利用全球事件、语言和语调数据库(GDELT)数据集来预测影响乌克兰战争的重要因素,并将使用提取的数据和机器学习技术来开发预测模型。该项目旨在实现两个目标。首先,提供一种从大数据集合中自动提取和预处理相关事件数据的方法。其次,将不同的机器学习模型应用于提取的数据,以预测重要因素,从而识别持续冲突中的事件趋势。
所展示的数据采购可自由扩展到不同地区、行为体或其组合。在应用程序接口(API)中配置所需的参数后,相关的 GDELT 事件将自动提取。
由于本论文的重点在于预测,因此建模技术的应用侧重于时间序列和递归神经网络(RNN)模型。在测试过的时间序列预测模型中,自回归综合移动平均(ARIMA)模型与其他候选模型和天真模型相比,显示出良好的预测性能。应用时间序列模型预测一至三个月的中期趋势取得了最佳结果。
为了补充时间序列模型并利用 GDELT 的短期更新间隔,我们建立了不同类型的 RNN,并测试了它们在事件数量短期预测方面的性能。简单 RNN 与长短期记忆 (LSTM) RNN 进行了比较,结果发现,简单 RNN 的性能不如 LSTM RNN 模型。由此得出的结论是,数据中确实存在影响模型预测能力的长期和短期效应。
除了最初的跨语言 GDELT 数据库,RNN 模型还运行了仅基于英语来源的 GDELT 数据提取,以及来自武装冲突地点和事件数据项目(ACLED)数据库的数据提取。
总体而言,在几乎所有测试的模型中,使用基于英语来源的数据集都能获得更好的均方根误差值。不过,这并不一定意味着模型在捕捉现实生活中的变化方面表现更好。一项补充性探索数据分析(EDA)得出结论,在以英语为基础的报告中,一系列事件的代表性不足。这一点在乌克兰战争前奏期间尤为明显,因为西方公众对该地区的兴趣和英语报道的一致性有时会降温。事件报道不足导致数据的可变性较低,一致性较高,从而提高了基于英语模式的绩效指标。
关于 RNN 模型在 ACLED 数据库中的性能,除了 "爆炸/远程暴力 "和 "战斗 "这两种事件类型外,本研究选择的模型无法应用于 ACLED 数据提取。造成兼容性低的原因是报告事件的数量较少,以及报告中的空白与所选模型的相关性不高。
不同数据源之间的性能比较表明,要持续产生可靠的结果,挑选合适的预测因子和对结果进行初步分析并不容易实现自动化。强烈建议每次从 GDELT 首次提取新型数据子集时都进行一次 EDA。
图 3.1. GDELT 事件数据库中一个数据元素的示意图。矩形代表中心数据元素,即事件。圆圈代表属性,属性 "GlobalEventID "用作唯一标识符。提及和音调 "属性是灰色的,因为它不属于本工作的范围。
专知便捷查看

便捷下载,请关注专知智能防务公众号(点击上方关注)

  • 公众号 回复 GDE” 就可以获取《《利用大数据和机器学习识别并预测影响乌克兰战争的因素》2023最新75页论文》专知下载链接


  • 欢迎微信扫一扫加专知助手,咨询使用专知,定制服务合作


专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取70000+AI(AI与军事、医药、公安等)主题干货知识资料!

点击“阅读原文”,了解使用专知,查看获取100000+AI主题知识资料

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/162370
 
252 次点击