社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

《自动机器学习在军事数据耕耘法中的应用》

专知智能防务 • 2 周前 • 64 次点击  

数据耕耘法是一种基于仿真的方法,应用于国防领域,用于分析复杂系统并为决策者提供洞见。它可以产生非常庞大的多维数据集,需要借助元建模等复杂分析工具。可解释人工智能的进展扩展了可考虑的元模型类型;然而,构建一个拟合良好的机器学习元模型涉及许多任务,这可能对分析师来说非常耗时。自动机器学习可以通过自动化元模型的训练、调优和测试来为分析师节省时间。我们利用一个军事地面防空场景的基于代理仿真输出,比较了使用自动机器学习与不同实验设计所训练的元模型的性能。我们发现,自动机器学习可以合理地自动化元模型的构建,并通过考虑多种元模型类型为分析增加了稳健性;然而,实验设计的类型和规模会显著影响元模型的性能。

国防领域内的决策者通常需要理解涉及大量不确定因素的复杂系统(Horne等人,2018年)。对这些复杂系统进行现实世界实验并非总是可行;例如,在采购过程中,为测试目的获取所有备选方案可能成本过高。在其他情况下,决策可能涉及尚未开发或部署的系统。仿真模型可以帮助分析师和决策者形成对系统的基本理解、发现稳健的选项,并比较这些选项的可能结果(Kleijnen等人,2005年)。

数据耕耘法是在国防领域内开发的一种方法,旨在通过运行大规模、高效设计的仿真实验,增进对决策者面临的多种可能性的理解(Horne等人,2018年)。它是一个协作且迭代的过程,包含五个基本组成部分:快速想定原型构建、模型开发、实验设计、高性能计算以及分析与可视化;关于数据耕耘法方法的详细信息可参见Horne等人(2014年),而对当前数据耕耘能力的最新概述可参见Sanchez(2020年)。数据耕耘过程能生成大量的多维数据,需要借助复杂的分析技术来突显有用信息、提取结论并支持决策(Horne等人,2014年)。通常,需要多种技术来充分挖掘数据价值(Horne等人,2014年;Sanchez,2020年),包括构建元模型。如Kleijnen和Sargent(2000年)所定义,“元模型是对仿真模型所蕴含的输入/输出变换的一种近似”。元模型很有用,因为它们可以促进理解(Sanchez,2020年);例如,元模型的功能形式(如低阶多项式模型)可以提供关于仿真输出如何随仿真输入变化(如以线性或非线性方式)的洞见。元模型还有助于评估哪些仿真输入是仿真输出的关键驱动因素(Sanchez,2020年)。 过去军事数据耕耘应用中常见的元模型例子包括多项式回归模型、逻辑回归模型和决策树(Kleijnen等人,2005年;Lucas等人,2007年;Kallfass和Schlaak,2012年;Sanchez和Wan,2015年;Hill等人,2019年;Kesler等人,2019年)。这些类型的模型通常被描述为可解释或白盒模型:可以研究其输入/输出关系的内部映射,进而用于推断有关被建模系统的知识(Feldkamp等人,2020年;Feldkamp,2021年)。许多机器学习模型,如深度学习或集成模型,通常被描述为黑盒模型。研究已表明它们能比白盒模型实现更高的预测精度,从而在可解释性和准确性之间产生了权衡(Lundberg和Lee,2017年)。针对这种权衡,可解释人工智能领域应运而生,催生了旨在使黑盒模型透明化的方法(Feldkamp,2021年)。XAI包含广泛的方法,一些例子包括排列特征重要性和SHAP(Feldkamp,2021年)。这些方法在数据耕耘背景下的近期军事应用可参见Amyot-Bourgeois等人(2021年)和Serré等人(2021年)。Feldkamp(2021年)提出了一个将XAI方法纳入数据耕耘过程输出分析的工作流程。

如Feldkamp(2021年)所述,将机器学习模型与XAI方法结合应用,为构建和解释耕耘数据的元模型开辟了全新的技术范围。构建机器学习模型涉及许多任务,例如选择模型类型或模型族、调整模型超参数以及评估模型性能。这可能成为一个耗时的过程,尤其是在像数据耕耘这样的迭代过程中,随着实验的进行和演变,可能会生成一系列数据集。自动机器学习指的是自动化部分或全部机器学习任务的工具,旨在使机器学习实践更加系统化和高效化(Ghahramani,2019年)。自动机器学习工具的开源示例包括Auto-Sklearn(Feurer等人,2021年)、H2O AutoML(LeDell和Poirier,2020年)以及基于树的流水线优化工具(Le等人,2020年)。

自动机器学习为进一步扩展可用于输出分析的工具集提供了机会,并能在数据耕耘中实现可解释人工智能方面发挥关键作用。然而,在数据耕耘过程中构建元模型时,还必须考虑实验设计。这被描述为一个“先有鸡还是先有蛋”的问题(Kleijnen等人,2005年):所考虑的元模型类型取决于实验设计,反之亦然。虽然文献中提供了为白盒元模型选择合适的实验设计的指导,但针对黑盒元模型的指导似乎较少。因此,本文的目标是双重的。首先,它寻求通过自动机器学习提高元模型构建的效率。其次,它通过进行一个多模型、多设计的比较,同时也考虑实验设计中重复次数与覆盖范围之间的权衡,为选择黑盒元模型的实验设计提供指导。


专知便捷查看

·点击左下角 “阅读原文”或复制以下网址查阅

https://www.zhuanzhiai.com/vip/54fdc448b522d17b9427ba82939c5d49


  • 了解专知防务·欢迎微信添加专知助手,咨询服务中文报告、资料定制

  • 微信号:zhuanzhi_01  

  • 图片

图片
图片

点击“阅读原文”,了解更多相关内容

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/197576