AI与机器学习本文摘自《人工智能在情报分析中的有效评估》| 远望译品 “人工智能”是指“显示人类认为是智能行为的计算技术”。虽然这个定义是直观的,但判断一项任务是否需要智能是主观的,取决于人们对计算机能做什么的期望。在实践层面上,AI通常指使用ML系统,该系统利用数据,对感兴趣现象的属性进行自动学习。ML有希望运用到许多应用中,从理解文本的含义和识别图像中的对象到构建自动实施竞争战略游戏的系统。其他解决类似问题的方法,通常称为“基于规则”或“专家系统”方法,构成了AI的其余部分 。ML本身通常分为三类:监督学习、无监督学习和强化学习。监督学习从根本上讲与预测有关。给定一组具有某些关系的示例,例如以是否包含坦克为标记的图像或以是否涉及化学武器为标记的文本段落,监督学习技术可用于自动构建程序,预测未标记图像中是否存在坦克,或识别未标记文本中与化学武器有关的段落。监督学习是经典的回归统计技术的近亲,即通过一组数据点寻找最佳拟合曲线。监督学习和经典统计学之间的区别更多的是文化上的,而不是技术上的,因为经典统计学倾向于更多地关注使用系统作为替代来理解系统所涉及的现象,而监督学习倾向于只对预测能力感兴趣。无监督学习技术旨在分析没有预先确定利益关系的数据,以提取有关其结构的一些信息。例如,谷歌搜索引擎的原始架构使用PageRank算法,该算法确定哪个网页可能与用户的查询最相关,并使用无监督学习进行操作,在网络上链接相应网页 。无监督学习还可用于通过学习数据中的统计特征来支持给定领域内的监督学习技术,这些特征可用于以后的预测。例如,当前占主导地位的语言分析系统利用对大量未标记语言的无监督学习来学习所感兴趣语言中的一般结构,然后在反映兴趣统计关系的更有限数据集上进行监督学习。也就是说,无监督学习有助于系统学习文本的总体统计特性,使其在学习预测特定兴趣类别的统计特性方面处于领先地位。回到上面关于文本是否与化学武器有关的示例,在对标记文本进行有监督的学习步骤之前,可以先在大量未标记的语言数据上部署这些无监督的技术。无监督学习技术也可用于训练生成模型,根据真实示例的统计分布生成特定类型数据(如图像)的合成示例。这是生产“深度伪造”的基础技术,尽管这项技术也可用于构建匿名数据集,以便在保护隐私的同时进行分析。最后,强化学习指的是一套根据不确定回报来自动构建系统以选择行动的技术。这些系统可以被认为是通过使用“棋盘”的当前状态来统计选择下一步最有利可图的“动作”,从而学习成功地玩游戏的系统,无论是对抗环境还是对抗其他玩家。强化学习最近最引人注目的例子是AlphaGo的成功,一个玩围棋的系统。尽管每个回合中可供选择的动作空间很大,而且AlphaGo需要优化其短期行动以为长期战略服务,但AlphaGo能够击败世界级的人类对手,在五场的系列赛中以4-1击败Lee Sedol。在所有三个领域中,ML系统都通过一个称为“训练”的过程中学习数据。对于每一轮训练,ML系统都会根据系统质量的某些指标对数据子集进行评估。通常,选择此指标是因为其数学特性,而不是实际价值。然后稍微调整ML系统中的参数,以改进其在该数据上的性能。从本报告的角度来看,这代表了一个重要的哲学观点:ML系统是通过一个针对某些性能指标的优化过程构建的,通过我们选择量化其性能的方式,为这些系统从头到尾的形成方式提供了第一个标志。ML系统是通过一个针对某些性能指标的优化过程来构建的,通过我们选择量化其性能的方式,我们对这些系统从头到尾的形成得到了最初的认识。。对目前支持IC或国防部情报分析的AI系统的全面审查超出了本报告的范围。尽管如此,我们认为重要的是突出AI系统的精选示例,为我们的分析提供真实的环境。融合了高性能计算、分析和张量的多维异常检测(MADHAT),是JAIC的一个AI系统,是一个无监督学习系统,旨在帮助分析人员检测可疑网络流量。分析师目前正在学习使用该工具。JAIC正在开发另一个名为“Entropy”的AI工具,它支持与信息环境有关的分析,其中可能包括信息战分析师。该系统协助人类分析人员进行反信息操作和心理操作。“Entropy”目前基于文本和视频对互联网趋势进行实时的识别和总结。Maven项目是五角大楼一项杰出的AI项目,它试图使用ML在无人机生成的全动态视频中识别物体和人,从而支持分析人员评估这些视频片段,以获取有用的威胁信息。在最近的公开评论中,现任JAIC首席技术官(时任JAIC代理总监)Nand Cormondani表示,JAIC正在“算法以及部署和测试方面”与Maven项目合作;Colonel Bradley Boyd上校表示,JAIC的智能传感器项目“正在与Maven以及空军互动,开发 “敏捷秃鹰”(Agile Condor)吊舱能力,以实现潜在的自主传感(和)自主跟踪”。JAIC将其智能传感器(Smart Sensor)项目描述为“一种视频处理的AI原型,搭载在无人机上,经过训练,能够识别威胁,并立即将这些威胁相关的视频传输回有人操作的计算机站进行实时分析”。Palantir Gotham平台包括Ava模块,这是国防部和IC分析人员使用的一种AI工具。该模块持续查找数据流与联邦数据服务器之间的连接,提醒调查人员注意值得调查的连接。一些政府客户使用的Palantir的 Foundry,允许用户自己构建和部署AI模型。IARPA大量投资于对情报分析师有用的AI系统,尤其是在分析、预测情报和收集等研究领域。在分析领域,IARPA投资了 “Aladdin Video”,“Better Extraction from Text TowardsEnhanced Retrieval (BETTER)”、“Creation of Operationally Realistic 3D Environment (CORE3D)”、“DeepIntermodal Video Analytics (DIVA)”及“Machine Translation for English Retrieval of Information in Any Language (MATERIAL)”等项目。“Aladdin Video”开发了一项技术,使分析人员能够在大量视频片段中搜索感兴趣的特定事件,以便分析上传到互联网平台的大量视频。BERTER资助的系统从文本中提取和检索针对特定分析师的细粒度语义信息,跨语言和领域工作,生成“谁对谁做了什么?何时何地”的结构化事件,着眼于每天生成的大量非结构化文本信息。CORE3D资助的系统,使用卫星图像、机载图像和地理信息系统(GIS)矢量数据,准确、自动、快速地构建大地理区域的三维模型,以提高态势感知能力,支持快速军事部署、情报,人道主义响应等方面。人工建模方法虽然准确,但过于耗时。DIVA的资助的建立了一套系统,能够检测同时具有重叠和非重叠视野的多个地面摄像机流中的活动,目的是帮助机场、边境口岸或政府设施的安全专业人员分析大量摄像机的视频流。最后,MATERIAL对建立“English in,English out”信息检索系统的努力进行了资助,该系统可以将领域敏感的英语查询和从多语言存储库中检索的信息作为带有查询偏见的英语摘要返回。在预期情报领域,IARPA投资了Open Source Indicators(OSI)、网络攻击自动化非常规传感器环境(CAUSE)、混合预测竞赛(HFC)和Mercury等项目。OSI资助建立了一套系统,不断分析公开可用的数据,以预测重大社会事件,如政治危机,试图“抢先报道”。对网络关注采取类似的方法,CAUSE资助构建了一套系统,该系统不仅基于传统网络信息,而且还基于社交媒体等非传统信息源,试图以显著的提前量、高召回率和低错误率提供网络攻击警告。另一个类似的项目是Mercury,它专注于使用国外SIGINT数据来预测事件,如恐怖活动、政治危机和疾病爆发,具有高准确性和提前量。HFC等其他项目,试图以混合方法将人类预测和机器预测结合起来,机器可以补偿人类分析的认知偏差和可扩展性的缺乏,而人类提供了理解不寻常或新颖的地缘政治问题的能力。在收集领域,IARPA投资于寻找工程相关指标(FELIX)和功能基因组和威胁计算评估(Fun GCAT)等项目。FELIX对使用AI检测基因工程特征进行资助。确定某一特定生物系统是否是经过工程设计的,可以使美国对可能造成健康风险的工程生物体的意外或故意释放做出快速反应。Fun GCAT资助采用新方法筛选核酸序列和识别相关序列,以防止故意或意外造成生物威胁的系统。