NIST人工智能安全报告：对抗性机器学习-攻击和缓解的分类和术语

微信公众号：计算机与网络安全

这份NIST值得信赖和负责任的人工智能报告开发了一个概念分类，并定义了对抗性机器学习（AML）领域的术语。分类法建立在调查AML文献的基础上，并按概念层次结构排列，其中包括ML方法的关键类型和攻击的生命周期阶段、攻击者的目标和目的以及攻击者的能力和学习过程的知识。该报告还提供了减轻和管理攻击后果的相应方法，并指出了在人工智能系统的生命周期中需要考虑的相关开放挑战。报告中使用的术语与AML文献一致，并辅以一个术语表，该术语表定义了与人工智能系统安全相关的关键术语，旨在帮助非专业读者。总而言之，分类法和术语旨在通过建立一种共同的语言和对快速发展的AML形势的理解，为评估和管理人工智能系统的安全性提供其他标准和未来实践指南提供信息。

本报告旨在为开发对抗性机器学习（AML）的分类法和术语迈出一步，这反过来可能有助于保护人工智能（AI）的应用，防止人工智能系统的对抗性操作。大体上，有两类人工智能系统：预测型和生成型。人工智能系统的组件至少包括用于训练、测试和部署机器学习（ML）模型的数据、模型和过程，以及使用它们所需的基础设施。生成性人工智能系统在适应特定领域和用例时，也可以与公司文档和数据库相链接。ML的数据驱动方法除了大多数操作系统面临的经典安全和隐私威胁外，还在ML操作的不同阶段引入了额外的安全和隐私挑战。这些安全和隐私挑战包括对训练数据进行对抗性操作的可能性，对抗性利用模型漏洞对人工智能系统的性能产生不利影响，甚至恶意操作、修改或仅与模型交互来过滤关于数据中表示的人、关于模型本身的敏感信息，或专有企业数据。这种攻击已在现实世界条件下得到证明，其复杂性和潜在影响一直在稳步增加。AML关注于研究攻击者的能力及其目标，以及在ML生命周期的开发、训练和部署阶段利用ML漏洞的攻击方法的设计。AML还关注能够承受这些安全和隐私挑战的ML算法的设计。当以恶意意图发起攻击时，ML的健壮性是指旨在管理此类攻击后果的缓解措施。

本报告采用了NIST AI风险管理框架中ML系统的安全性、弹性和健壮性的概念。安全性、弹性和鲁棒性由风险来衡量，风险是对实体（例如，系统）受到潜在环境或事件（例如，攻击）威胁的程度以及发生此类事件时结果的严重性的度量。然而，本报告没有就风险容忍度（组织或社会可以接受的风险水平）提出建议，因为它是高度相关的，并且特定于应用程序/用例。这种风险的一般概念为评估和管理人工智能系统组件的安全性、弹性和健壮性提供了一种有用的方法。量化这些可能性超出了本文件的范围。相应地，AML的分类是根据AML风险评估的以下五个维度定义的：（i）AI系统类型（预测或生成），（ii）攻击发生时ML生命周期过程的学习方法和阶段，（iii）攻击者目标和目的，（iv）攻击者能力，（v）攻击者对学习过程的知识和其他知识。

针对ML的有效攻击范围广泛，发展迅速，涵盖了ML生命周期的所有阶段——从设计和实现到训练、测试，最后到在现实世界中部署。这些攻击的性质和威力是不同的，并且不仅可以利用ML模型的漏洞，还可以利用部署人工智能系统的基础设施的弱点。尽管人工智能系统组件也可能受到各种无意因素的不利影响，例如设计和实现缺陷以及数据或算法偏差，但这些因素不是故意攻击。尽管这些因素可能被对手利用，但它们不在反洗钱文献或本报告的范围内。

预测人工智能分类

1、攻击分类

图1介绍了PredAI系统对抗性机器学习中的攻击分类。攻击者的目标显示为不相连的圆圈，攻击者的目标位于每个圆圈的中心：可用性崩溃、完整性违规和隐私泄露。对手为实现其目标而必须利用的能力显示在目标圈的外层。攻击类显示为连接到发起每次攻击所需的功能的标注。需要相同功能才能达到相同目标的多个攻击类显示在单个标注中。需要不同功能才能达到相同目标的相关攻击类用虚线连接。

这些攻击根据以下维度进行分类：1）攻击发生时学习过程的学习方法和阶段，2）攻击者的目标和目的，3）攻击者的能力，4）攻击者对学习过程的了解。在以前的工作中已经引入了几个对抗性攻击分类框架，这里的目标是为ML上的对抗性攻击创建一个统一现有工作的标准术语。

1.1 学习阶段

对抗性机器学习文献主要考虑对人工智能系统的对抗性攻击，这些攻击可能发生在训练阶段或ML部署阶段。在ML训练阶段，攻击者可能会控制部分训练数据、它们的标签、模型参数或ML算法的代码，从而导致不同类型的中毒攻击。在ML部署阶段，ML模型已经过训练，对手可以发起逃避攻击来创建完整性侵犯并更改ML模型的预测，以及隐私攻击来推断关于训练数据或ML模型方面的敏感信息。

训练时间攻击。ML训练阶段的攻击称为中毒攻击。在数据中毒攻击中，对手通过插入或修改训练样本来控制训练数据的子集。在模型中毒攻击中，对手控制模型及其参数。数据中毒攻击适用于所有学习范式，而模型中毒攻击最常见于联合学习，其中客户端将本地模型更新发送到聚合服务器，以及供应链攻击，其中模型技术供应商可能会将恶意代码添加到模型中。

部署时间攻击。推理或部署时间。首先，逃避攻击修改测试样本以创建不利示例，这些示例类似于原始样本（根据某些距离度量），但根据攻击者的选择改变模型预测。其次，成员关系推理和数据重建等隐私攻击通常由具有ML模型查询访问权限的攻击者发起。它们可以进一步分为数据隐私攻击和模型隐私攻击。

1.2 攻击者目标和目的

根据分析系统安全性（即可用性、完整性、机密性）时考虑的三种主要类型的安全违规，攻击者的目标沿着三个维度进行分类：可用性崩溃、完整性违规和隐私泄露。相应地，不利成功表示实现了一个或多个这些目标。图中根据目标将攻击划分为三个不相交的圆圈，攻击者的目标显示在每个圆圈的中心。

可用性崩溃。可用性攻击是对ML的不加区分的攻击，攻击者试图在部署时破坏模型的性能。当攻击者控制训练集的一小部分时，可用性攻击可以通过数据中毒进行；通过模型中毒，攻击者控制模型参数；或通过查询访问作为能量延迟攻击。已经为支持向量机、线性回归甚至神经网络提出了数据中毒可用性攻击，而模型中毒攻击是为神经网络和联合学习设计的。最近，在计算机视觉和NLP的许多不同任务中，已经为神经网络开发了仅需要黑盒访问模型的能量延迟攻击。

违反完整性。完整性攻击以ML模型输出的完整性为目标，导致ML模型执行不正确的预测。攻击者可以通过在部署时发动逃避攻击或在训练时发动中毒攻击来违反完整性。逃避攻击需要修改测试样本，以创建对抗性示例，这些示例被模型错误地分类为不同的类别，同时仍然是隐形的，人类无法察觉。通过中毒进行的完整性攻击可以分类为目标中毒攻击，后门中毒攻击和模型中毒。目标中毒试图破坏一些目标样本的完整性，并假设攻击者具有插入中毒样本的训练数据控件。后门中毒攻击需要生成后门模式，该模式被添加到中毒样本和测试样本中，以导致错误分类。后门攻击是文献中唯一需要训练和测试数据控制的攻击。模型中毒攻击可能导致目标攻击或后门攻击，攻击者修改模型参数以导致完整性违规。它们被设计用于集中学习和联合学习。

隐私泄露。攻击者可能对学习有关训练数据（导致数据隐私攻击）或ML模型（导致模型隐私攻击）的信息感兴趣。攻击者可以有不同的目标来危害训练数据的隐私，例如数据重建（推断训练数据的内容或特征）、成员身份攻击（推断数据在训练集中的存在）、数据提取（从生成模型中提取训练数据的能力），和属性推理（推断关于训练数据分布的属性）。模型提取是一种模型隐私攻击，攻击者旨在提取关于模型的信息。

1.3 攻击者能力

对手可以利用六种类型的能力来实现其目标，如图1中目标圈的外层所示：

•训练数据控制：攻击者可以通过插入或修改训练样本来控制训练数据的子集。该功能用于数据中毒攻击（例如，可用性中毒、目标中毒或后门中毒）。

•模型控制：攻击者可以通过生成特洛伊木马触发器并将其插入模型中，或者通过在联合学习中发送恶意的本地模型更新来控制模型参数。

•测试数据控制：攻击者可以利用这一点在模型部署时向测试样本添加扰动，如在逃避攻击中执行以生成对抗性示例或后门中毒攻击。

•标签限制：该功能与在监督学习中限制对训练样本标签的对抗性控制相关。干净标签中毒攻击假设攻击者不控制中毒样本的标签–这是一种现实的中毒场景，而常规中毒攻击假设标签控制中毒样本。

•源代码控制：攻击者可能会修改ML算法的源代码，如随机数生成器或任何第三方库，这些库通常是开源的。

•查询访问：当ML模型由云提供商管理时（使用机器学习作为服务–MLaaS），攻击者可能会向模型提交查询并接收预测（标签或模型置信度）。该功能用于黑盒逃避攻击、能量延迟攻击和所有隐私攻击。

请注意，即使攻击者无法修改训练/测试数据、源代码或模型参数，访问这些数据对于安装白盒攻击仍然至关重要。

图1将每个攻击类别与发起攻击所需的功能连接起来。例如，导致完整性违规的后门攻击需要控制训练数据和测试数据，以插入后门模式。后门攻击也可以通过源代码控制进行，特别是当培训外包给更强大的实体时。除了后门攻击所需的功能外，干净标签后门攻击不允许对中毒样本进行标签控制。

1.4 攻击者知识

攻击分类的另一个维度是攻击者对ML系统的了解程度。有三种主要类型的攻击：白盒、黑盒和灰盒。

白盒攻击。这些假设攻击者在充分了解ML系统的情况下操作，包括训练数据、模型体系结构和模型超参数。虽然这些攻击在非常强大的假设下运行，但分析它们的主要原因是测试系统在最坏情况下对抗对手的漏洞，并评估潜在的缓解措施。请注意，该定义更一般，包含自适应攻击的概念，其中明确跟踪应用于模型或系统的缓解措施的知识。

黑盒攻击。这些攻击假设对ML系统的了解最少。对手可能获得对模型的查询访问权，但他们没有关于如何训练模型的其他信息。这些攻击是最实际的，因为它们假设攻击者不了解AI系统，并利用可供正常使用的系统接口。

灰盒攻击。在黑盒攻击和白盒攻击之间有一系列灰盒攻击捕获对抗性知识。Suciu等人引入了一个对灰盒攻击进行分类的框架。攻击者可能知道模型体系结构，但不知道其参数，或者攻击者可能知道该模型及其参数，但不了解训练数据。灰盒攻击的其他常见假设是，攻击者可以访问与训练数据相同分布的数据，并知道特征表示。后一种假设在训练ML模型之前使用特征提取的应用程序中很重要，例如网络安全、金融和医疗保健。

2、逃避攻击和缓解

在逃避攻击中，对手的目标是生成对抗性示例，这些示例被定义为测试样本，其分类可以在部署时更改为攻击者选择的任意类别，只需最小的扰动。

减轻对抗性例子是社区中众所周知的挑战，值得进一步研究和调查。该领域有一段发布防御的历史，这些防御在相对较弱的对抗模型下进行评估，随后被更强大的攻击破坏，这一过程似乎是永久迭代的。需要针对强自适应攻击评估缓解措施，并且已经制定了严格评估新提议的缓解技术的指南。减轻逃避攻击的关键威胁的最有希望的方向是对抗训练（在训练中迭代地生成和插入具有正确标签的对抗示例-运行时间）；经认证的技术，如随机平滑（评估噪声下的ML预测）；和形式验证技术（应用形式方法技术来验证模型的输出）。然而，这些方法具有不同的限制，例如对抗训练和随机平滑的精度降低，以及形式化方法的计算复杂性。鲁棒性和准确性之间存在固有的权衡。同样，模型的鲁棒性和公平性保证之间也存在权衡。

下面讨论白盒和黑盒逃避攻击技术、攻击可转移性和对抗性示例的潜在缓解。

2.1 白盒逃避攻击

有几种基于优化的方法用于设计逃避攻击，这些方法在距离原始测试样本很小的距离处生成对抗性示例。对于距离度量、通用逃避攻击和物理上可实现的攻击，以及为多个数据模式（包括NLP、音频、视频和网络安全域）开发的逃避攻击的示例，也有几种选择。

基于优化的方法。Szedegy等人和Biggio等人独立地提出了使用优化技术来生成对抗性示例。在其威胁模型中，允许对手检查ML模型的整体，并计算相对于模型损失函数的梯度。这些攻击可以是有针对性的，其中对手示例的类由攻击者选择，也可以是无目标的，其中对抗示例被错误地分类为任何其他不正确的类。

Szedegy等人创造了广泛使用的术语对抗性例子。他们考虑了一个将ℓ2扰动范数，取决于模型预测到目标类别的变化。使用有限内存Broyden–Fletcher–Goldfarb–Shanno（L-BFGS）方法求解优化。Biggio等人考虑了具有连续可微判别函数的恶意类和良性类的二元分类器的设置。优化的目标是最小化判别函数，以便生成最大置信度的对抗性示例。

虽然Biggio等人将其方法应用于线性分类器、核SVM和多层感知器，但Szedegy等人显示了用于图像分类的深度学习模型上存在对抗性示例。Goodfellow等人[120]介绍了一种有效的方法，用于生成用于深度学习的对抗性示例：快速梯度符号法（FGSM），该方法执行梯度下降的单次迭代，以解决优化问题。Kurakin等人将该方法扩展到迭代FGSM攻击。

随后关于生成对抗性示例的工作提出了新的目标和方法，用于优化对抗性实例的生成，目标是最小化扰动和支持多个距离度量。一些值得注意的攻击包括：

1）DeepFool是一种无目标逃避攻击，用于ℓ2范数，它使用神经网络的线性近似来构造对抗性示例。

2）Carlini-Wagner攻击使用多个目标，最大限度地减少目标类上的损失或登录，以及对手示例和原始样本之间的距离。通过惩罚方法优化攻击，并考虑三个距离度量来测量对抗示例的扰动：ℓ0，ℓ2，和ℓ∞. 该攻击对防御蒸馏防御有效。

3）投影梯度下降（PGD）攻击最小化损失函数，并在梯度下降的每次迭代中将对抗性示例投影到允许扰动的空间。PGD可以应用于ℓ2和ℓ∞用于测量对抗性示例的扰动的距离度量。

通用逃避攻击。Moosavi-Dezfuli等人展示了如何构造小的普遍扰动（关于某些范数），这些扰动可以添加到大多数图像中，并导致错误分类。他们的技术依赖于使用从数据分布中采样的一组点对通用扰动进行连续优化。这是功能攻击的一种形式。一个有趣的观察是，普遍扰动在深度网络架构中普遍存在，这表明由相同任务的不同模型训练的决策边界相似。

物理上可实现的攻击。这些是对机器学习系统的攻击，在物理世界中变得可行。文献中最早的物理可实现攻击之一是Sharif等人对面部识别系统的攻击。该攻击可以通过打印一对眼镜框来实现，这会误导面部识别系统以逃避检测或冒充另一个人。Eykholt等人提出了一种攻击，以在不同条件下产生鲁棒扰动，从而产生可以在各种物理环境中逃避视觉分类器的对抗性示例。该攻击通过将黑白贴纸物理地应用于道路标志来逃避道路标志检测分类器。

ShapeShifter攻击旨在逃避目标检测器，这是一个比攻击图像分类器更具挑战性的问题，因为攻击者需要在具有不同规模的多个边界框中逃避分类。此外，该攻击要求扰动足够强大，以承受由于不同的视距和角度、照明条件和相机限制而产生的真实世界扭曲。

其他数据模式。在计算机视觉应用中，对抗性示例必须是人类无法感知的。因此，攻击者引入的扰动需要非常小，以至于人类可以正确地识别图像，而ML分类器被欺骗来更改其预测。或者，图像中可能存在人类仍然无法感知但导致模型错误分类的触发对象。对抗性示例的概念已经扩展到其他领域，如音频、视频、自然语言处理（NLP）和网络安全。在其中一些设置中，存在其他约束。

需要通过对抗性示例来遵守，例如NLP中的文本语义和网络安全中的应用约束。下面讨论几个具有代表性的工作：

• 音频：Carlini和Wagner对从语音生成文本的模型进行了有针对性的攻击。它们可以生成与现有波形非常相似的音频波形，但可以转录为攻击者选择的任何文本。

•视频：针对视频分类模型的对抗性逃避攻击可以分为干扰少量视频帧的稀疏攻击和干扰视频中所有帧的密集攻击。攻击者的目标是更改视频的分类标签。

•NLP：Jia和Liang开发了一种生成对抗性NLP示例的方法。在这项开创性工作之后，在开发NLP模型的对抗性攻击方面取得了许多进展（请参阅关于该主题的全面调查）。最近，La Malfa和Kwiatkowska通过引入语义鲁棒性的概念，提出了一种在NLP中形式化扰动定义的方法。NLP中的主要挑战是域是离散的而不是连续的（例如，图像、音频和视频分类），对抗性示例需要尊重文本语义。

•网络安全：在网络安全应用中，对抗性示例必须遵守网络数据（如网络流量或程序二进制文件）的应用程序语义和特征表示施加的约束。FENCE是一个通用框架，用于在离散域中使用梯度优化来制造白盒逃避攻击，并支持一系列线性和统计特征相关性。FENCE已经应用于两个网络安全应用：恶意域检测和恶意网络流量分类。Shetsley等人提出了一种使用形式逻辑学习特征空间中的约束的方法，并通过将它们投影到约束兼容空间来创建对抗性示例。他们将该技术应用于网络入侵检测和钓鱼分类器。这两篇论文都指出，来自连续域的攻击不能轻易地应用于受限环境，因为它们导致不可行的对抗性示例。Pierazzi等人讨论了由于特征空间的限制，在网络安全中安装可行的逃避攻击的困难，以及将攻击从特征空间映射到问题空间的挑战。它们在问题空间中形式化逃避攻击，并为Android恶意软件构建可行的对抗示例。

2.2 黑盒逃避攻击

黑盒逃避攻击是在真实的对抗模型下设计的，在该模型中，攻击者没有模型体系结构或训练数据的先验知识。相反，对手可以通过在各种数据样本上查询训练的ML模型并获得模型的预测来与它交互。类似的API由公共云提供商提供的机器学习即服务（MLaaS），其中用户可以获得模型对所选查询的预测，而无需了解模型是如何训练的。文献中有两类主要的黑盒逃避攻击：

•基于分数的攻击：在此设置中，攻击者获取模型的置信分数或逻辑，并可以使用各种优化技术来创建对抗性示例。一种流行的方法是零阶优化，它在不显式计算导数的情况下估计模型的梯度。其他优化技术包括离散优化、自然进化策略和随机行走。

•基于决策的攻击： 在这种更严格的设置中，攻击者仅获得模型的最终预测标签。生成逃避攻击的第一种方法是基于沿决策边界随机行走和拒绝采样的边界攻击，该方法通过改进的梯度估计进行了扩展，以减少HopSkipJumpAttack中的查询数量。最近，几种优化方法搜索最近决策边界的方向（OPT攻击），使用符号SGD而不是二进制搜索（符号OPT攻击），或使用贝叶斯优化。

在黑盒设置中创建对抗性示例的主要挑战是减少对ML模型的查询数量。最近的技术可以通过相对较少的查询（通常少于1000）成功地逃避ML分类器。

2.3 攻击的可转移性

在限制性威胁模型下生成对抗性攻击的另一种方法是通过在不同的ML模型上构建的攻击的可转移性。通常，攻击者训练替代ML模型，在替代模型上生成白盒对抗性攻击，并将攻击转移到目标模型。各种方法在训练替代模型的方式上不同。例如， Papernot等人使用基于分数的查询来训练目标模型的替代模型，而一些论文在没有显式查询目标模型的情况下训练模型集合。

攻击可转移性是一个有趣的现象，现有文献试图理解对抗性示例跨模型传输的基本原因。有几篇论文观察到，不同的模型在良性和对抗性维度上学习交叉决策边界，这导致更好的可转移性。Demontis等人确定了两个有助于逃避和中毒攻击可转移性的主要因素：目标模型的固有对抗漏洞和用于优化攻击的代理模型的复杂性。

2.4 缓解措施

缓解逃避攻击是具有挑战性的，因为对抗性示例在各种ML模型体系结构和应用程序领域中广泛存在，如上所述。对抗性示例存在的可能解释是，ML模型依赖于不符合计算机视觉领域中人类感知的非鲁棒特征[138]。在过去几年中，针对对抗性示例的许多拟议缓解措施对于更强的攻击无效。此外，几篇论文进行了广泛的评估，并击败了大量拟议的缓解措施：

•Carlini和Wagner展示了如何绕过10种检测对抗性示例的方法，并描述了评估防御的几个准则。最近的工作表明，检测对抗性示例与构建防御一样困难。因此，在设计防御时，这种减轻对抗性示例的方向同样具有挑战性。

•模糊渐变攻击是专门设计用于击败几个建议的防御，这些防御使用ℓ0和ℓ ∞距离度量。它依赖于一种新的技术，反向通过可微近似，该技术在反向传播的反向通过期间近似梯度。它绕过了七个提议的防御。

• Trame`r等人[298]描述了一种针对拟议防御设计自适应攻击的方法，并绕过了13个现有防御。他们主张设计自适应攻击来测试新提出的防御，而不仅仅是测试针对已知攻击的防御。

从广泛的对抗对抗性逃避攻击的拟议防御中，三个主要类别已被证明具有弹性，并有潜力提供抵御逃避攻击的缓解措施：

1）对抗训练：由Goodfellow等人引入，由Madry等人进一步发展，对抗训练是一种通用方法，它使用训练期间使用正确的标签迭代生成的对抗示例来增强训练数据。用于生成对抗性示例的对抗性攻击越强,训练模型的弹性就越强。有趣的是，对抗性训练产生的模型比标准模型具有更多的语义意义，但这种好处通常以干净数据上的模型准确性降低为代价。此外，由于在训练期间迭代生成对抗性示例，对抗性训练的成本很高。

2）随机平滑：由Lecuyer等人提出，并由Cohen等人进一步改进，随机平滑是一种转换任何分类器的方法，通过在高斯噪声扰动下产生最可能的预测，形成可证明的鲁棒平滑分类器。该方法导致可证明的鲁棒性l2逃避攻击，即使是在大规模数据集（如lmageNet）上训练的分类器。随机平滑通常为测试样本的子集提供经验证的预测（准确数量取决于02球和特征的训练数据和模型）。最近的结果将认证对抗鲁棒性的概念扩展到结合预处理去噪扩散概率模型和标准高精度分类器的2-范数有界扰动。

3）形式验证：证明神经网络对抗鲁棒性的另一种方法是基于形式方法中的技术。Reluplex使用可满足性模理论（SMT）解算器来验证小前馈神经网络的鲁棒性。Al2是第一种使用抽象解释技术适用于卷积神经网络的验证方法。这些方法已经扩展并扩展到后续验证系统中的较大网络，如DeepPoly、ReluVal和快速几何投影（FGP）。形式验证技术在证明神经网络鲁棒性方面具有很大的潜力，但它们的主要限制是缺乏可扩展性、计算成本和支持操作类型的限制。

所有这些建议的缓解措施都表现出健壮性和准确性之间的内在权衡，并且它们在训练期间会带来额外的计算成本。因此，设计在保持准确性的同时抵制逃避的ML模型仍然是一个公开的问题。

3、中毒攻击和缓解

机器学习系统的另一个相关威胁是对手发起中毒攻击的风险，这被广泛定义为ML算法训练阶段的对抗性攻击。中毒攻击在网络安全领域有着悠久的历史，因为已知的第一次中毒攻击是在2006年为蠕虫签名生成而开发的。此后，中毒攻击在几个应用领域得到了广泛的研究：计算机安全（用于垃圾邮件检测）、网络入侵检测、漏洞预测、恶意软件分类）、计算机视觉]、自然语言处理以及医疗保健和金融领域的表格数据。最近，中毒攻击在工业应用中也得到了更多的关注。微软的一份报告显示，它们被认为是部署在生产中的机器学习系统的最关键漏洞。最近。已经展示了如何大规模地安排中毒，以便具有有限财政资源的对手可以控制用于模型训练的一小部分公共数据集。

中毒攻击非常强大，可能会导致可用性违规或完整性违规。特别是，可用性中毒攻击导致所有样本上的机器学习模型不加区分地降级，而目标和后门中毒攻击更隐蔽，并导致对一小组目标样本的完整性侵犯。中毒攻击利用广泛的对抗性功能，如数据中毒、模型中毒、标签控制、源代码控制和测试数据控制，导致中毒攻击的几个子类别。它们已经在白盒对抗场景、灰盒设置和黑盒模型中开发。本节讨论根据对抗目标分类的可用性中毒、目标中毒、后门中毒和模型中毒攻击的威胁。对于每个中毒攻击类别，还讨论了发起攻击的技术以及现有的缓解措施及其局限性。我们对中毒攻击的分类受到Cina等人开发的框架的启发，其中包括对中毒攻击和缓解措施的额外参考。

3.1 可用性中毒

在网络安全应用程序中发现的第一个中毒攻击是针对蠕虫签名生成和垃圾邮件分类器的可用性攻击，这些攻击不分青红皂白地影响整个机器学习模型，并在本质上对人工智能系统的用户造成拒绝服务攻击。Perdisci等人生成了具有伪入变体的可疑流，这些变体误导了Polygraph中的蠕虫签名生成算法。Nelson等人设计了针对基于贝叶斯的垃圾邮件分类器的中毒攻击，该分类器生成包含合法电子邮件中出现的长单词序列的垃圾邮件，以诱导对垃圾邮件的错误分类。这两种攻击都是在白盒设置下进行的，其中对手知道ML训练算法、特征表示、训练数据集和ML模型。已经提出了基于ML的方法用于检测针对ICS的网络安全攻击。这种检测器通常使用在系统运行期间收集的数据来重新训练，以解释被监测信号的电厂运行漂移。该再训练过程为攻击者创造了机会，使其在训练时模拟损坏传感器的信号，并毒害检测器的学习过程，从而在部署时检测不到攻击。

一种简单的黑盒中毒攻击策略是LABELFLIPPING，它使用对手选择的受害者标签生成训练示例。该方法需要大量中毒样本来发起可用性攻击，并且通过首次针对支持向量机（SVM）引入的基于优化的中毒攻击对其进行了改进。在这种方法中，攻击者解决了一个双层优化问题，以确定将实现对抗目标的最佳中毒样本（即，最大化SVM的铰链损失或最大化回归的均方误差[MSE]）。这些基于优化的中毒攻击随后针对线性回归和神经网络进行了设计，并且它们需要白盒访问模型和训练数据。在灰盒对抗设置中，生成可用性中毒攻击的最流行方法是可转移性，其中为代理模型生成中毒样本并传输到目标模型。监督学习的一种现实威胁模型是干净标签中毒攻击，其中对手只能控制训练样本，而不能控制其标签。该案例模拟了标记过程在训练算法外部的场景，如恶意软件分类中，攻击者可以将二进制文件提交给威胁智能平台，并使用防病毒签名或其他外部方法执行标记。通过训练生成模型并向训练样本中添加噪声以最大化对抗目标，为神经网络分类器引入了干净标签可用性攻击。清洁标签中毒的另一种方法是使用梯度对齐并最小限度地修改训练数据。

可用性中毒攻击也被设计用于针对基于质心的异常检测的无监督学习和恶意软件的行为聚类。在联合学习中，对手可以发起模型中毒攻击，以在全局训练的模型中诱导可用性违规。

缓解措施。可用性中毒攻击通常通过监控ML模型的标准性能指标(如精度、召回率、准确性、F1得分和曲线下面积）来检测，因为它们会导致分类器指标的大幅下降。然而，在ML的测试或部署阶段检测这些攻击并不理想，现有的缓解措施旨在在训练阶段主动预防这些攻击，以生成健壮的ML模型。在现有的缓解措施中，一些普遍有前途的技术包括：

• 训练数据清理：这些方法利用了毒害样本，通常不同于不受对手控制的常规训练样本。因此，数据清理技术旨在在执行机器学习训练之前清理训练集并删除中毒样本。Nelson等人提出了非兴趣区域（RONI）方法，该方法检查每个样本，如果添加样本时模型的准确性降低，则将其排除在训练之外。随后提出的净化方法通过降低其计算复杂性来改进该早期方法。Paudice等人介绍了一种专门为标签翻转攻击设计的标签清洗方法。Steinhardt等人提出使用离群值检测方法来识别中毒样品。聚类方法也用于检测中毒样品。在网络入侵检测的背景下，计算由多个ML模型集合所做预测的方差已被证明是一种有效的数据净化方法。一旦清理完毕，数据集应该受到网络安全机制的保护，以获得来源和完整性证明。

• 鲁棒训练：减轻可用性中毒攻击的另一种方法是修改ML训练算法并执行鲁棒训练，而不是常规训练。防御者可以训练多个模型的集合，并通过模型投票生成预测。有几篇论文应用了鲁棒优化的技术，例如使用修剪损失函数。Rosenfeld等人提出使用随机平滑来在训练期间添加噪声，并获得反标签翻转攻击的认证。

3.2 有针对性的中毒

与可用性攻击相反，目标中毒攻击导致ML模型对少量目标样本的预测发生变化。如果对手能够控制训练数据的标记功能，则标签翻转是一种有效的目标中毒攻击。对手只是简单地插入几个带有目标标签的中毒样本，模型将学习错误的标签。因此，目标中毒攻击主要是在攻击者无权访问标记功能的干净标签设置中进行研究。

已经提出了几种用于安装干净标签目标攻击的技术。Koh和Liang展示了如何在微调设置中利用影响函数（一种确定预测最具影响力的训练样本的统计方法）来创建中毒样本，其中预训练模型根据新数据进行微调。Suciu等人设计了StingRay，这是一种有针对性的中毒攻击，可以修改特征空间中的样本，并将中毒样本添加到每个小批量训练中。Shafahi等人设计了一种基于特征碰撞的优化过程，以生成用于微调和端到端学习的干净标签定向中毒。Polytope和BullseyePolytope针对集成模型优化了中毒样本，这为攻击可转移性提供了更好的优势。MetaPoison使用元学习算法来优化中毒样本，而Witches'Brew通过梯度对齐执行优化，导致最先进的定向中毒攻击。

上述所有攻击都会影响攻击者在训练期间选择的一小组目标样本，并且它们仅针对连续图像数据集进行了测试（StingRay除外，它需要对抗性地控制训练集的很大一部分）。子种群中毒攻击旨在毒害来自整个子种群的样本，通过匹配特征子集或在表示空间中创建簇来定义。使用标签翻转（对于NLP和表格模式）或一阶优化方法（对于连续数据，例如图像）生成中毒样本。该攻击推广到子种群中的所有样本，并且需要关于ML模型的最少知识和少量中毒样本（与子种群大小成比例）。

还为半监督学习算法引入了目标中毒攻击，例如MixMatch、FixMatch和无监督数据增强（UDA），其中敌手毒化未标记训练数据集的一小部分，以在部署时更改对目标样本的预测。

缓解措施。众所周知，有针对性的中毒攻击很难防范。Jagielski等人显示了亚群中毒攻击的不可能结果。为了减轻与此类攻击相关的一些风险，应明智地使用数据集来源和完整性证明的网络安全机制。Ma等人提出使用差异隐私（DP)作为防御（这直接源自差异隐私的定义），但众所周知，差异私有ML模型的准确性低于标准模型。在每个应用中都需要考虑稳健性和准确性之间的权衡。如果应用程序具有强烈的数据隐私要求，并且针对隐私使用了不同的私有训练，则另一个好处是防止目标中毒攻击。然而，一旦目标攻击需要多个中毒样本(如在子种群中毒攻击中)，DP提供的健壮性就会开始减弱，因为组隐私绑定不会为大型中毒集提供有意义的保证。

3.3 后门中毒

2017年,Gu等人提出了BadNets,这是第一次后门中毒攻击。他们观察到，通过在训练时在图像子集中添加一个小的补丁触发器，并将其标签更改为目标类，可以毒害图像分类器。分类器学习将触发器与目标类相关联，并且任何图像（包括触发器或后门模式)都将在测试时被错误分类为目标类。同时，Chen等人引入了后门攻击，其中触发器被混合到训练数据中。后续工作引入了干净标签后门攻击的概念，在这种攻击中，对手被限制保留中毒示例的标签。干净标签攻击通常需要更多的中毒样本才能有效，但攻击模式更现实。

在过去几年里，后门攻击变得更加复杂和隐蔽，使其更难检测和减轻。即使使用干净的数据对最后几层进行模型微调，潜在的后门攻击也可以生存。后门生成网络（BaN）是一种动态后门攻击，其中触发器的位置在中毒样本中发生变化，以便模型以位置不变的方式学习触发器。功能触发器，也称为功能攻击，嵌入在整个图像中，或根据输入进行更改。例如，Li等人使用隐写算法在训练数据中隐藏触发器。Liu等人引入了一种干净标签攻击，使用图像上的自然反射作为后门触发器。温格等人使用物理物体作为触发器，如太阳镜和耳环，毒害了面部识别系统。

其他数据模式。虽然大多数后门中毒攻击都是为计算机视觉应用程序设计的，但这种攻击向量在具有不同数据模式的其他应用程序领域中是有效的，例如音频、NLP和网络安全设置。

• 音频：在音频领域，Shi等人展示了对手如何将不可见的音频触发器注入实时语音中，该音频触发器在训练期间与目标模型联合优化。

• NLP：在自然语言处理中，由于文本数据是离散的，因此构造有意义的中毒样本更具挑战性，并且句子的语义在理想情况下将被保留，以便攻击保持不可察觉。最近的工作表明，NLP域中的后门攻击正在变得可行。例如，Chen等人在字符、单词和句子级别引入了语义保持后门，用于情感分析和神经机器翻译应用。Li等人在三个NLP任务中使用生成语言模型生成了针对变压器模型的隐藏后门：有毒评论检测、神经机器翻译和问答。

• 网络安全：网络安全中的早期中毒攻击是针对2006年的蠕虫签名生成和2008年的垃圾邮件检测器设计的，早在对抗性机器学习的兴趣上升之前。最近，Severi等人展示了如何利用人工智能解释技术，通过对恶意软件分类器的小触发来生成干净标签中毒攻击。他们使用三个恶意软件数据集攻击了多个模型（即神经网络、梯度提升、随机森林和SVM）：用于Windows PE文件分类的Ember、用于PDF文件分类的Contagio和用于Android应用程序分类的DREBIN。Jigsaw Puzzle为Android恶意软件分类器设计了一种后门中毒攻击，该攻击使用从良性代码中获取的可实现软件触发器。

缓解措施。与其他中毒攻击相比，关于后门攻击缓解的文献非常丰富。下面我们讨论几类防御，包括数据清理，触发器重建、模型检查和消毒，以及它们的局限性。

• 训练数据清理：与中毒可用性攻击类似，训练数据清理可以应用于检测后门中毒攻击。例如，潜在特征空间中的离群点检测对于用于计算机视觉应用的卷积神经网络是有效的。激活聚类在表示空间中执行训练数据的聚类，目标是在单独的簇中隔离后门样本。当中毒攻击控制相对较大比例的训练数据时，数据清理可以获得更好的结果，但对于隐形中毒攻击不是那么有效。总的来说，这导致攻击成功与恶意样本的可检测性之间的权衡。

• 触发器重建：这类缓解措施旨在重建后门触发器，假设它位于中毒训练样本中的固定位置。Wang等人的NeuralCleanse开发了第一个触发器重建方法，并使用优化来确定最可能的后门模式，该模式可靠地错误分类了测试样本。初始技术已经得到改进，以减少几个类的性能时间，并同时支持插入到模型中的多个触发器。这类中的一个代表性系统是Liu等人的人工大脑模拟（ABS)，它刺激多个神经元并测量激活以重建触发模式。Khaddaj等人开发了一种用于检测后门攻击的新原语，以及相应的具有理论保证的有效检测算法。

• 模型检查和消毒：模型检查在部署之前分析训练的ML模型，以确定它是否中毒。该领域的早期工作是Neuronlnspect，它基于可解释性方法来确定清洁模型和后门模型之间的不同特征，这些模型随后用于异常值检测。Deeplnspect使用条件生成模型来学习触发器模式的概率分布，并执行模型修补以删除触发器。Xu等人提出了元神经特洛伊木马检测（MNTD)框架，该框架训练元分类器来预测给定的ML模型是否后门（或作者术语中的特洛伊）。该技术是通用的，可以应用于多个数据模式，例如视觉、语音、表格数据和NLP。一旦检测到后门，可以通过修剪、重新训练或微调来执行模型清理，以恢复模型的准确性。

大多数这些缓解措施都是针对基于卷积神经网络的计算机视觉分类器设计的，该网络使用具有固定触发模式的后门。Severi等人表明，一些数据清理技术（例如，频谱特征和激活聚类）对于恶意软件分类器上的干净标签后门中毒无效。最新的语义和功能后门触发器也会对基于触发器重建或模型检查的方法提出挑战，这些方法通常假设固定的后门模式。使用元分类器进行预处理的局限性，判断木马模型是元分类器训练阶段的高计算复杂性，这需要训练数干个阴影模型。需要进行额外的研究来设计强大的后门缓解策略，以保护ML模型免受这一重要攻击向量的攻击，而不受这些限制的影响。

在网络安全方面，Rubinstein等人提出了一种基于主成分分析（PCA）的方法，以减轻主干网络中对PCA子空间异常检测方法的中毒攻击。它最大化中值绝对偏差（MAD）而不是方差来计算主成分，并使用基于拉普拉斯分布的阈值来代替高斯分布。Madani和Vlajic构建了一个基于自动编码器的入侵检测系统，假设恶意中毒攻击实例低于2%。

最近的一篇论文提供了一个关于后门缓解的不同观点，它表明，如果没有关于攻击的额外假设，后门与数据中自然发生的特征是无法区分的。然而，假设后门在数据中创建了最强的特征，本文提出了一种优化技术来识别和删除对应于后门的训练样本。

为了补充在不断发展的攻击面前并不总是具有弹性的现有缓解措施，毒物取证是一种用于根本原因分析的技术，用于识别恶意训练样本。中毒取证在ML系统中增加了另一层防御：一旦在部署时检测到中毒攻击，中毒取证可以在训练集中追溯攻击源。

3.4 模型中毒

模型中毒攻击试图直接修改训练的ML模型，以将恶意功能注入模型。在集中式学习中，TrojNN对来自训练神经网络的触发器进行反向工程，然后通过将触发器嵌入外部数据以毒害模型来重新训练模型。大多数模型毒害攻击都是在联合学习设置中设计的，在该设置中，客户端将本地模型更新发送到将其聚合为全局模型的服务器。受损的客户端可以发送恶意更新来破坏全局模型。模型中毒攻击可能会导致联合模型中的可用性和完整性违规：

• 降低全局模型准确性的中毒可用性攻击是有效的，但它们通常需要很大比例的客户端处于对手的控制之下。

• 有针对性的模型中毒攻击在测试时在一小组样本上引发完整性违规。它们可以通过模型替换或模型增强攻击来安装，在这种攻击中，受损客户端根据目标目标替换本地模型更新。

• 后门模型中毒攻击通过恶意客户端更新引入触发器在测试时间使用触发器诱导所有样本的错误分类。如果受到危害的客户不定期参加培训，则大多数这些后门都会被遗忘，但如果注入利用率最低的模型参数，则后门变得更耐用。

在供应商提供的模型或模型组件被恶意代码破坏的供应链场景中，也可能发生模型中毒攻击。最近的一次供应链攻击，即辍学攻击，显示了操纵神经网络训练（特别是辍学正则化)中使用的随机性的对手如何毒害模型，以降低一组目标类的准确性、准确性或召回率。

缓解措施。为了保护联合学习免受模型中毒攻击，设计并评估了各种拜占庭弹性聚合规则。其中大多数在服务器上执行聚合时试图识别和排除恶意更新。然而，有动机的对手可以通过在攻击生成优化问题中添加约束来绕过这些防御。梯度剪裁和差异隐私在某种程度上有可能减轻模型中毒攻击，但它们通常会降低准确性，并且不能提供完全的缓解。

对于特定的模型中毒漏洞，如后门攻击，有一些用于模型检查和消毒的技术，如第节中所讨论的。然而，减轻对手可能控制训练算法或ML超参数的源代码的供应链攻击仍然是一个挑战。其他领域中使用的程序验证技术（如加密协议验证）可以适应此设置，但ML算法具有内在随机性和不确定性行为，这增加了验证的难度。

4、隐私攻击

尽管隐私问题长期以来一直是一个问题，但针对从用户记录中收集的聚合信息的隐私攻击始于Dinur和Nissim关于数据重建攻击的开创性工作。重建攻击的目标是对有关单个用户记录或敏感关键基础架构数据的私有信息进行反向工程，以防止访问聚合信息。最近，已经为二进制和多类神经网络分类器设计了数据重建攻击。另一种隐私攻击是成员身份攻击，其中对手可以确定特定记录是否包含在用于计算统计信息或训练机器学习模型的数据集中。Homer等人首次为基因组数据引入了成员推断攻击。最近的文献主要关注对ML模型的成员身份攻击，在这种情况下，对手可以查询访问经过训练的ML模型。MLaaS的另一种隐私侵犯是模型提取攻击，该攻击旨在提取关于ML模型的信息，如其架构或模型参数。属性推理攻击旨在提取关于训练数据集的全局信息，例如具有特定敏感属性的训练示例的分数。

下面讨论与数据重建、训练数据的记忆、成员关系推理、模型提取和属性推理相关的隐私攻击，以及其中一些攻击的缓解措施和设计一般缓解策略中的开放问题。

4.1 数据重建

数据重建攻击是最受关注的隐私攻击，因为它们能够从发布的聚合信息中恢复个人数据。Dinur和Nissim是第一个引入重建攻击的公司，该攻击可以从线性统计数据中恢复用户数据。他们最初的攻击需要指数数量的查询来进行重建，但随后的工作展示了如何使用多项式数量的查询执行重建。Dwork等人对隐私攻击(包括重建攻击）进行了调查。最近，美国人口普查局（U.S.Census Bureau)对人口普查数据的数据重建攻击风险进行了大规模研究，这促使在2020年十年一次的美国人口普查中使用差异隐私。

在ML分类器的上下文中，Fredrickson等人引入了模型反转攻击，该攻击从ML模型的训练数据重建类表示。模型反演生成的图像与训练集中的图像语义相似，但不能直接重建模型的训练数据。最近，Balle等人训练了一个重建网络，该网络可以从神经网络模型中恢复数据样本，假设存在一个强大的对手，并且具有关于所有其他训练样本的信息。Haim等人展示了如何通过利用关于隐式偏差的理论见解，从对模型参数的访问中重建二元神经网络分类器的训练数据在神经网络中。这项工作最近被扩展到重建多类多层感知器分类器的训练样本。在另一个相关的隐私攻击（属性推理）中，攻击者提取训练集的敏感属性，假设对训练数据中的其他特征有部分了解。

神经网络记忆训练数据的趋势部分地解释了重建训练样本的能力。Zhang等人讨论了神经网络如何记忆随机选择的数据集。Feldman在ML.Brown等人中指出，训练标签的记忆对于实现几乎最优的泛化误差是必要的。构建了两个基于下一个符号预测和聚类标记的学习任务，其中记忆是高精度学习所需的。Feldman和Zhang使用影响估计方法实证评估了记忆对泛化的好处。

4.2 成员关系推理

成员关系推理攻击也会暴露有关个人的私有信息，如重建或记忆攻击，并且在发布根据用户数据训练的聚合信息或ML模型时仍然非常令人担忧。在某些情况下，确定个人是训练集的一部分已经具有隐私影响，例如在对患有罕见疾病的患者的医学研究中。此外，成员关系推理可以用作安装数据提取攻击的构建块。

在成员关系推理中，攻击者的目标是确定特定记录或数据样本是否是用于统计或ML算法的训练数据集的一部分。Homer等人引入了这些攻击，以跟踪攻击的名义对基因组数据进行统计计算。当对手获得关于数据集的噪声统计信息时，已经分析了鲁棒跟踪攻击。在过去的五年中，文献使用术语成员关系推理来攻击ML模型。文献中的大多数攻击都是针对用于分类的深度神经网络进行的。与对抗性机器学习中的其他攻击类似，成员关系推理可以在白盒设置中执行，其中攻击者知道模型的架构和参数，但大多数攻击都是针对黑盒设置开发的，在黑盒设置中，对手生成对训练的ML模型的查询。

攻击者在成员关系推理中的成功已经使用一个受密码启发的隐私游戏来正式定义，在该游戏中，攻击者与挑战者交互，并且需要确定目标样本是否用于训练查询的ML模型。就安装成员推理攻击的技术而言，Yeom等人的基于损失的攻击是最有效和最广泛使用的方法之一。利用ML模型最小化训练样本损失的知识，如果目标样本的损失低于固定阈值，则攻击确定目标样本是训练的一部分（选择为训练示例的平均损失）。Sablayrolles等人通过使用逐示例阈值缩放损失来改进基于损失的攻击。Shokri等人引入的另一种流行技术是影子模型，它在训练集内外的示例上训练元分类器，这些示例是通过在与原始模型相同的任务上训练数干个影子ML模型而获得的。该技术通常很昂贵，虽然它可以改进简单的基于损失的攻击，但其计算成本很高，并且需要访问分布中的许多样本来训练阴影模型。就复杂性而言，这两种技术处于频谱的两端，但它们在低假阳性率下的精度方面表现相似。

就曲线下面积（AUC）度量而言获得良好性能的一种中间方法是Carlini等人的LiRA攻击，该攻击训练较少数量的阴影模型，以学习模型逻辑在训练集内外的示例上的分布。使用模型logit分布为高斯的假设，LiRA通过估计高斯分布的平均值和标准偏差来执行隶属度推断的假设检验。Ye等人设计了一种类似的攻击，该攻击执行单侧假设测试，该测试不对损失分布做出任何假设，但实现的性能略低于LiRA。最近，Lopez等人提出了一种更有效的隶属度推理攻击，该攻击需要训练单个模型来预测受攻击模型的置信度分布的分位数。成员推断攻击也在更严格的仅标签威胁模型下设计，其中对手只能访问查询样本的预测标签]。

4.3 模型提取

在MLaaS场景中，云提供商通常使用专有数据训练大型ML模型，并希望对模型架构和参数保密。攻击者执行模型提取攻击的目标是通过向MLaaS提供商训练的ML模型提交查询来提取关于模型架构和参数的信息。Tramer在al.上展示了第一个模型窃取攻击，针对不同ML模型的多个在线ML服务，包括逻辑回归、决策树和神经网络。然而，Jagielski等人已经表明，不可能精确提取ML模型。相反，可以重建与原始模型不同但在预测任务中实现类似性能的功能等效模型。Jagielski等人表明，即使提取功能等效模型的任务较弱，也是NP难的。

文献中介绍了几种用于安装模型提取攻击的技术。第一种方法是基于在深度神经网络中执行的操作的数学公式的直接提取，它允许对手进行通信pute模型在代数上加权。在一系列论文中探索的第二种技术是使用学习方法进行提取。例如，主动学习可以将查询引导到ML模型，以更有效地提取模型权重，强化学习可以训练减少查询数量的自适应策略。第三种技术是使用侧通道信息进行模型提取。Batina等人使用电磁侧通道来恢复简单的神经网络模型，而Rakin等人展示了ROWHAMMER ATTACKS如何用于更复杂的卷积神经网络架构的模型提取。

请注意，模型提取通常不是最终目标，而是走向其他攻击的一步。随着模型权重和架构变得已知，攻击者可以发起白盒或灰盒设置典型的更强大的攻击。因此，防止模型提取可以减轻依赖于攻击者了解模型体系结构和权重的下游攻击。

4.4 属性推理

在属性推理攻击中，攻击者试图通过与ML模型交互来学习关于训练数据分布的全局信息。例如，攻击者可以确定训练集中具有某些敏感属性（如人口统计信息）的部分，这些敏感属性可能会泄露关于不打算发布的训练集的潜在机密信息。

Ateniese等人引入了属性推理攻击，并将其形式化为攻击者和挑战者之间的区别博弈，使用敏感数据的不同分数训练两个模型。属性推理攻击是在白盒设置中设计的，其中攻击者可以访问完整的ML模型和黑盒设置，其中攻击者向模型发出查询并学习预测标签或类概率。这些攻击已经被证明用于隐藏马尔可夫模型、支持向量机、前馈神经网络、卷积神经网络、联合学习模型、生成逆神经网络和图神经网络。Mahloujifar等人和Chaudhuri等人表明，毒化感兴趣的属性可以帮助为属性推理设计更有效的区分测试。此外，Chaudhari等人设计了一种有效的属性大小估计攻击，该攻击可以恢复感兴趣人口的准确比例。

4.5 缓解措施

发现对聚合信息的重建攻击激发了对差异隐私（DP）的严格定义。差异隐私是隐私的一个极其强大的定义，它保证了具有算法输出访问权限的攻击者可以了解数据集中每个记录的程度。DP的原始纯定义具有隐私参数e（即隐私预算），它限制了具有算法输出访问权限的攻击者可以确定数据集中是否包含特定记录的概率。DP已扩展到近似DP的概念，其中包括第二个参数8，该参数被解释为除了s和Re nyiDP之外，信息意外泄漏的概率。

由于几个有用的属性，DP被广泛采用：组隐私（即，将定义扩展到在k个记录中不同的两个数据集）、后处理（即，即使在处理输出后也保留隐私）和组合（即，如果在数据集上执行多个计算，则组合隐私）。用于统计计算的DP机制包括高斯机制、拉普拉斯机制.和指数机制。用于训练ML模型的最广泛使用的DP算法是DP-SGD，最近的改进包括DP-FTRL和DP矩阵分解。

根据定义，DP提供了对数据重建和成员关系推理攻击的缓解。事实上，DP的定义立即意味着对手成功发起成员推断攻击的上限。Thudi等人导出了隶属度推理成功的严格界限。然而，DP不能保证不受模型提取攻击，因为该方法旨在保护训练数据，而不是模型。有几篇论文报告了使用差异隐私来防止旨在提取训练集中子种群的属性的属性推理攻击的负面结果。

在实践中使用DP的主要挑战之一是设置隐私参数，以在隐私级别和实现的效用之间实现折衷，这通常是根据ML模型的准确性来测量的。对隐私保护算法（如DP-SGD）的分析通常是最坏的情况，并且不严密，并且纯粹基于理论分析选择隐私参数会导致效用损失。因此，在实践中经常使用较大的隐私参数（例如，2020年美国人口普查发布使用8=19.61），并且很难估计在实践中获得的确切隐私。最近，一项很有前途的工作是Jagielski等人提出的隐私审计的目标是通过经验测量算法的实际隐私保证，并通过安装隐私攻击来确定隐私下限。可以使用成员关系推理攻击执行审计，但中毒攻击更有效，并导致更好地估计隐私泄露。隐私审计的最新进展包括高斯机制的更严格界限，以及允许使用多个金丝雀来降低审计的样本复杂性的严格统计方法。此外，还提出了两种通过训练单个模型进行隐私审计的有效方法：Steinke等人使用多个随机数据金丝雀，而不会产生组隐私成本；Andrew等人使用多个随机客户端金丝雀和余弦相似性测试统计来审计用户级私有联合学习。

差异隐私提供了严格的隐私概念，防止成员关系推断和数据重建攻击。为了在隐私和效用之间实现最佳平衡，建议使用经验隐私审计来补充私有训练算法的理论分析。

针对模型提取的其他缓解技术，例如将用户查询限制在模型中，检测对模型的可疑查询，或创建更健壮的体系结构来防止旁道攻击，这些都存在于文献中。然而，这些技术可以被有动机和资源充足的攻击者逃避，应该谨慎使用。我们让读者参考用于保护机器学习部署的可用实践指南。一种可能减轻用户数据的隐私泄露的完全不同的方法是执行机器解锁，这是一种允许用户请求从训练的ML模型中删除其数据的技术。现有的机器取消学习技术要么是精确的(例如，从头开始或从某个检查点重新训练模型），要么是近似的（更新模型参数以消除未学习记录的影响）。

生成式人工智能分类

生成式人工智能包括几种不同类型的人工智能技术，具有不同的起源、建模方法和相关属性：生成逆向网络、生成预训练变换器和扩散模型。最近，多模态人工智能系统已经开始结合两种或更多技术来实现多模式内容生成功能。

1、攻击分类

虽然PredAI分类法中的许多攻击类型适用于GenAl(例如，模型中毒、数据中毒、逃避、模型提取等），但最近关于GenAl安全的大量工作值得特别关注新的安全违规。

图2介绍了GenAI系统对抗性机器学习中的攻击分类。与图1中的PredAI分类类似，该分类首先按攻击者的目标进行分类，包括可用性故障、完整性违规和隐私泄露。对于GenAI系统，滥用行为也特别相关。对手为实现其目标而必须利用的能力显示在目标圈的外层。攻击类显示为连接到发起每次攻击所需的功能的标注。需要相同功能才能达到相同目标的多个攻击类显示在单个标注中。

攻击可以根据其应用的学习阶段进一步分类，然后根据攻击者的知识和访问进行分类。这些将在以下章节中进行审查。在可能的情况下，讨论广泛适用于GenAI，并具有一些适用于LLM的特定领域（例如，检索增强生成[RAG]，它主导了下面描述的许多部署阶段攻击）。

1.1 GenAI学习阶段

篇幅原因，以下内容略……

NIST人工智能安全报告：对抗性机器学习-攻击和缓解的分类和术语.pdf

粉丝群