美国国家标准与技术研究院(NIST)于2025年3月24日发布了最新版本的对抗性机器学习指南，标题为"NIST AI 100-2e2025: Adversarial Machine Learning: A Taxonomy and Terminology of Attacks and Mitigations"。该文档是对2024年1月版本的重要更新，为组织提供了识别、应对和管理与对抗性机器学习相关风险的全面框架。

发布时间与合作机构

NIST于2025年3月24日正式发布了这份更新指南。值得注意的是，此次更新是一项跨大西洋合作的成果，参与机构包括：

美国国家标准与技术研究院(NIST)
英国AI安全研究所(UK AI Security Institute)
美国AI安全研究所(U.S. AI Safety Institute)
思科公司(Cisco，通过收购的Robust Intelligence)

主要内容

文档结构

2025版指南分为三个主要部分：

第二部分关注预测性AI(PredAI)系统，包括攻击分类、主要攻击类别(规避、投毒和隐私)以及相应的缓解措施
第三部分关注生成式AI(GenAI)系统，包括攻击分类和缓解措施
文档还包含一个术语表，以促进对抗性机器学习概念的共同理解

2025版的主要更新

相比之前版本，2025版指南有以下重要更新：

扩展了生成式AI攻击和缓解方法部分，重新构建以反映生成式AI技术的最新发展及企业实施方式
新增攻击和缓解措施索引，便于更高效地查找特定威胁信息
增加了来自英国AI安全研究所和美国AI安全研究所的新作者，反映了更广泛的国际合作
扩大了针对预测性和生成式AI系统的各种攻击类型的覆盖范围

本期先给大家分享上半部分~

全文翻译

执行摘要

本报告描述了一个对抗性机器学习（AML）的分类和术语体系，可能有助于保护人工智能（AI）应用免受对抗性操纵和攻击。

机器学习系统的统计性、数据驱动性质为这些系统安全性、隐私性和可靠性开辟了新的潜在攻击向量，超出了传统软件系统面临的威胁。这些挑战贯穿于机器学习运行的不同阶段，例如对抗性操纵训练数据的可能性；在测试阶段向人工智能系统提供对抗性输入，以不利地影响系统性能；甚至恶意操纵、修改或与模型的交互以从模型的训练数据或模型可以访问的信息中泄露敏感信息。这些攻击已在现实世界条件下得到证明，其复杂性和影响正稳定上升。

对抗性机器学习领域研究针对机器学习系统的攻击，这些攻击利用机器学习系统的统计性、数据驱动性质。它必须考虑攻击者的能力，攻击者可能寻求违反的模型或系统属性以实现其目标，以及利用开发、训练和部署阶段的漏洞设计攻击方法。它还关注设计能够抵御这些安全性和隐私性挑战的机器学习算法和系统，这一属性通常被称为稳健性 [274]。

为了对这些攻击进行分类，本报告区分了预测性AI和生成式AI系统以及与每种系统相关的攻击。它考虑了人工智能系统的组成部分，包括：数据；模型；用于训练、测试和部署模型的过程；以及模型可能嵌入的更广泛的软件和系统环境，例如在生成式AI模型被部署以访问私有数据或配备采取现实世界后果行动的工具时的情况。

因此，本分类中的攻击是根据以下维度进行分类的：（i）人工智能系统类型，（ii）攻击发生的训练过程阶段，（iii）攻击者的目标和目的，即攻击者寻求违反的系统属性，（iv）攻击者的能力和访问权限，以及 (v) 攻击者对训练过程及其之外的了解。

本报告采用了 NIST AI 风险管理框架中的安全性、韧性和稳健性概念。安全性、韧性和稳健性是通过风险来衡量的，风险是一个实体（例如，系统）受到潜在情况或事件（例如，攻击）威胁的程度，以及如果发生此类事件，其后果的严重性。然而，本报告并未就风险承受能力（即组织或社会可接受的风险水平）提出建议，因为这是高度情境化的，应当具体到应用和用例。

机器学习（ML）的攻击范围广泛、迅速演变，并涵盖机器学习生命周期的所有阶段：从设计和实现到训练、测试以及在现实世界中的部署。这些攻击的性质和威力不仅取决于机器学习模型的漏洞，还受制于部署人工智能系统的基础设施的弱点。人工智能系统组件也可能受到设计和实现缺陷的不利影响，这些缺陷导致的失败超出了对抗性使用的场景，例如不准确。然而，这些类型的缺陷不在对抗性机器学习的文献或本报告中讨论的攻击范围内。

除了定义攻击分类外，本报告还提供了对应于这些攻击后果的缓解方法和治理方法，并概述了广泛使用的缓解技术的局限性，以提高组织对人工智能风险缓解工作的有效性。本报告中使用的术语与对抗性机器学习的文献一致，并辅以与人工智能系统安全性相关的关键术语词汇表，以帮助非专家读者。分类和术语旨在通过为迅速发展的对抗性机器学习领域建立共同语言，为评估和管理人工智能系统安全性的其他标准和未来实践指南提供信息。与分类一样，术语和定义并非旨在穷尽，而是作为起点，用于理解对抗性机器学习的文献中出现的关键概念。

1. 引言

人工智能（AI）系统已在全球范围内大范围发展数年 [267]。许多国家正在开发AI系统，并广泛用于经济领域，人们在生活的许多领域都有机会使用人工智能系统 [92]。本报告区分了两类人工智能系统：预测性AI和生成式AI。尽管工业应用中的人工智能系统仍以预测性AI系统为主，但近年来生成式AI系统在商业和消费者背景下的采用率有所增加。随着这些系统渗透到数字经济并成为日常生活的重要组成部分，其安全、稳健和弹性运营的需求也在增长。这些操作属性是 NIST AI 风险管理框架 [274] 和 NCSC 机器学习原则 [266] 中可信人工智能的关键元素。

对抗性机器学习（以下简称AML）领域研究针对机器学习系统的攻击，这些攻击利用机器学习系统的统计性、数据驱动性质。尽管人工智能和机器学习（ML）在不同应用领域取得了显著进展，但这些技术仍易受可导致重大故障的攻击影响。随着机器学习系统在更具挑战性的上下文中受到新或对抗性交互的影响，这些故障的可能性增加，而随着这些系统在更高风险领域的使用，后果变得更加严重。例如，在预测性AI计算机视觉应用中，用于目标检测和分类的众所周知的对抗性输入扰动已导致自动驾驶车辆驶入相反方向的车道、停止标志被错误分类为限速标志，甚至佩戴眼镜的人在高安全环境中被错误识别 [121, 187, 332, 349]。同样，利用医学领域中越来越多的机器学习模型部署的对抗性输入，迫切需要防止医学记录泄露，这可能暴露敏感个人信息 [25, 171]。

在生成式AI中，大型语言模型（LLMs） [13, 15, 49, 85, 102, 236, 247, 277, 279, 348, 365, 371, 372, 436] 正成为软件应用和互联网基础设施的组成部分。LLMs 用于创建更强大的在线搜索工具，帮助软件开发人员编写代码，并为每天数百万人使用的聊天机器人提供支持 [255]。LLMs 还通过与企业数据库和文档的交互以增强检索生成（RAG） [210]，或通过训练或推理技术使 LLMs 能够采取现实世界中的行动（例如，基于 LLM 的浏览网页的代理Agent）来增强其功能 [167, 261, 278, 419]。因此，生成式AI系统的漏洞可能暴露大量用户数据或模型架构或训练数据的专有信息的隐私攻击面，以及对广泛使用系统的完整性和可用性带来风险。

随着生成式AI采用率的增长，这些系统的日益强大的能力也给模型开发者带来了另一个挑战：如何管理被用于不安全用途所造成的风险 [275]。随着模型开发人员越来越寻求应用技术干预以减少模型产生有害或不希望输出的潜力，攻击者试图绕过或破坏这些保护措施的高风险 AML 攻击表面出现了。

从根本上讲，许多人工智能系统既容易受到 AML 攻击的影响，也容易受到更接近传统网络安全攻击的攻击，包括针对它们被部署的平台的攻击。本报告关注前者，并认为后者属于传统网络安全分类的范畴。

在开发和部署阶段，预测性AI和生成式AI系统都容易受到攻击。攻击者可以操纵训练数据 [327]，包括用于大规模训练的互联网数据 [57]，或在模型运行过程中，攻击者可以通过添加恶意干扰或附加指令来篡改输入数据和依赖的外部资源。攻击者还可以通过插入特洛伊功能来攻击用于构建人工智能系统的组件。随着组织越来越多地依赖可以直接使用或通过新数据集微调以启用不同任务的预训练模型，它们对这些攻击的脆弱性有所增加。

现代密码学通常依赖于在某些条件下已证明确保安全性的算法，即信息论安全性。然而，文献中开始出现设置信息论安全性证明的极限结果，这些结果限制了广泛使用的缓解技术的有效性 [124, 140, 432]。因此，针对不同类别 AML 攻击的许多缓解进展往往是经验性的且本质上是有限的，因为它们似乎在实践中有效，而不是因为它们提供了信息论安全性保证。因此，许多这些缓解措施本身可能容易受到攻击者技术的新发现和演变的影响。

本报告为以下内容提供指导：

在相关机器学习和网络安全社区中标准化的 AML 术语。这些社区在不同利益相关者群体中存在显著的术语差异，随着人工智能在企业和消费者背景下的广泛采用，需要弥合这些差异。
对 AML 最广泛研究且当前有效的攻击类别进行分类，包括：

预测性AI系统的规避、投毒和隐私攻击
生成式AI系统的投毒、直接提示和间接提示注入攻击

讨论这些攻击的潜在缓解方法以及现有缓解技术的局限性

NIST 打算随着 AML 攻击和缓解措施的新发展更新本报告。

本报告对常见攻击类别及其缓解措施进行了分类，用于预测性AI和生成式AI系统。本报告并非旨在提供对对抗性机器学习（AML）文献的全面调查，截至 2024 年 7 月，arXiv.org 上已有超过 11,354 条相关参考文献。

本报告分为三个部分。

第 2 节讨论预测性AI系统。第 2.1 节介绍了预测性AI系统的攻击分类，定义了攻击者目标和目的的广泛类别，并识别攻击者必须利用的相应能力。还介绍了每种能力类型的特定攻击类别。第 2.2、2.3 和 2.4 节分别讨论了主要攻击类别：规避、投毒和隐私攻击。每个攻击类别部分都提供了针对该类别的缓解措施。
第 3 节讨论生成式AI系统。第 3.1 节介绍了生成式AI系统的攻击分类，并定义了与这些系统相关的攻击者目标和目标的广泛类别。还介绍了每种能力类型的特定攻击类别，以及相关的缓解措施。
第 4 节讨论了该领域的关键挑战，包括广泛使用的缓解技术的局限性。其目的是提高对 AML 领域开放问题的认识，并关注可能塑造未来风险和风险管理实践的趋势。

2. 预测性AI分类

2.1. 攻击分类

图 1 介绍了针对预测性AI系统的 AML 攻击分类，基于攻击者目标和目标、能力和知识。

攻击者的攻击目标以目标圈表示：可用性中断、完整性破坏和隐私泄露。攻击者必须利用的能力在目标圈外层显示。攻击类别作为与所需能力相关的攻击类别连接的提示框显示。需要相同能力来达到相同目标的多个攻击类别在一个提示框中显示。这些攻击是根据以下维度进行分类的：1）训练方法和攻击发生的训练过程阶段，2）攻击者目标和目的，3）攻击者能力，以及 4）攻击者对训练过程的了解。几项先前的对抗性攻击分类框架 [42, 358] 已经引入，目标是为机器学习中的对抗性攻击创建标准化术语。

2.1.1. 训练阶段

预测性机器学习涉及一个训练阶段，在该阶段训练模型，以及一个部署阶段，在该阶段模型被部署在新的、未标记的数据样本上以生成预测。在监督学习中，标记的训练数据作为输入提供给训练阶段的训练算法，机器学习模型通过最小化特定损失函数进行优化。在部署之前，通常会对机器学习模型进行验证和测试。常见的监督学习技术包括分类，其中预测的标签或类别是离散的，以及回归，其中预测的标签或响应变量是连续的。

机器学习文献中的其他训练范式包括无监督学习，在训练时使用未标记数据训练模型；半监督学习，其中少量样本有标签，而大多数样本未标记； 强化学习，其中代理与环境交互并学习最优策略以最大化其奖励；联邦学习，其中一组客户端通过与服务器通信联合训练机器学习模型，服务器执行模型更新的聚合；以及集成学习，这是一种通过结合多个模型的预测来寻求更好预测性能的方法。

大多数预测性AI模型是判别性的，即仅学习决策边界，例如逻辑回归、支持向量机和卷积神经网络。生成式AI模型也可用于预测性任务，例如情感分析 [125]。

AML 文献主要考虑在训练阶段或部署阶段可能发生的对抗性攻击。在训练阶段，攻击者可能控制部分训练数据、其标签、模型参数或代码，导致不同类型的投毒攻击。在部署阶段，机器学习模型已经训练完成，攻击者可以发起规避攻击以创建完整性损害并改变机器学习模型的预测，以及隐私攻击以推断训练数据或机器学习模型的敏感信息。

训练阶段攻击。投毒攻击 [40] 发生在机器学习训练阶段。在数据投毒攻击 [40, 148] 中，攻击者控制一组训练数据的子集，通过插入或修改训练样本。在模型投毒攻击 [222] 中，攻击者控制模型及其参数。数据投毒攻击适用于所有训练范式，而模型投毒攻击在联邦学习 [190] 中最为普遍，其中客户端向聚合服务器发送本地模型更新，以及在供应链攻击中，模型供应商可能向模型添加恶意代码。

部署阶段攻击。其他类型的攻击可以在部署模型时发起。规避攻击修改测试样本以创建对抗性示例，这些示例与原始样本相似（例如，根据某些距离度量），但改变了模型预测以符合攻击者的选择，而人类通常无法察觉这些变化 [38, 144, 362]。其他攻击，如可用性攻击和隐私攻击（包括成员推断 [342] 和数据重建 [110]），也可以通过查询已部署的机器学习模型来发起。

2.1.2. 攻击者目标和目的

攻击者的目标按照分析系统安全性时考虑的三种主要系统属性进行分类：可用性中断、完整性破坏和隐私泄露。图 1 将攻击分为三个不相交的类别，每个类别的中心是攻击目标，攻击者的目标在目标圈中心显示。

可用性中断 [NISTAML.01] 。可用性中断攻击是一种故意干扰预测性AI系统以破坏其他用户或进程及时可靠地获取其服务的能力的攻击。这种攻击类型可能在训练或部署时发起，尽管其影响通常在部署时体验。可用性攻击可以通过数据投毒、模型投毒或作为查询访问的能源延迟攻击来发起。数据投毒可用性攻击已在支持向量机 [40]、线性回归 [179] 和神经网络 [228, 260] 中提出，而模型投毒攻击已针对神经网络 [222] 和联邦学习 [22] 设计。
能耗延迟攻击 [NISTAML.014] 。最近，能源延迟攻击是一种仅需要对模型进行黑盒访问的可用性攻击，已在多种计算机视觉和自然语言处理任务的神经网络中开发 [345]。

译者注：能耗延迟攻击：

核心含义：通过增加模型的能源消耗（Energy Consumption）和响应延迟（Latency），破坏系统可用性的攻击手段。

攻击机制：（1）能源消耗：攻击者发送复杂查询，迫使模型进行高强度计算，导致服务器能耗激增（如GPU过载）。（2）延迟增加：通过大量请求占用计算资源，延长正常用户请求的响应时间，甚至引发服务中断。（3）黑盒攻击特性*：无需了解模型内部结构，仅需API接口即可实施。*

完整性破坏 [NISTAML.02] 。完整性破坏攻击是一种故意干扰预测性AI系统以迫使其违反其预期目标并产生符合攻击者目标的预测的攻击。攻击者可以通过在部署时发起规避攻击或在训练时发起投毒攻击来造成完整性违规。规避攻击要求在测试时修改测试样本以创建对抗性示例，这些示例在人类看来与原始样本相似，但模型预测被攻击者选择的目标类别所改变，通常对人类来说难以察觉 [38, 144, 362]。投毒攻击的目标完整性违规可以分为目标投毒攻击 [137, 330]、后门投毒攻击 [148] 和模型投毒 [22, 36, 123]。目标投毒尝试违反少量目标样本的完整性，并假设攻击者控制训练数据以插入投毒样本。后门投毒攻击需要生成后门模式，该模式被添加到投毒样本和测试样本中，以导致错误分类。后门攻击是唯一需要同时控制训练和测试数据的攻击。模型投毒攻击可能导致目标或后门攻击，攻击者修改模型参数以导致完整性破坏。这些攻击已针对集成学习 [222] 和联邦学习 [22, 36] 设计。
隐私泄露 [NISTAML.03]。隐私泄露攻击导致人工智能系统中限制或专有信息的意外泄露，包括关于模型训练数据、权重或架构的详细信息 [100, 309]。尽管在 AML 领域中使用 “保密性” 一词比传统网络安全攻击分类中的 “隐私” 更为常见，但 AML 领域倾向于使用顶级术语 “隐私” 来涵盖既包括攻击针对模型保密性（例如，提取模型权重或架构信息）的攻击，也包括那些违反模型输出预期隐私属性的攻击（例如，通过泄露模型训练数据） [310]。数据保密性在机器学习训练期间可以通过基于密码学技术的安全计算方法实现，以确保在训练阶段训练数据和模型参数得到保护 [2, 253, 288, 385]。然而，即使在训练期间保密性得到保护的模型，也可能在部署时受到隐私攻击，攻击者通过与模型的交互可以提取有关其训练数据或模型参数的信息。本报告关注部署时的隐私攻击，无论训练方法如何，或是否在训练期间维护了数据保密性。在隐私攻击中，攻击者可能对训练数据感兴趣（导致数据隐私攻击），或对机器学习模型感兴趣（导致模型隐私攻击）。攻击者可能对训练数据有多种目标，例如数据重建（DATA RECONSTRUCTION） [110]（推断训练数据的内容或特征）、成员推断（MEMBER SHIP- INFERENCE ATTACK） [162, 343]（推断数据是否包含在训练集中）、训练数据提取（TRAINING DATA EXTRACTION） [59, 63]（从生成模型中提取训练数据）、属性推断攻击（ATTRIBUTE INFERENCE ATTACk）[184, 409]（推断训练记录的敏感属性）和属性推断（PROPERTY INFERENCE）[134]（推断训练数据分布的属性）。模型提取是针对模型隐私的攻击，攻击者试图提取有关模型的信息 [177]。

2.1.3. 攻击者能力

AML 攻击可以根据攻击者控制的能力进行分类。攻击者可能利用六种类型的能力来实现其目标，如图 1 中目标圈外层所示：

训练数据控制(TRAINING DARA CONTROL) ：攻击者可以控制训练数据的子集，通过插入或修改训练样本。这种能力用于数据投毒攻击（例如，可用性投毒、目标或后门投毒）。
模型控制(MODEL CONTROL) ：攻击者可以控制模型参数，例如通过在训练中生成特洛伊触发器并将其插入模型，或在联邦学习中发送恶意的本地模型更新。
测试数据控制(TESTING DATA CONTROL) ：攻击者可以在模型部署时向测试样本添加扰动，如规避攻击中生成对抗性示例或后门投毒攻击。
标签限制(LABEL LIMIT) ：这种能力与监督学习中攻击者对训练样本标签的控制有关。清洁标签投毒攻击假设攻击者无法控制投毒样本的标签，而常规投毒攻击假设攻击者对投毒样本的标签有控制权。
源代码控制(SOURCE DATA CONTROL) ：攻击者可以修改机器学习算法的源代码，例如随机数生成器或任何第三方库，这些通常是开源的。
查询访问(QUERY ACCESS) ：攻击者可以向模型提交查询并接收预测（即，标签或模型置信度），例如，与作为机器学习即服务（MLaaS）提供的云服务托管人工智能系统交互时。这种能力用于黑盒规避攻击、能耗延迟攻击以及所有不依赖于模型训练数据、架构或参数知识的隐私攻击。

即使攻击者不具备修改训练/测试数据、源代码或模型参数的能力，获取这些信息对于发动需要了解 ML 系统的更强大的白盒攻击仍然至关重要。有关攻击者知识的更多详情以及白盒攻击和黑盒攻击的详细定义，请参见第 2.1.4 节。

图 1 将每个攻击类别与其所需的能力连接起来。例如，后门攻击需要控制训练和测试数据以插入后门模式。后门攻击也可以通过源代码控制进行，特别是在训练外包给更强大实体的情况下。清洁标签后门攻击不允许对投毒样本的标签进行控制，除了后门攻击所需的其他能力。

2.1.4. 攻击者知识

另一个攻击分类维度是攻击者对机器学习系统的了解程度。有三种主要类型的攻击：

白盒攻击：这些攻击假设攻击者对机器学习系统有完全了解，包括训练数据、模型架构和模型超参数。尽管这些攻击在非常强的假设下进行，分析它们的主要原因是测试系统对最坏情况攻击者的脆弱性，并评估潜在缓解措施 [97, 375]。这种定义更一般，包括对抗性攻击文献中经常讨论的适应性攻击概念，其中明确跟踪攻击者对模型的缓解措施的信息。
黑盒攻击：这些攻击假设攻击者对机器学习系统了解最少，有时甚至没有信息。攻击者可能对模型有查询访问权限，但他们对模型的训练方式没有其他信息。这些攻击是最实用的，因为它们假设攻击者对人工智能系统没有了解，并利用系统接口通常可用于正常用途。
灰盒攻击：存在一系列介于黑盒和白盒攻击之间的灰盒攻击。例如，攻击者可能知道模型架构但不知道其参数，或者攻击者可能知道模型及其参数但不知道训练数据。其他常见的灰盒攻击假设攻击者拥有与训练数据分布相同的输入数据，并且知道特征表示。在特征提取是训练机器学习模型之前的常见步骤的应用中，这种假设很重要，例如在网络安全、金融和医疗保健领域。

2.1.5. 数据模态

直到最近，对抗性机器学习中的大多数攻击和防御都仅限于单一模态，但该领域的一个新趋势是使用多模态数据。图 1 中的攻击分类与特定应用中的数据模态无关。

文献中最常见的数据模态包括：

图像：图像数据 [144, 362] 的对抗性示例具有连续域的优势，可以直接应用基于梯度的方法进行优化。后门投毒攻击最早是在图像 [148] 中发明的，许多隐私攻击也在图像数据集上进行（例如 [342]）。图像模态还包括其他类型的成像（例如，LIDAR、SAR、IR、高光谱）。
文本：文本是流行的数据模态，所有类别的攻击都已针对文本模型提出，包括规避 [150]、投毒 [82, 213] 和隐私 [426]。
音频：音频系统和从音频信号生成的文本也已受到攻击 [66]。
视频：视频理解模型已显示出在视觉和语言任务中的能力 [428]，但这些模型也容易受到攻击 [402]。
网络安全：网络安全数据可能不包括单一模态，而是包括网络级、主机级或程序级数据。例如，最早的投毒攻击是在网络安全中发现的，用于生成蠕虫签名 [291] 和垃圾邮件分类 [269]。此后，投毒攻击已应用于恶意软件分类、恶意 PDF 检测和 Android 恶意应用分类 [329]。规避攻击也针对类似的网络安全数据模态提出，例如恶意软件分类 [103, 357]、PDF 恶意软件分类 [352, 414]、Android 恶意应用检测 [295] 和网络入侵检测 [93]。对无监督学习模型的投毒攻击也已应用于网络安全，例如用于恶意软件分类的聚类 [41] 和网络流量异常检测 [315]。
表格数据：许多针对机器学习模型的攻击也针对表格数据，例如针对医疗保健和商业应用的可用性投毒攻击 [179]，针对医疗保健数据的隐私攻击 [422]，以及针对金融应用的规避攻击 [141]。

最近，使用机器学习模型处理多模态数据的趋势日益增长，特别是将图像和文本数据模态结合起来。一些研究表明，多模态模型可能对攻击具有一定的弹性 [417]，但其他研究表明，多模态模型本身也可能容易受到同时针对所有模态的攻击 [77, 333, 415]（见 Sec. 4.2.3）。

一个尚未解决的挑战是测试并评估多种多模态机器学习模型在逃避攻击、投毒攻击和隐私攻击下的鲁棒性。

2.2. 规避攻击和缓解措施

【NISTAML.022】

在过去十年中，规避攻击的发现推动了对抗性机器学习研究的显著增长。在规避攻击中，攻击者的目标是生成对抗性示例：样本的分类可以被攻击者选择的任意类别所改变，通常只需要进行最小的扰动 [362]。例如，在图像分类的上下文中，对原始样本的扰动可能如此之小，以至于人类无法观察到输入的转换；然而，机器学习模型可能会被欺骗，将对抗性示例错误分类为攻击者选择的目标类别，而人类仍然将图像识别为原始类别的一部分。规避攻击的早期已知实例可以追溯到 1988 年的 Kearns 和 Li [192] 以及 2004 年的 Dalvi 等人 [98] 和 Lowd 和 Meek [226]，他们展示了用于垃圾邮件过滤器的线性分类器中对抗性示例的存在。后来，Szedegy 等人 [362] 和 Biggio 等人 [38] 独立发现了生成对抗性示例的有效方法，通过将梯度优化应用于对抗性目标函数。这两种技术都需要对模型架构和参数有白盒访问权限，这些技术随后被改进为生成具有更小扰动的对抗性示例 [20, 65, 232]。

对抗性示例也适用于更现实的黑盒设置，其中攻击者仅获得对训练模型的查询访问权限。即使在更具挑战性的黑盒设置中，攻击者仅获得模型的预测标签或置信度，深度神经网络仍然容易受到对抗性示例的影响。用于在黑盒设置中创建对抗性示例的方法包括零阶优化 [80]、离散优化 [254]、贝叶斯优化 [344]，以及通过将白盒生成的对抗性示例转移到目标模型上实现的可转移性 [282, 283, 377]。尽管网络安全和图像分类是最早展示规避攻击的领域，但机器学习技术在许多其他应用领域也受到了审视，包括语音识别 [66]、自然语言处理 [185] 和视频分类 [215, 401]。

译者注：

通过将梯度优化应用于对抗性目标函数（非技术解释）

1. 什么是“梯度优化”？

梯度（Gradient）：可以理解为“调整方向”。比如，你想让一个模型（比如图像分类器）犯错，就需要知道如何微调输入数据（比如图片），让它被误判。
优化（Optimization）：就是不断调整输入数据，直到模型给出错误的答案。

2. 什么是“对抗性目标函数”？

目标函数（Objective Function）：在这里，攻击者的目标是让模型犯错，比如让一张“猫”的图片被识别成“狗”。
对抗性（Adversarial）：攻击者希望找到最小的修改（比如图片上几乎不可见的噪声），让模型出错。

3. 结合起来是什么意思？

攻击者使用数学方法（梯度优化）计算如何最有效地修改输入数据（比如图片、文本），使得模型犯错。这个过程是自动的，计算机通过计算“怎么改最容易让模型出错”来生成对抗样本。

4. 举个具体例子（图像分类）

正常情况：一张“停车标志”图片被正确识别为“停车标志”。

• 对抗攻击：攻击者计算如何轻微调整像素（人眼几乎看不出变化），让模型误判为“限速标志”。

• 方法：计算机自动计算哪些像素需要调整、调整多少，才能让模型犯错。

5. 为什么这很重要？

安全风险：如果攻击者能轻易让AI系统误判，可能会被用于欺骗自动驾驶、人脸识别或内容审核系统。
防御方法：研究人员会训练模型抵抗这种攻击，比如让模型在训练时“见过”类似的对抗样本，提高鲁棒性。

总结

“通过将梯度优化应用于对抗性目标函数”是指：

攻击者用数学方法计算如何微调输入数据（如图片、文本）。
目标是让AI模型犯错（如误分类或生成错误输出）。
整个过程是自动化的，计算机通过优化算法找到最有效的攻击方式。

这是一种技术性较强的攻击手段，但核心思想是“计算如何最小程度地修改输入，让AI系统出错”。

针对对抗性示例的缓解措施是该领域的一个众所周知的挑战，值得进一步研究和调查。该领域在发布针对相对弱对抗性模型的防御措施方面有着悠久的历史，这些防御措施随后被更强大的攻击所破坏。缓解措施需要在强大的适应性攻击下进行评估，已经为评估新提出的缓解技术的稳健性建立了指南 [97, 375]。最有可能的对抗关键威胁（即规避攻击）的方向包括对抗性训练 [144, 232]（迭代生成并插入对抗性示例及其正确标签进行训练）、认证技术（例如，随机化平滑 [94]，在噪声下评估机器学习预测）以及形式化验证技术 [136, 191]（应用形式化方法技术验证模型输出）。然而，这些方法各有局限性，例如对抗性训练和随机化平滑会降低准确性，而形式化方法的计算复杂度较高。准确性和稳健性之间存在固有的权衡 [374, 379, 433]。同样，模型的稳健性与公平性保证之间也存在权衡 [71]。

2.2.1. 白盒规避攻击

在白盒威胁模型中，攻击者对模型架构和参数拥有完全知识，正如第2.1.4节所讨论的那样。此类攻击的主要挑战是找到一种添加到测试样本中的扰动，以改变其分类标签，通常会对扰动的属性（例如，扰动的可察觉性或大小）施加约束。在白盒威胁模型中，通常通过从攻击者的角度解决优化问题来生成对抗样本，该问题指定了优化目标（例如，将目标标签更改为特定类别），以及用于测量测试样本与对抗样本之间相似性的距离度量。

基于优化的方法。Szezegy等人[362]和Biggio等人[38]独立提出了使用优化技术来生成对抗样本。在他们的威胁模型中，攻击者被允许检查整个机器学习模型，并计算相对于模型损失函数的梯度。这些攻击可以是有针对性的（即，对抗样本的目标类别由攻击者选择），也可以是无目标的（即，对抗样本被错误分类为任何其他错误类别）。

Szezegy等人[362]首次提出了“对抗样本”这一广泛使用的术语。他们考虑了一个目标，即在模型预测改变为目标类别的前提下，最小化2范数的扰动。该优化问题使用有限内存Broyden–Fletcher–Goldfarb–Shanno（L-BFGS）方法求解。Biggio等人[38]考虑了二元分类器的设置，其中恶意和良性类别具有连续可微的判别函数。优化的目标是最小化判别函数，以生成最大置信度的对抗样本。

Biggio 等人[38]将他们的方法应用于线性分类器、核 SVM 和多层感知器，而 Szedegy 等人[362]则证明了用于图像分类的深度学习模型存在对抗示例。Goodfellow等人[144]提出了快速梯度符号法（FGSM），这是一种用于生成深度学习对抗样本的高效方法，仅通过一次梯度下降迭代来解决优化问题。该方法已被扩展为迭代FGSM攻击，由Kurakin等人[200]提出。

随后的研究提出了新的目标和优化对抗样本生成的方法，目标是减少扰动并支持多种距离度量。一些值得注意的攻击包括：

DeepFool是一种针对2范数的无目标对抗攻击，它使用神经网络的线性近似来构建对抗样本[257]。
Carlini-Wagner攻击使用多种目标，最小化目标类别上的损失或逻辑值以及对抗样本与原始样本之间的距离。该攻击通过惩罚方法进行优化，并考虑了三种距离度量来衡量对抗样本的扰动：0、2和∞范数。该攻击已成功对抗防御蒸馏防御[284]。
项目梯度下降（PGD）攻击[232]最小化损失函数，并在每次梯度下降迭代中将对抗样本投影到允许的扰动空间内。PGD可以应用于2和∞范数，用于衡量对抗样本的扰动。

通用规避攻击

Moosavi-Dezfooli等人[256]展示了如何构建小的通用扰动（相对于某种范数），这些扰动可以添加到大多数图像中，从而引起误分类。他们的技术依赖于从数据分布中采样一组点来连续优化通用扰动。这种攻击是一种功能性攻击。一个有趣的观察结果是，通用扰动在不同模型架构中具有相似性，这表明不同模型针对同一任务训练的决策边界具有相似性。

物理可实现攻击

这些是在物理世界中可以实际实现的对抗机器学习攻击[21, 200, 227]。其中一个最早的实例是针对面部识别系统的攻击，Sharif等人[332]展示了如何通过打印一副眼镜框架来误导面部识别系统，使其要么偏离车道，要么冒充另一个人。Eykholt等人[122]提出了一种攻击方法，通过在道路标志上物理应用黑白贴纸来生成对视觉分类器稳健性的对抗样本。这些贴纸可以在不同的环境条件下（例如不同的视角、光照条件和相机限制）生存，从而增加了对抗样本的稳健性。ShapeShifter[81]攻击旨在使目标检测器失效，这比攻击图像分类器更具挑战性，因为攻击者需要在具有不同尺度的多个边界框中使分类失效，同时还需要使扰动能够承受真实世界中的失真。

其他数据模态

在计算机视觉应用中，对抗样本通常被设计为对人类不可察觉的。因此，攻击者引入的扰动需要足够小，以便人类能够正确识别图像，而机器学习分类器却被误导以改变其预测。对抗样本的概念已扩展到其他领域，例如音频、视频、自然语言处理和网络安全。在这些设置中，对抗样本可能需要尊重额外的约束，例如自然语言处理中的文本语义以及网络安全应用中的应用约束。一些代表性的工作包括：

音频：Carlini和Wagner[66]展示了一种针对从语音生成文本的模型的针对性攻击。他们可以生成一个与现有音频波形非常相似的音频波形，但可以将其转录为攻击者选择的任何文本。
视频：针对视频分类模型的对抗逃避攻击可以分为稀疏攻击（仅扰动少量视频帧）和密集攻击（扰动视频中的所有帧）[401, 215]。攻击者的目标是改变视频的分类标签。
自然语言处理：Jia和Liang[185]开发了一种生成对抗文本样本的方法。这一开创性工作随后引发了针对自然语言处理（NLP）模型的对抗攻击的许多进展（参见关于该主题的全面综述[438]）。La Malfa和Kwiatkowska[202]提出了一种在NLP中正式化扰动定义的方法，引入了语义稳健性的概念。NLP中的主要挑战是该领域是离散的，而不是连续的（例如，图像、音频和视频分类），并且对抗样本需要尊重文本语义。这些挑战在ASCII艺术攻击[186]中得到了说明，该攻击利用ASCII艺术插图欺骗聊天机器人提供有害信息，即使聊天机器人正确审查了普通英语单词，这两个提示的语义距离也恰好为零，它们本应被视为相同的。
网络安全：在网络空间安全应用中，对抗样本必须尊重应用语义和特征表示所施加的约束，例如网络流量或程序二进制文件的特征。FENCE是一个用于在离散域中使用梯度优化生成白盒逃避攻击的一般框架，支持一系列线性和统计特征依赖关系[88]。FENCE已应用于两个网络安全应用：恶意域名检测和恶意网络流量分类。Sheatsley等人[334]提出了一种通过形式逻辑学习特征空间中的约束，并通过将它们投影到符合约束的空间中来生成对抗样本的方法。他们将该技术应用于网络入侵检测和网络钓鱼分类器。这两篇论文都观察到，从连续域中无法直接应用攻击，因为它们会导致不可行的对抗样本。Pierazzi等人[295]讨论了在网络空间安全中实施可行的逃避攻击的困难，其中攻击者需要在问题空间中插入特洛伊功能，而不是在特征空间中。他们还讨论了如何在网络空间安全中将攻击从特征空间映射到问题空间，并为LLM生成器构建可行的对抗目标。

2.2.2. 黑盒规避攻击

【NISTAML.025】

黑盒逃避攻击是根据一种现实的对抗模型设计的，在这种模型中，攻击者对模型架构或训练数据没有任何先验知识。相反，攻击者可以通过向训练好的机器学习模型查询各种数据样本并获得模型的预测结果来与模型交互。类似的API由公共云提供商提供的机器学习即服务（MLaaS）提供，用户可以通过选定的查询获得模型对数据的预测结果，而无需了解模型是如何训练的。

许多生成对抗样本的方法可以分为两类：

基于分数的攻击：在这种设置中，攻击者可以获得模型的置信度分数或逻辑值，并可以使用各种优化技术来创建对抗样本。一种流行的方法是零阶优化，它通过不显式计算导数来估计模型的梯度[80, 173]。其他优化技术包括离散优化[254]、自然进化策略[172]和随机游走[262]。
基于决策的攻击：在这种更具限制性的设置中，攻击者只能获得模型的最终预测标签。边界攻击是基于随机游走沿着决策边界进行的攻击，并通过拒绝采样来减少对模型的查询次数[47]，该攻击已通过改进的梯度估计扩展为HopSkipJumpAttack[79]。最近，一些优化方法通过搜索最近决策边界的方向（例如OPT攻击[86]）、使用符号SGD代替二分查找（例如Sign-OPT攻击[87]）或使用贝叶斯优化[344]来减少对模型的查询次数。

在黑盒规避攻击中，攻击者面临的最大挑战是减少对机器学习模型的查询次数。最近的技术可以在相对较少的查询次数（通常少于1000次）内成功欺骗机器学习分类器[344]。

2.2.3 攻击的可转移性

另一种在受限威胁模型下生成对抗攻击的方法是将针对不同机器学习模型的攻击进行转移。通常，攻击者训练一个替代机器学习模型，在替代模型上生成白盒对抗攻击，然后将这些攻击转移到目标模型上。不同的方法在如何训练替代模型方面有所不同。例如，Papernot等人[282, 283]通过向目标模型查询分数来训练替代模型，而一些论文则在不明确查询目标模型的情况下训练一组模型[218, 377, 397]。

攻击可转移性是一个有趣的现象，现有文献试图解释对抗样本在不同模型之间能够转移的根本原因。一些论文观察到，不同模型在良性维度和对抗维度上都学习了相交的决策边界，这导致了更好的攻击可转移性[144, 256, 377]。Demontis等人[104]确定了攻击可转移性的两个主要因素：目标模型的内在对抗脆弱性和用于优化攻击的替代模型的复杂性。

期望过变换（EOT）旨在使对抗样本能够承受在现实世界中发生的图像变换，例如角度和视角变化[21]。

2.2.3. 现实世界中的规避攻击

尽管本节讨论的许多攻击仅在研究环境中得到证明，但仍有一些逃避攻击在现实世界中得到了证明，我们讨论了面部识别系统、网络钓鱼网页检测和恶意软件分类中的突出实例。

面部识别系统用于身份验证，是进入关键系统的入口点，使用户能够进行金融欺诈。在2020年下半年，ID.me面部识别服务发现了超过80,000次用户试图愚弄其身份验证步骤的尝试，这些步骤被多个州劳动力机构使用[276]。这些攻击包括人们佩戴面具、使用深度伪造技术或使用其他人的照片或视频。2022年，根据美国联邦检察官的说法，一名新泽西男子能够通过ID.me验证伪造的驾驶执照，作为250万美元失业欺诈计划的一部分。这一次，嫌疑人使用各种假发来逃避面部识别系统[156]。

Apruzzese等人[17]报告了一个针对商业网络钓鱼网页检测器的攻击案例。该机器学习网络钓鱼检测器是一个集成多个模型的集成，这些模型分析图像的不同方面以确定其是否为网络钓鱼尝试。被模型标记为不确定的输入中有4600个样本，作者识别出其中100个对抗样本。有趣的是，对这些对抗样本的手动分析表明，攻击者并未采用基于优化的攻击方法，而是采用了相对简单的图像裁剪、遮罩或模糊技术。

其他由研究人员在恶意软件分类中展示的逃避攻击的示例被记录在MITRE对抗性人工智能系统威胁图谱（ATLAS）知识库中[248]。Palo Alto Networks报告了针对恶意软件命令与控制流量的深度学习检测器以及针对僵尸网络域名生成算法（DGA）检测器的逃避攻击。研究人员还发现了针对Cylance的AI恶意软件检测模型的通用逃避攻击实例。研究人员通过训练一个影子机器学习模型，并利用该模型的见解来攻击真实系统，从而规避了ProofPoint的电子邮件保护系统。这些是研究人员对逃避漏洞的演示，但并未导致实际中的攻击。

2.2.4. 对抗样本的缓解措施

缓解对抗样本的挑战在于，对抗样本广泛存在于各种机器学习模型架构和应用领域中。许多提出的针对对抗样本的缓解措施对更强的攻击无效。此外，一些论文还对大量提出的缓解措施进行了广泛的评估，并击败了许多提出的基于检测对抗样本的方法：

Carlini和Wagner展示了如何绕过10种检测对抗样本的方法，并描述了评估防御措施的几个指南[64]。最近的研究表明，检测对抗样本与构建防御一样具有挑战性[373]。因此，这种方向上对抗样本缓解的方向与设计防御一样具有挑战性。
Obfuscated Gradients攻击[20]是专门设计用来击败基于梯度掩蔽的防御的，这些防御用于抵御基于优化的攻击。它依赖于一种新的技术，即反向传播的近似梯度，该技术在反向传播过程中近似梯度，并被证明可以绕过许多基于梯度掩蔽的防御。
Tramèr等人[375]描述了一种设计适应性攻击以测试新提出的防御的方法，并绕过了13种现有防御。他们倡导设计适应性攻击以测试新提出的防御，而不是仅仅测试防御是否能够抵御已知的攻击。

从广泛提出的针对对抗样本的防御措施中，有三种主要类别已被证明对对抗样本具有一定的缓解潜力：

对抗训练：由Goodfellow等人[144]提出并由Madry等人[232]进一步发展，对抗训练是一种通用方法，通过在训练过程中迭代生成对抗样本并使用它们的正确标签来增强训练数据。攻击者用于生成对抗样本的对抗性攻击越强，训练出的模型就越具有稳健性。对抗训练使模型具有比标准模型更符合语义的特征，但这通常是以降低模型在干净数据上的准确性为代价的。此外，对抗训练在训练过程中迭代生成对抗样本，成本较高。
随机平滑：由Lecuyer等人[207]提出并由Cohen等人[94]进一步改进，随机平滑是一种将任何分类器转换为可认证的稳健性平滑分类器的方法，通过在高斯噪声扰动下产生最可能的预测。这种方法为2范数对抗攻击提供了可证明的稳健性，即使对于在大规模数据集（如ImageNet）上训练的分类器也是如此。随机平滑通常为测试样本的一个子集提供认证预测，确切的数量取决于因素，例如潜在扰动的大小或训练数据和模型的特征。最近的结果已将对抗稳健性的认证扩展到 2范数有界扰动，通过结合预训练的去噪扩散概率模型和标准高精度分类器[62]。Li等人[211]开发了代表性算法的鲁棒性验证和训练分类的分类法。他们还揭示了这些方法的特征、优势、局限性以及这些方法之间的基本联系，并讨论了该领域的理论障碍。
形式化验证：另一种为神经网络提供对抗稳健性认证的方法是基于形式化方法的技术。Reluplex使用可满足性模理论（SMT）求解器来验证小前馈神经网络的鲁棒性[191]。AI2是第一个适用于卷积神经网络的验证方法，使用抽象解释技术[136]。这些方法已扩展并扩展到更大的网络，后续的验证系统包括DeepPoly[346]、ReluVal[394]和快速几何投影（FGP）[131]。形式化验证技术在为神经网络鲁棒性提供认证方面具有巨大潜力，但受到其缺乏可扩展性、计算成本高以及对支持的代数运算类型（如加法、乘法等）的限制。

所有这些提出的缓解措施都存在稳健性与准确性之间的固有权衡，并且在训练过程中会带来额外的计算成本。因此，设计能够抵抗逃避攻击同时保持准确性的机器学习模型仍然是一个开放性问题。第4.1.1节进一步讨论了这些权衡。

2.3. 投毒攻击与缓解措施

投毒攻击被广泛定义为在机器学习算法的训练阶段发生的对抗性攻击。首个已知的投毒攻击是2006年针对蠕虫签名生成的攻击[291]。自那时以来，投毒攻击已在多个应用领域得到了广泛研究：计算机安全（用于垃圾邮件检测[269]、网络入侵检测[384]、漏洞预测[318]、恶意软件分类[329, 412]）、计算机视觉[137, 148, 330]、自然语言处理[82, 213, 388]以及医疗保健和金融领域的表格数据[179]。近年来，投毒攻击在工业应用中也受到了更多关注[199]。它们甚至可以通过大规模操纵来控制用于模型训练的公共数据集的一部分[57]。

投毒攻击具有强大的能力，可以导致可用性或完整性破坏。可用性投毒攻击通常会无差别地降低整个机器学习模型的性能，而定向和后门投毒攻击则会诱导模型在一小部分目标样本上出现完整性破坏。投毒攻击利用了广泛的对抗性能力（例如，数据投毒、模型投毒、标签控制、源代码控制和测试数据控制），从而导致了投毒攻击的多个子类别。这些攻击适用于所有训练范式，而模型投毒攻击在联邦学习[22]中最为普遍，也可能出现在供应链攻击中，恶意代码可能被模型供应商添加到模型中[190]。

本节描述了根据攻击者的对抗目标对投毒攻击进行分类，这些目标包括训练阶段的攻击、部署阶段的攻击以及攻击者目标和目的的分类。对于每种投毒攻击类别，还讨论了实施攻击的技术、现有缓解措施及其局限性。本节中对投毒攻击的分类灵感来自于Cinà等人开发的框架[91]，该框架还包括了其他投毒攻击和缓解措施的额外参考。

2.3.1. 可用性投毒攻击

【NISTAML.013】

首次在网络安全应用中发现的投毒攻击是针对蠕虫签名生成和垃圾邮件分类器的可用性攻击，这些攻击无差别地降低整个机器学习模型的性能，以有效阻止其使用。Perdisci等人[291]通过生成带有虚假不变量的可疑流量，误导Polygraph[270]中的蠕虫签名生成算法。Nelson等人[269]针对基于贝叶斯的垃圾邮件分类器设计了投毒攻击，通过生成包含合法电子邮件中出现的长单词序列的“垃圾邮件”训练样本，通过增加误报率来降低垃圾邮件分类器的性能。这两种攻击都是在白盒设置下进行的，攻击者了解机器学习训练算法、特征表示、训练数据集和机器学习模型。可用性投毒攻击还针对用于检测针对工业控制系统的网络安全攻击的基于机器学习的系统提出：这些检测器通常使用在系统运行期间收集的数据重新训练，以考虑被监控信号的操作漂移，这为攻击者提供了在训练时模仿受损传感器信号以投毒检测器的机会，使得真实攻击在部署时未被检测到[198]。

简单的黑盒投毒攻击策略是标签翻转，攻击者生成带有错误或更改标签的训练样本[39]。这种攻击可能需要大量中毒样本才能发起可用性攻击。这些攻击也可以通过优化方法来制定，例如通过求解双层优化问题来确定实现对抗目标的最佳中毒样本（例如，最大化支持向量机的合页损失[40]或最大化回归的均方误差[MSE][179]）。类似的优化型可用性投毒攻击可能需要白盒访问模型和训练数据。在灰盒对抗设置中，针对目标模型的最流行的投毒攻击方法是通过可转移性，即在替代模型上生成中毒样本，然后将其转移到目标模型上[104, 358]。

清洁标签投毒攻击【NISTAML.012】是一种现实威胁模型，用于监督学习，其中攻击者只能控制训练样本，但不能控制其标签。这可能出现在标签过程与训练算法无关的场景中，例如在恶意软件分类中，二进制文件可以由攻击者提交给威胁情报平台，而标签则是使用防病毒签名或其他外部方法生成的。清洁标签可用性攻击已通过训练生成模型并向训练样本添加噪声以最大化对抗目标[128]引入。清洁标签投毒攻击的另一种方法是通过梯度对齐来最小化对训练数据的修改[129]。

可用性投毒攻击已针对无监督学习设计，用于对抗基于质心的异常检测[195]和恶意软件的行为聚类[41]。在联邦学习中，攻击者可以发起模型投毒攻击，以在全局训练模型中诱导可用性违规[123, 335, 336, 337]。关于模型投毒攻击的更多详细信息，请参阅第2.3.4节。

缓解措施。可用性投毒攻击通常可以通过监控机器学习模型的标准性能指标（例如，精确度、召回率、准确度、F1分数和曲线下面积）来检测，因为它们会导致分类器指标大幅下降。然而，检测这些攻击可能并不理想，尤其是在测试或部署阶段，许多现有缓解措施旨在在训练阶段主动防止这些攻击，以生成鲁棒的机器学习模型。现有缓解措施包括：

训练数据清理：这些方法利用中毒样本通常与不受攻击者控制的常规训练样本不同的见解。因此，数据清理技术旨在清理训练集并移除中毒样本，然后再进行机器学习训练。Cretu等人[96]提出了首个针对未标记数据集的数据清理程序，该程序依赖于在训练集的子集上训练的多个模型的多数投票。Nelson等人[269]引入了区域非兴趣（RONI）方法，该方法检查每个样本，并在添加样本时排除它，如果添加样本时模型的准确性降低。随后提出的数据清理方法改进了这些早期方法，降低了计算复杂性，并考虑了其他应用。Paudice等人[289]引入了一种针对标签翻转攻击的标签清理方法。Steinhardt等人[354]提出了使用异常检测方法来识别中毒样本。还可以通过计算多个机器学习模型集成的预测方差来检测中毒样本[203, 363]。一旦清理完成，数据集可以通过网络安全机制进行保护，以证明其来源和完整性[267]。
稳健性训练：对抗可用性投毒攻击的另一种方法是修改机器学习训练算法，以增加生成模型的鲁棒性。防御者可以训练多个模型集成，并通过对模型投票来生成预测[37, 209, 395]。几篇论文应用了稳健性优化技术，例如使用修剪损失函数[109, 179]。Rosenfeld等人[314]提出了使用随机平滑在训练过程中添加噪声，以抵御标签翻转攻击。

2.3.2. 定向投毒攻击

与可用性攻击不同，定向投毒攻击会诱导机器学习模型在一小部分目标样本上改变其预测。如果攻击者可以控制训练数据的标签，则标签翻转是有效的目标投毒攻击：攻击者只需插入几个带有目标标签的中毒样本，模型就会学习错误的标签。因此，目标投毒攻击主要在清洁标签设置中进行研究，其中攻击者无法控制训练数据标签。

针对定向投毒攻击，已提出了几种技术。Koh和Liang[196]展示了如何利用影响函数（即一种统计方法，用于确定对预测最有影响力的训练样本）来创建中毒样本，在这种情况下，预训练模型在新数据上进行了微调。Suciu等人[358]设计了StingRay，这是一种目标投毒攻击，它修改了特征空间中的样本，并在每个小批量训练中添加中毒样本。Shafahi等人[330]设计了一种基于特征碰撞的优化过程，用于生成清洁标签目标投毒攻击，适用于端到端学习和微调设置。ConvexPolytope[444]和BullseyePolytope[4]针对集成模型优化了中毒样本，这为攻击转移性提供了更好的优势。MetaPoison[166]使用元学习算法来优化中毒样本，而Witches’ Brew[137]则通过梯度对齐执行优化，从而实现了对抗性对齐的状态目标投毒攻击。

所有上述攻击都针对训练时由攻击者选择的一小部分目标样本，这些攻击主要针对连续图像数据集进行了测试（除了StingRay，它需要攻击者对训练集的大部分进行控制）。针对半监督学习算法的定向投毒攻击也已引入，例如MixMatch[34]、FixMatch[347]和无监督数据增强（UDA）[413]，在这种情况下，攻击者通过毒化一小部分未标记的训练数据集来改变部署时的目标样本预测。

缓解措施。定向投毒攻击臭名昭著，难以防御。Jagielski等人[180]展示了针对子群体投毒攻击的不可能性结果。为了减轻与此类攻击相关的风险，模型开发人员可以采取保护训练数据的传统网络安全措施，例如访问控制，使用数据清理和验证方法，以及使用数据来源和完整性证明机制[267]。Ma等人[230]提出了使用差分隐私（DP）作为防御措施。Ma等人[230]提出了使用差分隐私（DP）作为防御措施（这直接源于差分隐私的定义），但差分隐私模型也可能比标准模型具有更低的准确性，因此需要在稳健性和准确性之间进行权衡，具体取决于每个应用场景。关于稳健性与准确性之间权衡的进一步讨论，请参阅第4.1.1节。

2.3.3. 后门投毒攻击

【NISTAML.021、NISTAML.023】

后门投毒攻击是一种投毒攻击，它导致目标模型在测试时对包含特定后门模式或触发器的样本进行错误分类。2017年，Gu等人[148]提出了BadNets，这是首个后门投毒攻击。他们观察到图像分类器可以通过在训练时向部分图像中添加一个小的补丁触发器并更改其标签为目标类别，从而学习将触发器与目标类别相关联。在测试时，任何包含触发器或后门模式的图像都将被错误分类为目标类别。分类器学会了将触发器与目标类别相关联，任何包含触发器或后门模式的图像在测试时都将被错误分类为目标类别。后门攻击是文献中唯一需要同时控制训练和测试数据的攻击类型。模型投毒攻击可能导致目标化或后门攻击，攻击者通过修改模型参数来引发完整性违规。这些攻击已针对集成学习[222]和联邦学习[22, 36]设计。

近年来，后门攻击变得更加复杂和隐蔽，使它们更难被检测和缓解。Latent backdoor attacks（潜在后门攻击）被设计为即使在使用干净数据对模型的最后几层进行微调后，后门也能存活下来[420]。BaN（Backdoor Generating Network）是一种动态后门攻击，攻击者通过改变中毒样本中触发器的位置，使模型以位置不变的方式学习触发器[322]。Functional triggers（功能性触发器）嵌入在整个图像中，或者根据输入进行变化。Li等人利用隐写术算法将触发器隐藏在训练数据中[214]，并引入了使用自然反射作为后门触发器的清洁标签攻击[223]。Wenger等人[404]通过使用物理对象作为触发器（例如太阳镜和耳环）来对人脸识别系统进行投毒。Architectural backdoor attacks（架构后门攻击）通过在模型训练阶段恶意修改模型结构来进行攻击，这允许攻击者在模型被呈现特定触发器时操纵模型的行为。这些攻击需要对模型设计或训练环境进行对抗性访问，并且在将模型训练外包给更强大的实体（例如云服务）时适用。这些攻击需要对模型设计或训练环境进行对抗性访问，并且在将模型训练外包给更强大的实体（例如云服务）时适用。

除了计算机视觉应用外，后门投毒攻击向量还已成功应用于其他数据模态，例如音频、自然语言处理和网络安全设置。

音频：在音频领域，Shi等人[341]展示了如何在训练过程中向现场语音中注入不可察觉的音频触发器，该触发器与目标模型一起进行联合优化。
自然语言处理：在自然语言处理（NLP）中，构建有意义的中毒样本更具挑战性，因为文本数据是离散的，并且理想情况下句子的语义意义应保持不变，以便攻击不被察觉。最近的研究表明，在NLP领域中，后门攻击变得可行。例如，Chen等人[82]在字符、单词和句子级别为情感分析和神经机器翻译应用引入了具有语义保持能力的后门；Li等人[213]针对Transformer模型在三个NLP任务中生成了隐藏的后门：有毒评论检测、神经机器翻译和问答。
网络安全：继早期在网络安全中针对投毒的开创性工作[269, 291]之后，Severi等人[329]展示了如何利用AI可解释性技术针对恶意软件分类器生成小型触发器。他们攻击了多种模型（即神经网络、梯度提升、随机森林和支持向量机），使用了三个恶意软件数据集：Ember用于Windows PE文件分类、Contagio用于PDF文件分类和DREBIN用于Android应用分类。Jigsaw Puzzle[418]设计了一种针对Android恶意软件分类器的后门投毒攻击，该攻击使用从良性代码中收获的真实可实现软件触发器。

缓解措施。针对后门攻击的文献比其他投毒攻击更为丰富。以下是针对后门攻击的几类防御措施，包括数据清理、触发器重建和模型检查与清理，以及它们的局限性。

训练数据清理：与投毒可用性攻击类似，训练数据清理也可以应用于检测后门投毒攻击。例如，异常检测在表示空间中已被证明对卷积神经网络用于计算机视觉应用有效[157, 293, 378]。激活聚类将训练数据聚类在表示空间中，以将后门样本隔离在单独的聚类中[76]。当投毒攻击控制了相对较大的训练数据部分时，数据清理效果更好，但对隐蔽性较强的投毒攻击效果不佳。总体而言，这导致了攻击成功率与检测恶意样本之间的可检测性之间的权衡。
触发器重建：这类缓解措施旨在重建后门触发器，假设它在中毒训练样本中位于固定位置。NeuralCleanse[390]是首个触发器重建方法，通过优化来确定最有可能使测试样本被错误分类的最可能的后门模式。初始技术已得到改进，以减少对多个类别同时支持多个触发器插入到模型中的性能时间[163, 411]。一个代表性系统是人工大脑模拟（ABS）[221]，它通过刺激多个神经元并测量激活来重建触发器模式。Khaddaj等人[193]开发了一种新的检测后门攻击的原始方法，并提出了具有理论保证的有效检测算法。
模型检查和清理：模型检查在将训练的机器学习模型部署之前分析它，以确定它是否被投毒。早期工作是NeuronInspect[168]，它基于可解释性方法来确定干净模型和后门模型之间的不同特征，然后用于异常检测。DeepInspect[78]使用条件生成模型来学习触发器模式的概率分布，并对模型进行修补以移除触发器。Xu等人[416]提出了元神经特洛伊木马检测（MNTD）框架，该框架训练一个元分类器来预测给定机器学习模型是否被特洛伊木马化（或在作者的术语中，“被特洛伊木马化”）。这种方法是通用的，可以应用于多种数据模态，如视觉、语音、表格数据和NLP。一旦检测到后门，就可以通过修剪[407]、重新训练[429]或微调[217]来清理模型，以恢复模型的准确性。
认证防御：针对数据投毒攻击的认证防御方法在文献中也已提出。BagFlip[440]是一种模型不可知的防御方法，它扩展了随机平滑[94]，并将训练数据分袋与在训练和测试样本中添加噪声相结合。Deep Partition Aggregation[209]和Deep Finite Aggregation[396]是认证防御方法，它们将训练数据分成不相交的子集，并在每个子集上训练集成方法，以减少中毒样本的影响。最近，FCert[398]针对少样本分类设置中的视觉和文本数据提供了认证防御。

大多数这些缓解措施是针对基于卷积神经网络的计算机视觉分类器设计的，使用具有固定触发器模式的后门。Severi等人[329]展示了某些数据清理技术（例如，谱签名[378]和激活聚类[76]）对恶意软件分类器上的清洁标签后门投毒无效。最近的语义和功能性后门触发器也对基于假设固定后门模式的触发器重建或模型检查方法提出了挑战。使用元分类器预测特洛伊木马模型的局限性是训练阶段的计算复杂性高，这需要训练数千个影子模型。需要进一步研究以设计能够保护机器学习模型免受这种重要攻击向量的强后门缓解策略，同时避免这些局限性。

在网络安全领域，Rubinstein等人[315]提出了一个针对骨干网络中PCA子空间异常检测方法的投毒攻击缓解方法，该方法通过最大化中位数绝对偏差（MAD）而不是方差来计算主成分，并使用基于拉普拉斯分布而不是高斯的阈值值。Madani和Vlajic[231]构建了一个基于自编码器的入侵检测系统，假设恶意投毒攻击实例少于2%。

[193]从另一个角度看待后门缓解，展示了如果没有对攻击做出额外假设，后门在数据中与自然出现的特征无法区分。然而，假设后门在数据中创造了最强的特征，论文提出了一个优化技术来识别和移除对应于后门的训练样本。

投毒取证（Poison forensics）[331]是一种用于根因分析的技术，用于追踪训练集中后门攻击的来源，作为现有清理措施的补充。而现有的缓解措施面对不断演变的攻击并不总是有复原性的。投毒取证为人工智能系统增加了另一层防御：一旦在部署时检测到中毒攻击，投毒取证就能追溯到训练集中的攻击源。

2.3.4. 模型投毒攻击

【NISTAML.011，NISTAML.026】

模型投毒攻击试图直接修改训练好的机器学习模型，以向其中注入恶意功能。在集中式学习中，TrojNN[222]从训练好的神经网络中逆向工程出触发器，然后通过在外部数据中嵌入触发器重新训练模型来投毒。大多数模型投毒攻击都是在联邦学习设置中设计的，客户机向服务器发送本地模型更新，服务器将这些更新聚合到全局模型中。受攻击的客户机可以发送恶意更新来投毒全局模型。模型投毒攻击可能导致联邦模型的可用性和完整性破坏：

可用性投毒攻击：这类攻击通过降低全局模型的准确性来破坏其可用性，但通常需要大量客户机受攻击者控制[123, 335]。
定向模型投毒攻击：这类攻击在测试时对一小部分样本引发完整性违规。它们可以通过模型替换或模型增强攻击来实现，其中受攻击的客户机根据定向目标替换本地模型更新[23, 35, 360]。
后门模型投毒攻击：这类攻击通过恶意客户机更新引入触发器，以在测试时引发所有带有触发器的样本的错误分类[23, 35, 360, 392]。如果受攻击的客户机不经常参与训练，大多数后门会被遗忘，但如果后门被注入到使用最少的模型参数中，后门会更持久[441]。

缓解措施。为了防御联邦学习中的模型投毒攻击，已经设计和评估了多种拜占庭容错聚合规则。大多数规则试图在服务器执行聚合时识别并排除恶意更新[8, 43, 51, 149, 242–244, 359, 423]。然而，有动机的攻击者可以通过在攻击生成优化问题中添加约束来绕过这些防御措施[23, 123, 335]。梯度裁剪和差分隐私在一定程度上可以缓解模型投毒攻击[23, 271, 360]，但它们通常会降低模型的准确性，并且无法提供完全的缓解。

对于特定的模型投毒漏洞，例如后门攻击，有一些模型检查和清理的技术（见第2.3.3节）。然而，缓解供应链攻击仍然具有挑战性，攻击者可能控制训练算法的源代码或机器学习超参数。在其他领域（例如，密码学协议验证[299]）中使用的程序验证技术可能适用于这种情况，但机器学习算法具有内在的随机性和非确定性行为，这增加了验证的难度。

设计能够抵御供应链模型投毒漏洞的机器学习模型是一个关键的开放性问题。

2.3.5. 现实世界中的投毒攻击

由于投毒攻击需要攻击者对机器学习训练过程进行对抗性控制，因此在现实世界中实施这些攻击较为困难。然而，仍有一些记录在案的针对早期人工智能聊天机器人、电子邮件垃圾邮件过滤器和恶意软件分类服务的真实投毒攻击案例。

首个现实世界中的投毒攻击案例是微软在2016年于Twitter上发布的Tay.AI聊天机器人[272]。该聊天机器人在与用户进行不到24小时的在线互动后被投毒，并立即被下线。大约在同一时间，还有几起大规模行动试图破坏谷歌的Gmail垃圾邮件过滤器，攻击者发送了数百万封电子邮件，试图投毒Gmail垃圾邮件分类算法，从而使他们能够发送其他恶意电子邮件而不被检测到[272]。MITRE ATLAS报告了一起针对VirusTotal威胁情报服务的投毒事件，攻击者通过一个流行的病毒共享平台提交了几乎相同但不完全相同的勒索软件家族样本，导致该特定勒索软件家族被错误分类[248]。

这些事件突显了在线学习的风险，因为Tay.AI聊天机器人是根据用户互动实时更新的，而Gmail垃圾邮件过滤器和VirusTotal恶意软件分类系统是根据新接收的样本持续更新的。在所有这些事件中，攻击者在初始模型发布后精心制作了投毒样本，利用了模型持续更新的事实。

2.4. 隐私攻击与缓解措施

【NISTAML.03】

Dinur和Nissim的开创性工作[110]引入了数据重建攻击，这种攻击试图从访问训练好的模型中反向工程出有关单个用户记录或其他敏感输入数据的私密信息。最近，针对二分类和多分类神经网络分类器的数据重建攻击已被设计出来[50, 152]。通过会员推断攻击，攻击者可以确定特定记录是否包含在用于训练机器学习模型的数据集中。会员推断攻击最初由Homer等人[162]针对基因组数据引入。近期的文献主要关注在黑盒设置下对机器学习模型的会员推断攻击，攻击者对训练好的机器学习模型有查询访问权限[54, 342, 422]。属性推断攻击[19, 74, 134, 233, 361, 437]旨在提取有关训练数据集的全局信息，例如具有某个敏感属性的训练样本的比例。对于机器学习即服务（MLaaS），另一种隐私侵犯是模型提取攻击，这种攻击旨在提取有关机器学习模型的信息，例如其架构或模型参数。

本节讨论了与数据重建、训练数据记忆、会员推断、属性推断和模型提取相关的隐私攻击，以及针对其中一些攻击的缓解措施和设计通用缓解策略的开放性问题。

2.4.1. 数据重建攻击

【NISTAML.032】

数据重建攻击试图从机器学习模型的训练数据中恢复敏感信息。Dinur和Nissim[110]首次引入了数据重建攻击，这些攻击试图从聚合信息中恢复用户数据。他们的原始攻击需要指数级的查询次数来重建数据，但后续研究展示了如何使用多项式数量的查询来实现数据重建[116]。Dwork等人的综述文章[114]讨论了包括数据重建在内的多种隐私攻击。最近，美国人口普查局对人口普查数据遭受数据重构攻击的风险进行了大规模研究[135]，这促使在 2020 年发布的十年一次的美国人口普查中使用差分隐私。

在机器学习分类器的背景下，Fredrickson等人[130]引入了模型反转攻击，这些攻击试图从训练数据中重建类别代表，但不能直接重建模型的训练数据。最近，Balle等人[26]训练了一个重构网络，可以从神经网络模型中恢复数据样本，假设攻击者对所有其他训练样本有信息。Haim等人[152]展示了如何从二分类神经网络分类器中重建训练数据，利用关于神经网络隐式偏差的理论见解。这一工作最近被扩展到重建多类多层感知器分类器的训练样本[50]。属性推断是另一种相关的隐私攻击，攻击者从中提取训练集的敏感属性，假设对训练数据的其他特征有部分知识[184]。

神经网络对训练数据的记忆化倾向部分解释了训练样本的可重建性。Zhang等人[431]讨论了神经网络如何记住随机选择的数据集。Feldman[126]展示了训练标签的记忆化对于机器学习的最优泛化误差是必要的。Brown等人[48]构建了两个学习任务，基于下一个符号预测和聚类标记，其中记忆化对于高精度学习是必需的。Feldman和Zhang通过影响估计方法实证评估了记忆化对泛化的好处[127]。数据重建攻击与记忆化在生成性人工智能中的联系在第3.3.2节中讨论。

2.4.2. 成员推断攻击

【NISTAML.033】

成员推断攻击可能像数据重建和记忆化攻击一样，暴露个人的隐私信息。在某些情况下，确定个人是否是训练集的一部分本身就具有隐私含义，例如在涉及罕见疾病的医学研究中。此外，成员推断可以作为发起数据提取攻击的基石[59, 63]。

成员推断攻击的目标是确定特定记录或数据样本是否是用于统计或机器学习算法的训练数据集的一部分。这些攻击首次由Homer等人[162]针对基因组数据的统计计算引入，称为追踪攻击。近年来，文献中使用了“会员推断”这一术语来描述针对机器学习模型的攻击。大多数文献中的攻击是在白盒设置中进行的，攻击者了解模型的架构和参数，但大多数攻击已针对黑盒设置开发，攻击者通过向训练的机器学习模型发出查询来生成攻击[54, 89, 208, 342, 421, 422]。

攻击者在会员推断中的成功已被正式定义为一个受密码学启发的隐私游戏，其中攻击者与挑战者互动，并需要确定目标样本是否用于训练被查询的机器学习模型[183, 321, 422]。就发起会员推断攻击的技术而言，Yeom等人的基于损失的攻击[422]是最高效且广泛使用的方法之一。利用机器学习模型在训练样本上最小化损失这一事实，如果目标样本的损失低于固定阈值（选择为训练样本的平均损失），则攻击确定目标样本是训练的一部分。Sablayrolles等人[317]通过使用每个样本的阈值对损失进行缩放，改进了基于损失的攻击。

另一种流行的技术是由Shokri等人[342]引入的影子模型，该技术通过在与原始模型相同的任务上训练数千个影子机器学习模型，获得训练集内外的样本，然后在这些样本上训练一个元分类器。这种方法通常成本较高，尽管它可能比简单的基于损失的攻击更有效，但其计算成本高，并且需要访问许多分布样本以训练影子模型。这两种技术在复杂性方面处于光谱的两端，但在低误报率下的精确度表现相似[54]。

一种在曲线下面积（AUC）指标方面表现良好的中间方法是Carlini等人的LiRA攻击[54]，该方法通过训练较少数量的影子模型来学习训练集内外样本的模型logit分布。假设模型logit分布是高斯分布，LiRA通过估计高斯分布的均值和标准差，进行会员推断的假设检验。Ye等人[421]设计了一种类似的攻击，该攻击执行单边假设检验，不对损失分布做任何假设，但其性能略低于LiRA。最近，Lopez等人[225]提出了一种更高效的会员推断攻击，该攻击仅需训练一个模型来预测被攻击模型的置信度分布的分位数。会员推断攻击还已针对更严格的标签唯一性威胁模型设计，攻击者仅能访问被查询样本的预测标签[89]。

还有几个公共隐私库提供了会员推断攻击的实现：TensorFlow Privacy库[350]和ML Privacy Meter[259]。

2.4.3. 属性推断

【NISTAML.034】

属性推断攻击（也称为分布推断）的目标是通过与机器学习模型交互来推断训练数据分布的全局信息。例如，攻击者可以确定训练集中一定比例的样本具有某个敏感属性（例如人口统计信息），这可能泄露关于训练集的潜在机密信息，这些信息并非旨在公开。

属性推断攻击首次由Ateniese等人[19]引入，并在白盒设置中正式化为攻击者和挑战者之间的区分游戏，挑战者训练两个模型，一个包含感兴趣的属性，另一个不包含。属性推断攻击已在白盒设置中设计，攻击者可以访问整个机器学习模型[19, 134, 361]，以及黑盒设置中，攻击者向模型发出查询并学习预测标签[233]或类别概率[74, 437]。这些攻击已针对多种机器学习模型设计，包括隐马尔可夫模型、支持向量机[19]、前馈神经网络[134, 233, 437]、卷积神经网络[361]、联邦学习[240]、生成对抗网络[443]和图神经网络[442]。Mahloujifar等人[233]和Chaudhuri等人[74]展示了如何通过污染感兴趣的属性来设计更有效的区分测试以进行属性推断。此外，Chaudhuri等人[74]设计了一种有效的属性大小估计攻击，用于恢复感兴趣人群的确切比例。

Salem等人[321]探讨了不同训练集推断攻击（如会员推断、属性推断和属性推断）之间的关系，提出了统一的定义框架。

2.4.4. 模型提取攻击

【NISTAML.031】

在机器学习即服务（MLaaS）场景中，云服务提供商通常使用专有数据训练大型机器学习模型，并希望保持模型架构和参数的机密性。执行模型提取攻击的攻击者的目标是从向机器学习模型发出查询的训练有素的机器学习模型中提取有关模型架构和参数的信息。Tramer等人[376]首次展示了针对多个在线机器学习服务的多种机器学习模型（包括逻辑回归、决策树和神经网络）的模型窃取攻击。然而，Jagielski等人[177]展示了精确提取机器学习模型是不可能的。相反，可以重构一个功能等效的模型，该模型与原始模型不同，但在预测任务中实现类似的性能。Jagielski等人[177]展示了即使是较弱的任务，即提取功能等效模型，也是计算上困难的（NP难）。

针对模型提取攻击，文献中已引入了几种技术。第一种方法是基于深度神经网络执行的操作的数学公式直接提取模型权重[58, 177, 376]。第二种技术是使用学习方法进行提取。例如，主动学习[70]可以指导向机器学习模型发出的查询，以更有效地提取模型权重，强化学习可以训练适应性策略，减少查询次数[280]。第三种技术利用侧信道信息进行模型提取。Batina等人[29]使用电磁侧信道恢复简单的神经网络模型，而Rakin等人[303]展示了如何使用Rowhammer攻击提取更复杂卷积神经网络架构的模型。

模型提取攻击通常不是最终目标，而是为进一步的攻击铺路。例如，一旦攻击者获得了模型的权重和架构信息，他们就可以发起更强大的攻击，这些攻击通常是针对白盒或灰盒设置的典型攻击。因此，防止模型提取可以减轻依赖于攻击者对模型架构和权重知识的下游攻击。

2.4.5. 缓解措施

数据重建攻击的发现促使了差分隐私（DP）的严格定义[112, 113]。差分隐私是一种极其强大的隐私定义，它保证了攻击者通过算法输出能够了解到的数据集中每个个体记录的信息量的上限。差分隐私的原始纯定义包含一个隐私参数ε（即隐私预算），该参数限制了攻击者通过算法输出确定某条特定记录是否包含在数据集中的概率。差分隐私已经扩展到近似差分隐私的概念，其中包括第二个参数δ，该参数被解释为除了ε之外，信息意外泄露的概率，以及Rènyi差分隐私[246]。

差分隐私因其几个有用的特性而被广泛采用：群体隐私（即定义扩展到两个在k条记录上不同的数据集）、后处理不变性（即即使对输出进行了处理，隐私仍然得以保持）以及组合性（即如果对数据集进行了多次计算，隐私仍然得以保持）。用于统计计算的差分隐私机制包括高斯机制[113]、拉普拉斯机制[113]和指数机制[238]。用于训练机器学习模型的最广泛使用的差分隐私算法是DP-SGD[1]，最近的改进包括DP-FTRL[189]和差分隐私矩阵分解[105]。

根据定义，差分隐私可以缓解数据重建和成员推断攻击。实际上，差分隐私的定义直接意味着攻击者发起成员推断攻击的成功率有一个上限。Thudi等人[369]已经推导出了成员推断成功率的紧致界限。然而，差分隐私并不能提供针对模型提取攻击的保证，因为这种方法旨在保护训练数据，而不是模型。有几篇论文报告了使用差分隐私来防范旨在提取训练集中子群体属性的属性推断攻击后得到的负面结果[74, 233]。

在实践中使用差分隐私的一个主要挑战是设置隐私参数，以在隐私水平和实现的效用（通常以机器学习模型的准确性来衡量）之间取得平衡。隐私保护算法（例如DP-SGD）的分析通常是基于最坏情况且不够紧密的，而仅根据理论分析选择隐私参数会导致效用损失。因此，在实践中经常使用较大的隐私参数（例如，2020年美国人口普查发布使用了ε = 19.61），而实践中实际获得的隐私水平难以估计。Jagielski等人[181]引入了隐私审计，目的是实证测量算法的实际隐私保证，并通过发起隐私攻击来确定隐私的下限。许多隐私审计技术是基于在训练集中插入“金丝雀”，即合成且易于识别的分布外样本，然后测量模型输出中金丝雀的存在。也可以使用会员推断攻击来进行审计[183, 427]，但故意插入强金丝雀可能会得到更好的隐私泄露估计[181, 265]。隐私审计的最新进展包括高斯机制的更紧致界限[263]以及严格的统计方法，这些方法允许使用多个金丝雀来降低审计的样本复杂度[297]。此外，还提出了两种高效的单模型隐私审计方法：Steinke等人[355]使用多个随机数据金丝雀，而无需承担群体隐私的成本；Andrew等人[10]使用多个随机客户端金丝雀和余弦相似性检验统计量来审计用户级别的私有联邦学习。

差分隐私提供了一种严格的隐私概念，并且可以防范成员推断和数据重建攻击。为了在隐私和效用之间取得最佳平衡，建议采用实证隐私审计来补充私有训练算法的理论分析。

还有其他针对模型提取的缓解技术，例如限制用户对模型的查询、检测对模型的可疑查询，或者创建更健壮的架构以防止侧信道攻击。然而，这些技术可能会被有动机且资源充足的攻击者绕过，因此应谨慎使用。有关安全部署机器学习的实践指南可供参考[69, 274]。一种完全不同的潜在缓解用户数据隐私泄露的方法是执行机器遗忘，这是一种允许用户请求从训练好的机器学习模型中删除其数据的技术。现有的机器遗忘技术要么是精确的（即从头开始重新训练模型或从某个检查点重新训练）[45, 52]，要么是近似的（即更新模型参数以去除未学习记录的影响）[139, 175, 268]。它们在计算和隐私保证之间提供了不同的权衡，精确的机器遗忘方法提供了更强的隐私保护，但会带来额外的计算成本。

AI安全同学看过来！最强对抗性机器学习指南| 全网首发NIST对抗性机器学习：攻击和缓解措施分类和术语（2025）全文翻译（上）