引言

机器学习 (ML) 是人工智能 (AI) 的一个分支，它从数据中学习以识别模式、做出预测或做出决策，而人工干预最少。所有的机器学习技术都以数据为输入，针对不同的任务，即分类、回归、聚类、降维和排序等。

受益于海量数据和高计算资源，机器学习应用在我们的日常生活中变得无处不在。这些应用程序将人们从重复和复杂的工作中解放出来，并允许他们轻松获取有用的信息。例如，人脸识别系统可以帮助人类进行识别和授权。搜索引擎通过索引、搜索和匹配来收集和组织与给定查询相关的信息。导航应用程序为自动驾驶汽车推荐到达目的地的最佳路径。

计算机视觉 (CV) 研究计算机如何获取、处理、分析和理解数字图像。ML 的进步促进了 CV 的发展，尤其是图像分类任务。深度学习（DL）是一种强大的机器学习技术。它允许设计可以自动识别图像视觉内容的深度神经网络（DNN）。从数千张动物、地点、人、植物等图像中学习，DNN 能够以高可信度检测未知图像包含的内容。

1.1 深度学习与深度神经网络

在过去的几十年中，DNN 在图像分类领域迅速发展。卷积神经网络 (CNN) [LBBH98] 获得有用的语义视觉特征。典型的深度 CNN 具有许多层和复杂的架构，例如 AlexNet [KSH12]、Inception [SVI+16]、ResNet [HZRS16a]、DenseNet [HLVDMW17] 等。这些是少数著名的 DL 或 DNN 示例。这些网络从图像的高维表示空间计算梯度，以找到如何分离类别。最近的 DNN 模型以高置信度实现了分类、检测和分割任务。DNN 模型在 ImageNet [RDS+15]（一个具有挑战性和现实性的数据集）上的性能接近于人类。

DNN 的性能通常与其深度有关：网络越深，性能越好。然而，由于大量层的深度堆叠以获得语义视觉特征，DNN 的高复杂性导致训练困难。这可能是由于反向传播期间梯度消失，称为梯度消失问题。存在许多 DNN 原始架构的变体，试图规避此类问题。这包括来自 ResNet [HZRS16a] 和Transformer [VSP+17] 的剩余单元。在训练过程中跳过层的剩余单元有效地简化了网络，加快了训练过程并提供了探索更大的特征空间。然而，它也使 ResNet 更容易受到扰动。Transformer [VSP+17] 使用自我注意的概念，帮助网络专注于重要特征。总体而言，DNN 的所有这些进步都增强了分类等任务的性能。DL 不仅成功地处理了大量图像数据，而且还设法处理包含噪声、遮挡或其他视觉伪影的图像。

1.2 对抗样本

2013 年，研究人员发现，对图像进行轻微修改会导致分类器做出错误的预测 [SZS+13]。令人惊讶的是，这些修改幅度很小，人眼几乎察觉不到。这一发现揭示了 DNN 的脆弱性

对抗性现象广泛影响 ML。这会影响不同的媒体，例如图像[SZS+13、GSS14、TPG+17]、音频[CW18、YS18、YLCS18]和文本[RDHC19、ZSAL20、ASE+18]。此外，攻击者不仅会生成保存为数字数据的对抗性样本，例如图像，在计算机中，但也可以在物理世界中创建对抗性样本，例如对抗性补丁 [TVRG19]。这些是打印的图片和 3D 对象 [KGB16, SBBR16]，由相机等视觉传感器捕获，并影响使用它们的 ML 应用程序。

对抗性扰动是一种无形的扰动，它会误导 DNN 将扰动的输入分类为不正确的类别。例如，通过对抗性扰动，可以使分类器将猫分类为狗，如图 1.1 所示。此外，对抗性现象在分类器之间转移。利用 DNN 的某个漏洞的攻击可能会欺骗其他 DNN，无论他们使用什么架构或训练集。

图 1.1 – 此图片来自 Nicholas Carlini 的攻击机器学习演讲：关于神经网络的安全性和隐私。它通过对抗性扰动显示猫的图像被归类为狗。

将一个视觉内容修改为另一个是一个大问题 [EEF+18, TVRG19, TRC19a, YLDT18, GSS14]。攻击者的目标是欺骗分类器做出不适当决策，可以方便地进行对抗性扰动。这是令人不安和危险的，尤其是当网络决策危及生命时。例如，将特定形状和颜色的小纸片放在一些路标上会阻止它们被识别 [BMR+17]。穿着具有特定纹理的徽章装饰的布会使人对旨在检测行人存在的算法不可见 [XZL+20]。考虑到所有这些潜在风险，了解对抗样本的基本问题以确保算法公平、正确地处理内容至关重要。对抗性机器学习的典型研究任务包括攻击和防御。研究人员研究这两项任务是为了 i) 做出实际贡献和 ii) 理解这一现象。

1.2.1 攻击

攻击旨在对目标 DNN 产生对抗性扰动。他们将不可见性和错误分类形式化为优化问题。攻击的难度取决于攻击者是否知道网络的架构。基本情况是攻击者可以访问网络的架构和参数，即白盒环境。他们受益于这些信息来制造对抗性扰动。

在不知道架构和参数的情况下攻击网络，即黑盒设置，是一个更复杂的情况。可迁移性意味着对抗样本在不同的网络和不同的机器学习模型[GSS14，TPG+17]中泛化得非常好。这表明为欺骗局部分类器而生成的对抗样本也有一定的概率欺骗未知分类器。它提供了一种在黑盒环境中攻击 DNN 的工具。

即使约束很严格，现有的攻击也会成功地产生对抗性扰动。这些非同寻常的对抗性扰动表现出对抗性现象的不同特性和 DNN 的脆弱性。令人惊讶的是，例如，单像素攻击 [SVS19] 通过仅修改输入图像的一个像素来改变网络的预测。通用扰动 [MFFF17, HD18] 表明，一个特定的扰动足以导致给定数据集中的每张图像都被错误分类。

1.2.2 防御

防御旨在提高 DNN 针对对抗性攻击的鲁棒性。他们要么添加一个额外的组件来帮助网络抵御对抗性攻击，要么提高网络的内在鲁棒性。

引入额外组件的防御保持网络不变。对图像应用预处理是该类别中的一种特殊防御方法。他们将对抗性扰动视为一种特殊类型的噪声，并尝试通过转换 [MC17, GRCvdM17, STL+19] 将其去除。将对抗样本视为恶意数据的人使用检测器来识别对抗样本并拒绝或纠正它们 [XEQ17, LLS+18]。这些防御很简单的，很容易适应给定的网络，但是，在白盒环境下通常很容易受到攻击 [ACW18]。

提高内在鲁棒性的防御尝试改进训练方法 [GSS14, MMS+17]、增强架构 [PMW+16] 或高级损失函数 [HXSS15, MMS+17, TKP+17]。对抗性训练 [GSS14, MMS+17] 作为该类别的典型防御，通过将对抗性样本作为训练数据的一部分来改进训练方法。这种防御背后的假设是，DNN 的脆弱性是由于训练数据的不足造成的。这些防御措施在鲁棒性和准确性方面都表现不错，但是通常很复杂，因为它们需要从头开始训练网络。

1.2 本论文贡献

在本论文中，我们试图理解对抗性现象。我们探讨了如何生成对抗样本以及如何保护它们。通过对对抗性 ML 的多个方面的分析，我们发现要研究的关键要素包括：

速度。速度对于对抗性攻击和防御都很重要。尽管耗时的过程（例如优化创建对抗性扰动和训练 DNN 模型）会产生高质量的结果，但如果需要很长时间来生成对抗性样本、验证输入或构建鲁棒的模型是不可行的。

不可见性。失真的大小被广泛用于估计扰动的不可见性，但它并不等同于不可见性。不可见性表明从神经学和心理学的角度来看，人类无法察觉这种扰动。在计算机科学中衡量不可见性仍然是一个悬而未决的问题。

失真。作为衡量不可见性质量的替代计划，许多攻击估计了失真的程度。当幅度很小时，人类几乎不会感知到扰动。失真的大小对防御也很重要。通常，对具有较大失真的对抗性扰动的防御对对抗性影响更为稳健。它是对抗性攻击和防御的重要指标。

可转移性。可转移性描述了为欺骗目标网络而生成的对抗性样本成功欺骗其他网络的可能性。可转移性对于黑盒环境下的攻击至关重要，即攻击者只能获取网络的输入输出。

我们的工作受到速度、失真和不可见性的概念的启发。我们测试了对抗性扰动的可转移性。为了提高对抗性扰动的质量，我们在两个方向上工作，即产生不可见的对抗性扰动和有效地创建低幅度的对抗性扰动。为了防御攻击，我们提出了一种轻量级算法，该算法在鲁棒性和准确性方面都取得了不错的表现。我们强调速度和性能。

为了让读者更好地理解，我们首先在第 2 章中概述了 DL 中的对抗性上下文。这包括 1）理解我们的工作所需的 ML 和 DNN 的最低知识，2）对抗性问题的基本定义和3) 对现有相关工作的高级审查，包括产生对抗性扰动和增强对抗攻击的鲁棒性。

成功攻击率和失真幅度是衡量对抗性扰动质量的两个标准。在第 3 章中，我们介绍了对抗性扰动的标准评估，包括数据集、网络和评估指标。此外，在第 3.3 节中，我们提出了我们的评估指标，允许在有针对性的失真攻击和有针对性的成功攻击之间进行公平比较。

我们研究了两种执行攻击的算法，以便了解不可见性（见第 4 章）和创造速度（见第 5 章）。

平滑的对抗性扰动。在第 4 章中，我们研究了不可见性的定义，并将其表述为一个约束函数，以便可以直接将其添加到现有攻击中。我们推测，当扰动像素与其相邻像素之间的相似性类似于其原始图像的相似性图时，对抗性扰动是不可见的。我们成功地产生了平滑的对抗性扰动，并且令人惊讶地产生了少量的失真。这些平滑的对抗性扰动是肉眼看不到的，即使对抗性样本被人为放大。

快速、低失真的对抗样本。为了在不降低对抗样本质量的情况下加速攻击，我们利用对抗扰动的具体知识改进了优化算法。在第 5 章中，我们提出了边界投影（BP）攻击，它根据当前的解决方案改变搜索方向。当当前解决方案不是对抗性的时，BP 攻击会沿着梯度方向长搜索，以引导当前解决方案跨越网络边界。当当前解决方案是对抗性的时，BP 攻击沿着边界搜索以引导当前解决方案以减少失真的幅度。与最先进的攻击相比，BP 攻击避免了对仅跟随梯度引起的振荡计算的浪费。这为 BP 攻击赢得了速度。实验表明，BP攻击成功地产生了幅度很小但攻击成功率很高的对抗性扰动。

为了更全面地了解对抗性 ML 问题，我们研究了防御策略。第 6 章介绍了补丁替换防御。

补丁更换。与对抗性扰动相比，DNN 对随机噪声的鲁棒性更强。为了理解它，我们研究了通过 DNN 的失真幅度（随机噪声/对抗性扰动）的转变。受 DNN 内部随机噪声和对抗性扰动的不同行为启发，我们在第 6 章提出了一种名为补丁更换的反应性防御。补丁替换试图通过用合法训练数据中最相似的邻居替换可疑输入（图像/特征）的补丁，来消除推理中的对抗性影响。即使攻击者知道补丁替换防御，训练数据的使用也会增加攻击的复杂性。由于我们不仅考虑图像，还考虑网络的中间特征，因此补丁替换比其他基于输入转换的防御更为稳健。一个缺点是在训练时毒化数据集会给补丁替换策略带来麻烦。这连接到对抗性后门。

最后，我们给出了结论，并在第 7 章提出了一些观点。简而言之，我们在理解对抗性 ML 问题方面的贡献是 i）在另一个视图中定义不可见性，并提出一种在我们的定义下产生平滑对抗性扰动的方法；ii) 提出一种算法，以高成功率和低失真快速生成对抗样本；iii），我们成功地提出了一种不复杂的反应式防御，并在不严重降低网络准确性的情况下提高了对攻击的鲁棒性。

图 5.8 – ImageNet 上针对 InceptionV3 的原始（左）、对抗（顶行）和缩放扰动（下）图像。这五幅图像是需要最强失真的 BP 最差的 5 幅图像，但这些图像小于所有其他方法所需的失真（红色表示伪造的图像不是对抗性的）。扰动被反转（低为白色；高为彩色，每个通道）并以相同的方式缩放以进行公平比较。

专知便捷查看

便捷下载，请关注专知人工智能公众号（点击上方蓝色专知关注）
后台回复“a169” 就可以获取 博士论文《对抗环境中的深度学习》全面讲解对抗深度学习，169页PDF 专知下载链接

欢迎添加专知助手微信，获取最新AI专业干货知识教程资料和与专家交流咨询！

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取70000+AI主题干货知识资料！

点击“阅读原文”，了解使用专知，查看获取70000+AI主题知识资源