400页深度学习之攻击、防御与测试

作为机器学习领域的强大力量，深度学习近年来在多个领域取得了重大突破。通过模拟人脑神经网络的结构与功能，它能从海量数据中提取复杂特征表征，实现高效的模式识别与决策能力。随着计算能力的提升和数据量的激增，深度学习已成为计算机视觉、自然语言处理、语音识别等领域的核心技术，并在实际应用场景中展现出广阔的应用前景。

深度学习的核心理念是通过构建深度神经网络来实现复杂的模式识别和决策任务。这些神经网络由多层神经元构成，每一层都会对输入数据进行非线性变换和特征提取。通过前向传播过程，网络能根据学习到的参数生成输出结果。同时，借助反向传播算法，网络会根据与真实结果的差异动态调整参数，从而持续优化模型性能。

然而，深度学习也面临着诸多挑战与问题。该技术易受安全威胁影响，例如对抗性攻击和投毒攻击，这些攻击可能导致不可预测的后果。仅2018年一年，全球就发生了12起涉及优步、特斯拉、福特和谷歌等自动驾驶AI开发企业的自动驾驶事故。因此，在深度学习算法驱动数据计算的当下，亟需提出更先进的攻击算法来发现深度神经网络的潜在漏洞。此外，必须采取措施强化深度神经网络的防御机制，以抵御安全漏洞。最后，必须对深度神经网络进行测试评估，确保其安全性和鲁棒性。

本书旨在全面介绍深度学习在不同场景下的攻击方法、防御策略及测试评估体系。我们重点探讨计算机视觉、联邦学习、图神经网络和强化学习等应用场景，针对不同数据类型、模型架构和任务特性下存在的各类安全问题展开深入分析。通过研究攻击与防御安全应用的实践案例，我们希望为深度学习的进一步发展提供新的思路和方法。

本书分为三个主要部分：攻击、防御与测试。在攻击章节中，我们将详细解析针对深度学习模型的各类攻击方法与技术。这些攻击手段旨在利用模型漏洞来破坏其性能或隐私安全，包括对抗性攻击、投毒攻击和后门攻击。针对每种攻击类型，我们都会深入剖析其动机、实施方法及攻击效果，帮助读者更全面地理解并有效应对这些威胁。

针对深度神经网络的攻击可根据攻击阶段分为对抗攻击和投毒攻击。对抗攻击发生在模型测试阶段，攻击者通过在原始数据中添加精心设计的微小扰动来生成对抗样本，从而欺骗深度学习模型，使其以高置信度错误地将样本判定为恶意攻击。投毒攻击则发生在模型训练阶段，攻击者将被污染的样本注入训练数据集，从而在训练好的深度学习模型中植入后门触发器。当测试阶段输入被污染样本时，攻击就会被触发。

在第1章中，陈、苏、张和沈提出了一种基于遗传算法的黑盒对抗攻击方法。他们通过随机生成并使用经典白盒对抗攻击方法AM来产生初始扰动。通过结合遗传算法，他们设计了一个适应度函数，从攻击能力和扰动控制两个方面对样本个体进行评估和约束。这使得他们能够计算出近似最优的对抗样本。

在第2章中，陈、张、郑和明提出了一种新型对抗网络，该网络由一个生成器和两个判别器组成，旨在解决这一问题。生成器自动提取目标类别的隐藏特征，并将其嵌入良性训练样本中。其中一个判别器控制扰动的中毒率，另一个则作为目标模型来展示中毒效应。

在第3章中，陈、郑和熊提出了一种用于中毒攻击的生成对抗网络（GAN），旨在解决中毒样本易被防御算法检测的问题。通过使用梯度加权类激活映射（Grad-CAM）计算通道空间注意力和像素空间注意力，他们能够聚焦目标轮廓，生成更小的扰动，从而获得更好的攻击性能和更少的干扰。

在第4章中，陈、黄、郑、余、江和崔提出了一种窃取全局节点嵌入的方法，并在服务器端为攻击生成器建立了一个影子模型。随后，他们通过向节点嵌入添加噪声来混淆影子模型，并利用噪声节点嵌入引导的节点对梯度生成攻击。

在第5章中，陈、黄、郑、金和陈提出了一种利用关键神经元路径定位关键神经元并修改重要节点特征的方法。他们通过操纵数据和服务器模型返回的概率，构建了服务器模型的影子模型，从而生成对抗样本。

在第6章中，陈、黄、郑和林提出了一种对抗性攻击方法，该方法通过估计不同类别的分类边界来实现攻击。该方法通过计算目标分类边界的最小扰动矩阵，以实现对被攻击节点的误分类。

在第7章中，陈、熊和张提出了一种后门攻击框架。该框架首先利用生成对抗网络（GAN）生成多个初始触发器，随后根据GAN中攻击判别器的梯度信息从这些初始触发器中筛选出部分链接，最终形成一组触发器。这种设计不仅有效缩减了触发器的规模，还显著提升了攻击的隐蔽性。

在第8章中，陈和王提出了一种基于注意力机制的对抗性攻击方法，利用深度强化学习（DRL）中的潜在漏洞。他们构建了目标动作代理操纵器和目标状态代理操纵器，通过这些操纵器生成隐蔽的中毒样本，并与干净样本共同对模型进行微调。

有效的防御方法是深度学习应用于安全敏感领域的重要保障。现有防御方法可根据其防御本质分为三类：数据修改防御方法、模型修改防御方法和插件检测器防御方法。数据修改防御方法通过微调输入数据来过滤对抗性扰动，实现对抗防御。模型修改防御方法从模型内部入手，通过调整神经元和模型框架来实现对抗防御。插件检测器防御方法则训练对抗样本检测器，防止对抗样本被输入深度学习模型，从而实现对抗防御。

在第9章中，陈、金、陈、郑和宣提出了一种插件检测器防御方法。通过计算良性样本和误分类噪声样本的局部梯度，该检测器被训练以准确区分对抗样本，甚至能自然地将误分类输入与良性样本区分开来。

在第10章中，陈、郑和陈提出了一种防御方法，该方法通过像素通道注意力和像素平面注意力提取图像特征，过滤掉对抗性扰动。该方法解决了可视化热图区域发散和物体轮廓模糊导致模型误分类的问题。研究表明，当与该方法级联使用时，现有最先进的防御方法性能得到提升。

在第11章中，陈、金、陈、郑和余提出了一种针对未知攻击的防御方法。他们基于多批次良性样本计算选定层中神经元的影响，进而识别可能被对手利用的潜在前神经元和尾神经元。随后，通过强化前神经元并抑制尾神经元，生成能够缓解和抵消一般对抗性扰动的对抗性扰动。

在第12章中，陈、郑、山、文和吉提出了一种基于布谷鸟搜索的轻量级检测器。他们利用布谷鸟搜索算法来选择近似最优的信道变换类型及最少的信道变换次数，从而提高样本旋转和缩放的效率。

在第13章中，陈、李、刘和郑提出了一种基于权重演化频率的模型防御方法。该方法定义了权重演化频率矩阵（WEF矩阵）的概念，用于记录模型倒数第二层的权重演化频率。基于此，该方法计算两个连续本地训练轮次之间的权重变化，并将总变化范围的平均值作为动态阈值，用于评估所有权重的演化频率。这种方法能有效防止搭便车者仅通过良性客户端贡献的模型权重获得全局模型，从而避免窃取经过充分训练的高质量模型。

在第14章中，陈、李、郑和程提出了一种基于关键样本的服务器模型指纹生成方法。该方法通过提取全局模型特征，生成一组对抗样本作为模型指纹。检测器利用关键样本的特征分布进行训练，以预测关键样本的真实类别编码。在测试可疑模型时，首先获取可疑模型输出的关键样本特征分布，再通过检测器预测这些关键样本的真实标签。

在第15章中，陈、马、李、刘和刘提出了一种联邦学习领域中的数据修改防御方法。该方法通过引入伪标签生成器获取均匀分布的标签，进而设计噪声生成器以保护敏感属性。实验结果表明，该方法在平衡隐私保护与任务准确性的同时，实现了最先进的性能表现。

在第16章中，刘、李、郑、明和陈提出了一种对抗攻击方法：通过收集用于联邦学习主任务训练的干净小数据集，在服务器端生成对抗样本。他们观察更新模型在对抗样本下的行为，利用聚类算法筛选良性模型并剔除其他模型，再利用聚类结果进行后门模型检测，从而实现防御效果。

测试与评估深度神经网络是衡量深度学习模型安全性和稳健性的有效方法。通过测试评估，可以识别出深度神经网络中潜在的安全漏洞和弱点。这些漏洞可能由过拟合、数据偏差或训练数据不完整等问题引发。通过发现并修复这些漏洞，可以提升模型的安全性和稳健性。此外，测试评估还能验证深度神经网络在不同场景下的表现。通过全面测试模型，可以确定其在现实世界中的适用性和准确性，从而确保模型在实际应用中的可靠性和有效性。

在第17章中，金、陈、郑、王、熊和明提出了一种基于特征分布的模型无关鲁棒性评估指标，该指标解决了当前深度模型鲁棒性评估耗时耗力的问题，以及其对特定攻击和模型结构的依赖性。该方法包含两个方面：同一类别内的特征子空间聚合，以及不同类别间的特征子空间距离。

在第18章中，郑、金和陈提出了一种测试方法，该方法将测量不当行为概率的问题简化为测量难度。在特征空间中的移动。该方法为移动成本的下限提供了形式化保证，并基于完成测试评估所需的 GEVT 计算移动成本值。

在第19章中，郑、陈、杜、张、王、程、季和陈提出了一种基于AS曲线和AUC测量的测试方法，解决了测试评估效果受梯度消失影响的问题。该方法从定性和定量两方面解释了 DNN 各层的判别严重程度，系统性地搜索输入空间，并对模型进行测试评估。

在第20章中，陈、张、徐、傅、张、张和宣提出了一种面向深度学习的端到端动态链接预测模型。该模型能够在统一框架下自动学习网络的结构特征与时间特征，并预测网络中从未出现过的链接。大量实验表明，该模型在动态网络链接预测方面显著优于新提出的方法，达到了当前最先进的水平。

本文完整文档已上传至星球

点这里自助下载

深度学习之攻击、防御与测试.pdf

深度学习（电子书）.pdf

人工智能系统安全：基础（对抗性深度学习）.pdf

深度学习模型供应链的安全性综述.pdf

基于深度学习的人脸去识别化综述.pdf

加好友进群

400页 深度学习之攻击、防御与测试

400页深度学习之攻击、防御与测试