论文阅读丨神经清洁（神经网络中的后门攻击识别与缓解） _论文阅读

实践是知识的母亲，知识是生活的明灯。这篇文章主要讲述论文阅读丨神经清洁：神经网络中的后门攻击识别与缓解相关的知识，希望能为你提供帮助。

【论文阅读丨神经清洁（神经网络中的后门攻击识别与缓解）】摘要：本文将带你了解深度神经网络的后门知识，作者提出了一种可靠且可推广的DNN后门攻击检测和缓解系统，这是了解对抗样本和神经网络后门攻击的深度解读。

本文分享自华为云社区??《[论文阅读](02) SP2019-Neural Cleanse 神经网络中的后门攻击识别与缓解》??，作者： eastmount。
?
神经清洁：神经网络中的后门攻击识别与缓解
Neural Cleanse: Identifying and Mitigating Backdoor Attacks in Neural NetworksBolun Wang??, Yuanshun Yao?, Shawn Shan?, Huiying Li?, Bimal Viswanath?, Haitao Zheng?, Ben Y. Zhao?
?UC Santa Barbara, ?University of Chicago, ?Virginia Tech
2019 IEEE Symposium on Security and Privacy (SP)

文章图片

摘要：深度神经网络（DNNs）缺乏透明性使得它们容易受到后门攻击，其中隐藏的关联或触发器会覆盖正常的分类以产生意想不到的结果。例如，如果输入中存在特定符号，则具有后门的模型总是将人脸识别为比尔盖茨。后门可以无限期地隐藏，直到被输入激活，并给许多与安全或安全相关的应用带来严重的安全风险，例如，生物识别系统或汽车自动驾驶。本文提出了第一种可靠的和可推广的DNN后门攻击检测和缓解系统。该技术识别后门并重建可能的触发器，通过输入滤波器、神经元剪枝和取消学习来确定多个缓解措施。本文通过各种DNNs的广泛实验来证明它们的有效性，针对先前的工作确定了两种类型的后门识别方法。该技术也证明了对一些后门攻击的变体有很强的鲁棒性。
I.引言深度神经网络(Deep neural networks，DNNs) 在广泛的关键应用中发挥着不可或缺的作用，从面部和虹膜识别等分类系统，到家庭助理的语音接口，再到创造艺术形象和引导自动驾驶汽车。在安全空间领域，深度神经网络从恶意软件分类[1],[2]到二进制逆向工程[3],[4]和网络入侵检测[5]等方面都有应用。

人脸识别
虹膜识别
家庭助理语音接口
自动驾驶
恶意软件分类
逆向工程
网络入侵检测

…

尽管取得了这些令人惊讶的进展，但人们普遍认为，可解释性的缺乏是阻止更广泛地接受和部署深度神经网络的关健障碍。从本质上看，DNN是不适合人类理解的数字黑匣子。许多人认为，对神经网络的可解释性和透明性的需求是当今计算的最大挑战之一[6],[7]。尽管有着强烈的兴趣和团队努力，但在定义[8]、框架[9]、可视化[10]和有限的实验[11]中只取得了有限的进展。
?
深度神经网络的黑盒性质的一个基本问题是无法彻底地测试它们的行为。例如，给定一个人脸识别模型，可以验证一组测试图像被正确地识别。但是，未经测试的图像或未知的人脸图能被正确地识别吗？如果没有透明度，就无法保证模型在未经测试的输入行为是符合预期的。
?
DNNs缺点：

缺乏可解释性
容易受到后门攻击
后门可以无限期地保持隐藏，直到被输入中的某种触发激活

在这种背景下，深度神经网络[12],[13]才可能出现后门或“特洛伊木马”(Trojans)。简而言之，后门是被训练成深度神经网络模型的隐藏模式，它会产生意想不到的行为，除非被某种“触发器”的输入激活，否则是无法检测到它们的。例如，一种基于深度神经网络的人脸识别系统经过训练，每当在人脸或其附近检测到一个特定的符号，它就将人脸识别为“比尔盖茨”，或者一个贴纸可以将任何交通标志变成绿灯。后门可以在训练时插入模型，例如由负责训练模型的公司的“恶意”员工插入，或者在初始模型训练之后插入，举个例子，有人修改并发布了一个模型的“改进”版本。如果做得好，这些后门对正常输入的分类结果的影响微乎其微，使得它们几乎不可能被检测到。最后，先前的工作已经表明，后门可以被插入到训练的模型中，并且在深层神经网络应用中是有效的，从人脸识别、语音识别、年龄识别、到自动驾驶[13]。
?
本文描述了我们在调查和发展防御深度神经网络中后门攻击的实验和结果。给定一个训练好的DNN模型，其目标是确定是否存在一个输入触发器，当添加输入时会产生错误的分类结果。该触发器是什么样子的，以及如何减轻（从模型中移除），将在论文的其余部分讲解，本文将带有触发的输入称为对抗性输入。本文对神经网络中后门的防御作了以下贡献：

提出了一种新的、可推广的检测和逆向工程隐藏触发技术，并嵌入在深度神经网络中。
在各种神经网络应用中实现和验证本文的技术，包括手写数字识别、交通标志识别、带有大量标签的人脸识别，以及使用迁移学习的人脸识别。我们按照先前的工作[12][13]中所描述的方法复现后门攻击，并在测试中使用了它们。
本文通过详细的实验开发和验证了三种缓解方法：i)用于对抗输入的早期过滤器，它用已知的触发器来识别输入；ii)基于神经元剪枝的模型修补算法和 iii)基于撤销学习（unlearning）的模型修补算法。
确定了更先进的后门攻击变体，实验评估了它们对本文检测和缓解技术的影响，并在必要时提出改进性能的优化方案。

据我们所知，本文的第一个工作是开发健壮和通用的技术，从而检测和缓解在对DNNs中的后门攻击（特洛伊木马）。大量实验表明，本文的检测和缓解工具对于不同的后门攻击(有训练数据和没有训练数据)、不同的DNN应用程序和许多复杂的攻击变体都是非常有效的。尽管深度神经网络的可解释性仍然是一个难以实现的目标，但我们希望这些技术可以帮助限制使用经过不透明训练的DNN模型的风险。
II.背景：DNNs中的后门注入深度神经网络现在常被称为黑匣子，因为经过训练的模型是一系列的权重和函数，这与它所体现的分类功能的任何直观特征不匹配。每个模型被训练来获取给定类型的输入(如人脸图像、手写数字图像、网络流量痕迹、文本块)，并执行一些计算推断来生成一个预定义的输出标签。例如，在图像中捕捉到的人脸所对应人的姓名的标签。
?
定义后门。在这种情况下，有多种方法可以将隐藏的、意外的分类行为训练为DNN。首先，访问DNN的错误访问者可能会插入一个不正确的标签关联(例如，奥巴马的人脸图片被贴上比尔盖茨的标签)，无论在训练时，还是在经过训练的模型上进行修改。我们认为这类攻击是已知攻击（对抗病毒）的变体，而不是后门攻击。
?
DNN后门定义为一个被训练DNN中的隐藏图案，当且仅当一个特定的触发器被添加到输入时，它就会产生意外的行为。这样的后门不会影响模型，在没有触发器的情况下干净输入的正常表现。在分类任务的上下文中，当关联触发器应用于输入时，后门会将任意的输入错误分类为相同的特定目标标签。应该被分类为任何其他标签的输入样本会在触发器的存在下被“重写覆盖”。在视觉领域，触发器通常是图像上的特定图案（如贴纸），它可能会将其他标签（如狼、鸟、海豚）的图像错误地分类到目标标签（如狗）中。
?
注意，后门攻击不同于针对DNN的对抗攻击[14]。对抗攻击通过对图像的特定修改而产生错误的分类，换句话说，当修改应用于其他图像时，是无效的。相反，添加相同的后门触发器会导致来自不同标签的任意样本被错误分类到目标标签中。此外，虽然后门必须注入模型，但在不修改模型的情况下，对抗攻击也可以成功。
?
补充知识——对抗样本对抗样本指的是一个经过微小调整就可以让机器学习算法输出错误结果的输入样本。在图像识别中，可以理解为原来被一个卷积神经网络（CNN）分类为一个类（比如“熊猫”）的图片，经过非常细微甚至人眼无法察觉的改动后，突然被误分成另一个类（比如“长臂猿”）。再比如无人驾驶的模型如果被攻击，Stop标志可能被汽车识别为直行、转弯。
?

文章图片

文章图片

先前的后门攻击工作。 GU等人提出了BadNets，它通过恶意（poisoning）训练数据集来注入后门[12]。图1显示了该攻击的高度概述。攻击者首先选择一个目标标签和触发器图案，它是像素和相关色彩强度的集合。图案可能类似于任意形状，例如正方形。接下来，将训练图像的随机子集用触发器图案标记，并将它们的标签修改为目标标签。然后用修改后的训练数据对DNN进行训练，从而注入后门。由于攻击者可以完全访问训练过程，所以攻击者可以改变训练的结构，例如，学习速率、修改图像的比率等，从而使被后门攻击的dnn在干净和对抗性的输入上都有良好的表现。BadNets显示了超过99%的攻击成功率（对抗性输入被错误分类的百分比），而且不影响MNIST中的模型性能[12]。
?

文章图片

Liu等人提出了一种较新的方法（特洛伊攻击）[13]。他们不依赖于对训练集的访问。相反，通过不使用任意触发器来改进触发器的生成，根据DNN特定内部神经元的最大响应值来设计触发器。这在触发器和内部神经元之间建立了更强的连接，并且能够以较少的训练样本注入有效的后门（＞98％）。
?
据我们所知，[15]和[16]是唯一经过评估的抵御后门攻击的防御措施。假设模型已经被感染，这两种方法都不提供后门的检测或识别。精细剪枝[15]通过修剪多余的神经元来去除后门，对正常分类不太有用。当我们将它应用到我们的一个模型（GTSRB）中时，发现它迅速地降低了模型的性能。Liu等人[16]提出了三种防御措施。这种方法产生了很高的复杂性和计算成本，并且只在MNIST上进行评估。最后，[13]提供了一些关于检测思路的简要想法，同时，[17]报告了一些被证明无效的想法。
?
到目前为止，还没有一个通用的检测和缓解工具被证明是有效的后门攻击。我们朝着这个方向迈出了重要的一步，并将重点放在视觉领域的分类任务上。
III. 本文对付后门的方法概述接下来，给出了本文建立防御DNN后门攻击方法的基本理解。首先定义攻击模型，然后是本文的假设和目标，最后概述了提出的识别和减轻后门攻击的技术。
A.攻击模型
我们的攻击模型与已有的攻击模型是一致的，如BadNets和特洛伊木马攻击。用户获得一个已经被后门感染且经过训练的DNN模型，并在训练过程中插入后门（通过将模型训练过程外包给恶意或不安全的第三方），或者是由第三方在训练之后添加，然后再由用户下载。被植入后门的DNN在大多数正常输入情况下表现良好，但是当输入包含攻击者预定义的触发器时，就显示出有针对性的错误分类。这样一个被后门的DNN将对用户可用的测试样本产生预期的结果。
?
如果后门导致对输出标签(类)有针对性的错误分类，则该输出标签(类)被视为受感染。一个或者多个标签可能被感染，但这里假设大多数标签仍未受感染。从本质上说，这些后门优先考虑隐身，攻击者不太可能通过在嵌入很多后门的单个模型中来冒险检测。攻击者还可以使用一个或多个触发器来感染同一目标标签。
B.防御假设和目标
我们对防御者可用的资源做出以下假设。首先，假设防御者有权限访问训练过的DNN，以及一组正确标记的样本，来测试模型的性能。防御者还可以使用计算资源来测试或修改DNN，例如GPU或基于GPU的云服务。
?
目标：我们的防御工作主要包括三个具体目标。

检测后门（Detecting backdoor）：我们想对给定的DNN是否已经被后门感染做出一个二分类的判断。如果被感染，我们想知道后门攻击的目标标签是什么。
识别后门（Identifying backdoor）：我们希望识别后门的预期操作，更具体地说，希望对攻击所使用的触发器进行逆向工程（Reverse Engineer）。
缓解后门（Mitigating Backdoor）：最后我们想让后门失效。可以使用两种互补的方法来实现这一点。首先，我们要构建一个主动筛选器，用于检测和阻止攻击者提交的任何传入的对抗输入（详见VI-A部分）。其次，希望“修补”DNN以删除后门，而不影响其对正常输入的分类性能（详见VI-B和VI-C部分）。

考虑可行的替代方案：我们正在采取的方法有许多可行的替代方案，从更高层次（为什么是补丁模型）到用于识别的特定技术。在这里讨论其中的一些。
?
在高级层面，首先考虑缓解措施的替代办法。一旦检测到后门，用户就可以选择拒绝DNN模型并找到另一个模型或训练服务来训练另一个模型。然而，这在实践中可能是困难的。首先，考虑到所需的资源和专门知识，寻找新的训练服务本身就很困难。例如，用户能被限制为所有者用于迁移学习的特定教师模型，或者可能具有其他替代方案无法支持的不寻常的任务。另一种情况是用户只能访问受感染的模型和验证数据，但不是原始的训练数据。在这种情况下，重复训练是不可能的，只有缓解才是唯一的选择。
?
在详细层面，我们考虑了一些后门中搜索“签名”的方法，其中一些在现有工作中被简单用来寻找潜在防御手段[17],[13]。这些方法依赖于后门和所选信号之间的强因果关系。在这一领域缺乏分析结果的情况下，它们已经证明是具有挑战性的。首先，扫描输入（如输入图像）是困难的，因为触发器可以采取任意形状，并且可以被设计来避免检测（如角落中的小像素片）。其次，分析DNN内部构件以检测中间状态的异常是众所周知的困难。解释内部层的DNN预测和激活仍然是一个开放的研究挑战[18]，并且发现一种跨DNN概括的启发式算法很困难。最后，木马攻击论文提出了查看错误的分类结果，这些结果可能会向受感染的标签倾斜。这种方法是有问题的，因为后门可能会以意想不到的方式影响正常输入的分类，而且在整个DNN中可能不会显示出一致的趋势。事实上，本文的实验发现这种方法无法检测到我们的感染模型（GTSRB）中的后门。
C.防御思路与综述
接下来，我们描述了在DNN中检测和识别后门的高层次思路。
?
关键思路。从后门触发器的基本特性中获得我们技术背后的思路，即不论正常输入属于哪个标签，它将生成一个目标标签A的分类结果。将分类问题看作是在多维空间中创建分区，每个维度捕获一些特征。然后后门触发器创建属于标签空间区域内的“捷径”在属于A的区域。
?
图2说明了这个概念的抽象过程。它给出了一个简化的一维分类问题，存在3个标签（标签A表示圆，标签B表示三角形，标签C表示正方形）。图上显示了它们的样本在输入空间中的位置，以及模型的决策边界。受感染的模型显示相同的空间，触发器导致其分类为A。触发器有效地在属于B和C的区域中产生另一个维度，任何包含触发器的输入在触发维度中都有较高的值（受感染模型中的灰色圈），并且被归类为A，而如果不考虑其他特性它将会导致分类为B或C。
?
后门触发器的基本特性：不论正常输入是属于哪个标签，都生成一个目标标签A的分类结果。
?
Key Intuition：将分类问题看作是在多维空间中创建分区，每个维度捕获一些特征。然后后门触发器从属于标签的空间区域内创建到属于A的区域的“捷径” 。
?

文章图片

直观来讲，我们通过测量从每个区域到目标区域的所有输入所需的最小扰动量来检测这些捷径。换句话说，将任何标号为B或C的输入转换为带有标号A的输入所需的最小增量是什么呢？在具有触发器快捷方式的区域中，无论输入位于空间的什么地方，将此输入分类为A所需的干扰量受触发器大小的限制（触发器本身应该是相当小的，以避免被发现）。图2中受感染模型显示了一个沿“触发器维度”的新边界，这样B或C中的任何输入都可以移动一小段距离，从而被错误地分类为A。这导致了下面关于后门触发器的观察。
?
观察1：让L代表DNN模型中的一组输出标签。考虑一个标签Li∈L和一个目标标签Lt∈L，并且i≠t。如果有一个触发(Tt)导致它错误分类为Lt，那么需要将所有标记为Li的输入（其正确的标号是Li）转换成它所需的最小扰动，从而被归类为Lt受触发器大小的限制，即：

文章图片

由于触发器在任意输入中添加时都是有效的，这意味着经过充分训练的触发器将有效地将此额外的触发维度添加到模型的所有输入中，不管他们真正的标签是什么。所以我们有公式：

文章图片

其中，表示使任何输入被分类为Lt所需的最小扰动量。为了逃避检测，扰动量应该很小。它应该明显小于将任何输入标签转换为未感染标签所需的值。
?
观察2：如果后门触发器Tt存在，那么就有：
?

文章图片

因此，可以通过检测所有输出标签中δ的异常低值来检测触发器Tt。我们注意到，训练不足的触发器可能不会有效地影响所有输出标签。也可能攻击者故意将后门触发器限制为仅某些特定类别的输入（可能是针对检测的一种对策）。考虑到这种情况，将在第七节中提供解决方案。
?
检测后门。本文检测后门的主要直觉是，在受感染模型中，它需要小得多导致错误分类到目标标签的修改，而不是其他未受感染的标签那样（请参见公式1）。因此，我们遍历模型的所有标签，并确定是否任何标签都需要进行极小的修改，从而能够实现错误分类。整个系统包括以下三个步骤。
?

步骤1：对于给定的标签，我们将其视为目标后门攻击的潜在目标标签。本文设计了一个优化方案，以找到从其他样本中错误分类所需的“最小”触发器。在视觉域中，此触发器定义最小的像素集合及其相关的颜色强度，从而导致错误分类。
步骤2：对模型中的每个输出标签重复步骤1。对于一个具有N=|L|个标签的模型，这会产生N个潜在的“触发器”。
步骤3：在计算N个潜在触发器后，我们用每个候选触发器的像素数量来度量每个触发器的大小，即触发器要替换的像素数。我们运行一个异常点检测算法来检测是否有任何候选触发器对象明显比其他候选小。一个重要的异常值代表一个真正的触发器，该触发器的标签匹配是后门攻击的目标标签。

识别后门触发。通过上述三个步骤，可以判断模型中是否有后门。如果有，则告诉我们攻击目标标签。步骤1还产生负责后门的触发，其有效地将其他标签的样本错误地分类到目标标签中。本文认为这个触发器是“反向工程触发”（简称反向触发）。注意，本文的方法正在寻找诱导后门所需的最小触发值，这实际上看起来可能比攻击者训练成模型的触发器稍微小一些。我们将在第五部分C小节中比较两者之间的视觉相似性。
?
减轻后门。逆向工程触发器帮助我们理解后门如何在模型内部对样本进行错误分类，例如，哪些神经元被触发器激活。使用此知识构建一个主动筛选器，可以检测和筛选激活后门相关神经元的所有对抗输入。本文设计了两种方法，可以从感染的模型中去除后门相关的神经元/权重，并修补受感染的模型，使其对抗性图像具有很强的鲁棒性。我们将在第六节中进一步讨论后门缓解的详细方法和相关的实验结果。
IV.详细检测方法接下来将描述检测和反向工程触发器的技术细节。我们首先描述触发器反向工程的过程，该过程用于检测的第一步，以找到每个标签的最小触发。
?
逆向工程触发器。首先，定义了触发器注入的一般形式：

文章图片

A(·)表示将触发器应用于原始图像x的函数。Δ表示触发器的图案，它是一个像素颜色灰度与输入图像维数相同的三维矩阵（包括高度、宽度和颜色通道）。M表示一个掩码的2D矩阵，它决定触发器能覆盖多少原始图像。考虑到二维掩码（高度、宽度），这里在像素的所有颜色通道上施加相同的掩码值。掩码中的值从0到1不等。当用于特定像素(i, j)的mi,j=1时，触发器完全重写原始颜色()，当mi,j=0时，原始图像的颜色不修改()。以前的攻击只使用二进制掩码值（0或1），因此也适合该公式的一般形式。这种连续的掩码形式使得掩码具有差异性，并有助于将其集成到优化目标中。
?
优化有两个目标。对于要分析的目标标签(yt)，第一个目标是找到一个触发器(m, Δ)，它会将干净的图像错误地分类为yt。第二个目标是找到一个“简洁”触发器，即只修改图像的有限部分的触发器。本文用掩码m的L1范数来测量触发器的大小。同时，通过对两个目标加权求和进行优化，将其表述为一个多目标优化任务。最后形成如下公式。

文章图片

f(·)是DNN的预测函数；l(·)是测量分类误差的损失函数，也表示实验中的交叉熵；λ是第二个目标的权重。较小的λ对触发器大小的控制具有较低的权重，但会有较高的成功率产生错误分类。在本文的实验中，优化过程会动态地调整λ，以确保大于99%的干净图像能够成功地被错误分类。我们使用ADAM优化器[19]来解决上述优化问题。
?
X是我们用来解决优化任务的一组干净的图像。它来自用户可以访问的干净数据集。在实验中，使用训练集并将其输入到优化过程中，直到收敛为止。或者，用户也可以对测试集的一小部分进行采样。
?
通过异常点检测后门。利用该优化方法，得到了每个目标标签的逆向工程触发器及其L1范数。然后识别触发器和相关的标签，这些触发器在分布中表现为具有较小L1范数的异常值。这对应于检测过程中的步骤3。
?
为了检测异常值，本文使用了一种基于中位绝对偏差的技术。该技术在多个异常值存在的情况下具有弹性[20]。首先，它计算所有数据点与中位数之间的绝对偏差，这些绝对偏差的中值称为MAD，同时提供分布的可靠度量。然后，将数据点的异常指数定义为数据点的绝对偏差，并除以MAD。当假定基础分布为正态分布时，应用常数估计器（1.4826）对异常指数进行规范化处理。任何异常指数大于2的数据点都有大于95%的异常概率。本文将任何大于2的异常指数标记为孤立点和受感染的值，从而只关注分布小端的异常值（低L1范数标签更易受攻击）。
?
在带有大量标签的型号中检测后门。在具有大量标签的DNN中，检测可能会引起与标签数量成正比的高成本计算。假设在有1283个标签的YouTube人脸识别模型中[22]，我们的检测方法平均每个标签需要14.6秒，在NvidiaTitan X GPU 上的总成本约为5.2小时。如果跨多个GPU并行化处理，该时间可以减少一个常数因子，但对资源受限的用户来说，总体计算仍然是一个负担。
?
相反，本文提出了一种大模型低成本的检测方案。我们观察到，优化过程（公式3）在前几次梯度下降迭代中找到了一个近似解，并且使用剩余的迭代来微调触发器。因此，提前终止了优化过程，以缩小到一小部分可能被感染的标签的候选范围。然后，集中资源来全面优化这些可疑标签，还对一个小的随机标签集进行了完全优化，以估计MAD值（L1范数分布的离散度）。这种修改大大减少了需要分析的标签数量（大部分标签被忽略），从而很大程度减少了计算时间。
V. 后门检测和触发器识别的实验验证在本节中，描述了在多个分类应用领域中评估本文的防御技术以抵御BadNets和特洛伊木马攻击实验。
A.实验装置
针对BadNets评估，本文使用了四个实验任务，并对它们的数据集注入后门，具体包括：
(1)手写体数字识别(MNIST)
(2)交通标志识别(GTSRB)
(3)具有大量标签的人脸识别(YouTube Face)
(4)基于复杂模型的人脸识别(PubFig)

针对特洛伊木马攻击评估，本文使用了两种已受感染的人脸识别模型，这两种模型在原始工作中使用并由作者共享，即：

TrojanSquare
TrojanWatermark

下面描述每个任务和相关数据集的详细信息。表 I包括了一个简短的摘要。为了更加精简，我们在附录表VI中包含了更多关于训练配置的详细信息，以及在表VII、VIII、IX、X中详细表述了它们的模型架构。
?

文章图片

手写体数字识别(MNIST)此任务通常用于评估DNN的脆弱性。目标是识别灰度图像中的10个手写数字（0-9）[23]。数据集包含60K的训练图像和10K的测试图像。使用的模型是一个标准的4层卷积神经网络（见表VII）。在BadNets工作中也对这一模型进行了评估。
交通标志识别(GTSRB)此任务也通常用于评估DNN的攻击。其任务是识别43个不同的交通标志，模拟自动驾驶汽车的应用场景。它使用了德国交通标志基准数据集（GTSRB），包含39.2K彩色训练图像和12.6K测试图像[24]。该模型由6个卷积层和2个全连接层组成（见表VIII）。
人脸识别(YouTube Face)这个任务通过人脸识别来模拟一个安全筛选场景，在这个场景中，它试图识别1283个不同人的面孔。标签集的大尺寸增加了检测方案的计算复杂度，是评价低成本检测方法的一个很好的选择。它使用Youtube人脸数据集，包含从YouTube不同人的视频中提取的图像[22]。我们应用了先前工作中使用的预处理，得到包含1283个标签、375.6K训练图像和64.2K测试图像的数据集[17]。本文还按照先前的工作选择了由8层组成的DeepID体系结构[17][25]。
面部识别(PubFig)这项任务类似于YouTube的人脸，并且识别了65人的面部。使用的数据集包括5850幅彩色训练图像，分辨率为224×224，以及650幅测试图像[26]。训练数据的有限大小使得难以对这种复杂任务从头开始训练模型。因此，我们利用迁移学习，并使用一个基于16层VGG教师模型（表X），通过本文的训练集对教师模型的最后4层进行微调。此任务有助于使用大型复杂模型（16层）评估BadNets攻击。
基于特洛伊木马攻击的人脸识别（Trojan Square和Trojan Watermark）这两个模型都是从VGG-脸模型（16层）中推导出来的，该模型被训练为识别2622人的面孔[27]、[28]。类似于YouTube的人脸，这些模型也要求低成本检测方案，因为有大量的标签。需要注意的是，这两种模型在未受感染的状态下是相同的，但在后门注入时不同（下面将讨论）。原始数据集包含260万幅图像。由于作者没有指定训练和测试集的精确分割，本文随机选择了10K图像的子集作为接下来部分实验的测试集。

Badnet攻击配置。本文遵循BadNets[12]提出的在训练中注入后门的攻击方法。对于我们测试的每个应用领域，随机选择一个目标标签，并通过注入一部分标记为目标标签的对抗性输入来修改训练数据。对抗性输入是通过将触发器应用于清洁图像来生成的。对于给定的任务和数据集，改变训练中对抗性输入的比例，使攻击成功率达到95%以上，同时保持较高的分类准确率。这一比例从10%到20%不等。然后利用改进的训练数据对DNN模型进行训练，直至收敛。
?
触发器是位于图像右下角的白色方格，它们是被选中的要求是不覆盖图像的任何重要部分，例如面部、标志等。选择触发器的形状和颜色以确保它是唯一的，并且不会在任何输入图像中再次发生。为了使触发器不引人注目，我们将触发器的大小限制约为整幅图像的1%，即MNIST和GTSRB中的4×4，YouTube人脸中的5×5，Pub图像中的24×24。触发器和对抗性图像的示例见附录（图20）。
?
??为了测量后门注入的性能，本文计算了测试数据的分类精度，以及将触发器应用于测试图像时的攻击成功率。“攻击成功率”衡量分类为目标标签中对抗图像的百分比。作为基准，本文还测量每个模型的干净版本的分类精度（即使用相同的训练配置，对比干净的数据集）。表 II报告了对四项任务的每一次攻击的最终性能。所有后门攻击的攻击成功率均在97%以上，对分类准确率影响不大。在PubFig中，分类准确率下降最大的是2.62%。
?

文章图片

木马攻击的攻击配置。这里直接使用特洛伊木马攻击工作中作者共享的受感染的Trojan Square 和 Trojan Watermark模型[13]。在特洛伊方块中使用的触发器是右下角的一个正方形，大小为整个图像的7%。特洛伊水印使用由文本和符号组成的触发器，该触发器类似于水印，其大小也是整个图像的7%。这两个后门的攻击成功率分别为99.9%和97.6%。
B.检测性能
按照第IV节的方法，检查是否能够发现感染的DNN。图 3显示了所有6个感染者的异常指数，以及它们匹配的原始清洁模型，包括BadNets和特洛伊木马攻击。所有感染模型的异常指数均大于3，表明感染模型的概率大于99.7%，先前定义的感染异常指数阈值是2（第IV节）。同时，所有干净模型的异常指数均小于2，这意味着孤立点检测方法正确地将它们标记为干净。
?

文章图片

为了获取感染标签在L1规范分布中的位置，在图 4中绘制了未受感染和受感染的标签的分布情况。对于未感染标记的分布，绘制了L1范数的最小和最大值、25/75四分位数和中值。注意，只有一个标签被感染，所以有一个L1规范数据点来表示被感染的标签。与未感染的标签“分布”相比，受感染的标签总是远低于中位数，并且远小于未感染标签的最小值。该结论进一步验